CIRIS Agent läuft auf einer kleinen Auswahl offener Modelle, die fünf unverzichtbare Kriterien erfüllen. Die aktuelle Produktionslinie besteht aus Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 und Gemma 4, die für verschiedene Aufgaben im Arbeitsablauf des Agenten ausgewählt wurden.
Das zentrale Denkwerkzeug. Es verarbeitet sehr große Kontextmengen auf einmal, weshalb es die Standardwahl für die tieferen Denkschritte ist, bei denen das Gesamtbild stets im Blick bleiben muss.
Anbieter: OpenRouter, Groq, Together, DeepInfra
Der schnelle Begleiter in der Llama-4-Familie. Kleiner und schneller als Maverick, mit zuverlässigem Tool-Calling. Eingesetzt in interaktiven Stufen, wo kurze Antwortzeiten wichtig sind und das volle Kontextbudget von Maverick nicht benötigt wird.
Anbieter: OpenRouter, Groq
Mehrsprachige Tiefe und zuverlässige strukturierte Ausgabe. Trägt die Last in den nicht-englischen Denkpfaden, die der polyglotte Accord erfordert; eine unabhängige Anbieterbasis außerhalb der Llama-Familie sorgt für Redundanz in der Fallback-Kette.
Anbieter: OpenRouter, DashScope, DeepInfra
Klein genug für handelsübliche Hardware. Eingesetzt, wo Reichweite wichtiger als rohe Kapazität ist (auf Gerät, bei geringer Bandbreite und in eingeschränkten Netzwerkumgebungen) sowie als Fallback einer dritten Familie neben Llama und Qwen.
Anbieter: OpenRouter, Google
Muss nativ Function-Calling unterstützen und gültiges JSON bei 12 bis 70 Tool-Aufrufen pro Interaktion zurückgeben. CIRIS ist ein Orchestrator. Wir brauchen stabile Tool-Semantik, keine geschwätzige Konversation.
CIRIS bettet den vollständigen Accord und den Guide in jeden Prompt ein. 128K ist das absolute Minimum; 256K oder mehr ist bei langen Gesprächen, Tool-Ausgaben und Prüfprotokollen deutlich besser.
Zielwert: unter $1,00 pro 1 Million Token kombiniert. Wir wählen die günstigste funktionierende Option, nicht den günstigsten Benchmark-Gewinner. Ein zuverlässiges Modell, das JSON nie bricht, schlägt ein billigeres Modell, das in einem von zehn Aufrufen versagt.
Muss bei mindestens zwei unabhängigen Anbietern verfügbar sein, um robuste Fallback-Ketten zu ermöglichen. CIRIS degradiert bei Ausfällen kontrolliert, statt hart zu versagen.
Schnelle Antworten halten Menschen im Prozess der ethischen Überprüfung. Wir priorisieren Anbieter mit niedriger Latenz für interaktive Stufen und akzeptieren langsamere Backends für Hintergrundaufgaben.
Llama 4 Maverick über einen kostenoptimierten Anbieter für tiefe Denkschritte, die das volle Kontextbudget benötigen.
Llama 4 Scout über einen geschwindigkeitsoptimierten Anbieter (Groq) für interaktive Nutzung, mit Maverick auf Groq als Variante für größeren Kontext.
Qwen 3.6 trägt die Last in den nicht-englischen Denkpfaden, die der polyglotte Accord erfordert, und bietet einen Nicht-Llama-Fallback in der Kette.
Gemma 4 für Einsätze auf Gerät, bei geringer Bandbreite und in eingeschränkten Netzwerkumgebungen, wo es wichtiger ist, den Nutzer zu erreichen als die Größe des Modells.
Maverick → Scout → Qwen 3.6 → Gemma 4 über mehrere Anbieter, damit der Agent über Modellfamilien und Infrastrukturgrenzen hinweg kontrolliert degradiert statt hart zu versagen.
Maverick übernimmt das tiefe Denken, wo das volle Kontextbudget zählt. Scout trägt die interaktive Stufe, wo Latenz entscheidend ist. Qwen 3.6 erreicht die mehrsprachigen Denkpfade, die der Accord über 29 Sprachen erfordert. Gemma 4 ist die kompakte Option, die den Agenten auf handelsüblicher Hardware erreichbar macht. Die Auswahl ist so getroffen, dass verschiedene Arbeitsstufen das jeweils passende Modell erhalten, statt ein einziges Modell mit allem zu belasten.
Llama (Maverick + Scout), Qwen und Gemma stammen aus drei unabhängigen Trainingspipelines und drei unabhängigen Anbieter-Ökosystemen. Das ist für Fallback-Ketten wichtig: Ein CVE, eine Lizenzänderung oder ein Anbieterausfall bei einer Familie legt den Agenten nicht lahm. Unabhängigkeit auf der Modellebene ist dieselbe Eigenschaft, die die IDMA-Komponente auf der Denkebene robust macht.
Modelle, die die fünf Kriterien nicht erfüllen, meistens Modelle, die beim Token-Preis attraktiv wirken, aber bei strukturierter Ausgabe und Tool-Calling versagen.
Typischer Fehlerfall (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
Dieser Fehler ist für ein Framework, das auf 12 bis 70 Tool-Aufrufe pro Interaktion angewiesen ist, nicht akzeptabel. Selbst ein 3 bis 10-mal günstigerer Token-Preis rechtfertigt die Betriebsausfälle nicht.
CIRIS bettet den vollständigen Accord und den kompletten Comprehensive Guide in jeden Prompt ein. Keine Zusammenfassung. Keine destillierte Version. Den gesamten Governance-Text.
So wirken Änderungen am Accord oder Guide sofort auf das Verhalten aller Agenten, ohne auf neue Fine-Tunes oder Prompt-Komprimierungsstrategien warten zu müssen.
CIRIS-Agenten sind tool-intensive Orchestratoren, die gleichzeitig verwalten:
Dieser kombinierte Kontext übersteigt leicht 32K bis 64K, besonders bei langen Sitzungen oder komplexen Untersuchungen. Deshalb ist 128K das Minimum und 256K oder mehr bevorzugt.
Das Wesentliche:
CIRIS kürzt seine Werte oder Verfahren nicht, um in das Modell zu passen. Stattdessen wählt CIRIS Modelle, die groß genug sind, um das gesamte ethische und operative Regelwerk bei jedem Aufruf zu tragen. Modelle mit kleineren Kontextfenstern (auch wenn sie günstiger oder verbreiteter sind) werden vom Produktionseinsatz ausgeschlossen.
CIRIS setzt Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 und Gemma 4 im Produktionsbetrieb ein, weil sie zusammen die betrieblichen und wirtschaftlichen Anforderungen des Accord erfüllen: langer Kontext, zuverlässiges Tool-Calling, mehrsprachige Abdeckung und Reichweite bis zur handelsüblichen Hardware, über drei unabhängige Modellfamilien hinweg. Neue Modelle werden kontinuierlich überwacht und getestet; die Auswahl ändert sich, wenn etwas Besseres die fünf Kriterien tatsächlich erfüllt.
Hier geht es nicht darum, Benchmark-Wertungen zu jagen oder Hype-Zyklen zu folgen. Es geht darum, Modelle zu wählen, die für rechenschaftspflichtige, tool-zentrierte Agenten im Produktionsbetrieb wirklich funktionieren, und die den Accord ernst genug nehmen, um ihn bei jedem einzelnen Aufruf mitzutragen.