Welche LLMs wir verwenden und warum

CIRIS Agent läuft auf einer kleinen Auswahl offener Modelle, die fünf unverzichtbare Kriterien erfüllen. Die aktuelle Produktionslinie besteht aus Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 und Gemma 4, die für verschiedene Aufgaben im Arbeitsablauf des Agenten ausgewählt wurden.

Llama 4 Maverick

Das zentrale Denkwerkzeug. Es verarbeitet sehr große Kontextmengen auf einmal, weshalb es die Standardwahl für die tieferen Denkschritte ist, bei denen das Gesamtbild stets im Blick bleiben muss.

Anbieter: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Der schnelle Begleiter in der Llama-4-Familie. Kleiner und schneller als Maverick, mit zuverlässigem Tool-Calling. Eingesetzt in interaktiven Stufen, wo kurze Antwortzeiten wichtig sind und das volle Kontextbudget von Maverick nicht benötigt wird.

Anbieter: OpenRouter, Groq

Qwen 3.6

Mehrsprachige Tiefe und zuverlässige strukturierte Ausgabe. Trägt die Last in den nicht-englischen Denkpfaden, die der polyglotte Accord erfordert; eine unabhängige Anbieterbasis außerhalb der Llama-Familie sorgt für Redundanz in der Fallback-Kette.

Anbieter: OpenRouter, DashScope, DeepInfra

Gemma 4

Klein genug für handelsübliche Hardware. Eingesetzt, wo Reichweite wichtiger als rohe Kapazität ist (auf Gerät, bei geringer Bandbreite und in eingeschränkten Netzwerkumgebungen) sowie als Fallback einer dritten Familie neben Llama und Qwen.

Anbieter: OpenRouter, Google

Unsere Modellkriterien

Fünf unverzichtbare Anforderungen für CIRIS Agent

1. Strukturierte Ausgaben & Tool-Nutzung

Muss nativ Function-Calling unterstützen und gültiges JSON bei 12 bis 70 Tool-Aufrufen pro Interaktion zurückgeben. CIRIS ist ein Orchestrator. Wir brauchen stabile Tool-Semantik, keine geschwätzige Konversation.

2. Kontextfenster: mindestens 128K

CIRIS bettet den vollständigen Accord und den Guide in jeden Prompt ein. 128K ist das absolute Minimum; 256K oder mehr ist bei langen Gesprächen, Tool-Ausgaben und Prüfprotokollen deutlich besser.

3. Kosteneffizienz

Zielwert: unter $1,00 pro 1 Million Token kombiniert. Wir wählen die günstigste funktionierende Option, nicht den günstigsten Benchmark-Gewinner. Ein zuverlässiges Modell, das JSON nie bricht, schlägt ein billigeres Modell, das in einem von zehn Aufrufen versagt.

4. Verfügbarkeit bei mehreren Anbietern

Muss bei mindestens zwei unabhängigen Anbietern verfügbar sein, um robuste Fallback-Ketten zu ermöglichen. CIRIS degradiert bei Ausfällen kontrolliert, statt hart zu versagen.

5. Latenz & Nutzererfahrung

Schnelle Antworten halten Menschen im Prozess der ethischen Überprüfung. Wir priorisieren Anbieter mit niedriger Latenz für interaktive Stufen und akzeptieren langsamere Backends für Hintergrundaufgaben.

Produktionseinsatz

Standard-Stufe

Llama 4 Maverick über einen kostenoptimierten Anbieter für tiefe Denkschritte, die das volle Kontextbudget benötigen.

Schnell-Stufe

Llama 4 Scout über einen geschwindigkeitsoptimierten Anbieter (Groq) für interaktive Nutzung, mit Maverick auf Groq als Variante für größeren Kontext.

Mehrsprachige Stufe

Qwen 3.6 trägt die Last in den nicht-englischen Denkpfaden, die der polyglotte Accord erfordert, und bietet einen Nicht-Llama-Fallback in der Kette.

Edge-Stufe

Gemma 4 für Einsätze auf Gerät, bei geringer Bandbreite und in eingeschränkten Netzwerkumgebungen, wo es wichtiger ist, den Nutzer zu erreichen als die Größe des Modells.

Fallback-Kette

Maverick → Scout → Qwen 3.6 → Gemma 4 über mehrere Anbieter, damit der Agent über Modellfamilien und Infrastrukturgrenzen hinweg kontrolliert degradiert statt hart zu versagen.

Warum diese Auswahl

Verschiedene Rollen, keine austauschbaren Teile

Maverick übernimmt das tiefe Denken, wo das volle Kontextbudget zählt. Scout trägt die interaktive Stufe, wo Latenz entscheidend ist. Qwen 3.6 erreicht die mehrsprachigen Denkpfade, die der Accord über 29 Sprachen erfordert. Gemma 4 ist die kompakte Option, die den Agenten auf handelsüblicher Hardware erreichbar macht. Die Auswahl ist so getroffen, dass verschiedene Arbeitsstufen das jeweils passende Modell erhalten, statt ein einziges Modell mit allem zu belasten.

Drei unabhängige Modellfamilien

Llama (Maverick + Scout), Qwen und Gemma stammen aus drei unabhängigen Trainingspipelines und drei unabhängigen Anbieter-Ökosystemen. Das ist für Fallback-Ketten wichtig: Ein CVE, eine Lizenzänderung oder ein Anbieterausfall bei einer Familie legt den Agenten nicht lahm. Unabhängigkeit auf der Modellebene ist dieselbe Eigenschaft, die die IDMA-Komponente auf der Denkebene robust macht.

Was nicht in die Auswahl kommt

Modelle, die die fünf Kriterien nicht erfüllen, meistens Modelle, die beim Token-Preis attraktiv wirken, aber bei strukturierter Ausgabe und Tool-Calling versagen.

Typischer Fehlerfall (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

Dieser Fehler ist für ein Framework, das auf 12 bis 70 Tool-Aufrufe pro Interaktion angewiesen ist, nicht akzeptabel. Selbst ein 3 bis 10-mal günstigerer Token-Preis rechtfertigt die Betriebsausfälle nicht.

Warum 128K+ Kontext unverzichtbar ist

Accord und Guide immer dabei

CIRIS bettet den vollständigen Accord und den kompletten Comprehensive Guide in jeden Prompt ein. Keine Zusammenfassung. Keine destillierte Version. Den gesamten Governance-Text.

So wirken Änderungen am Accord oder Guide sofort auf das Verhalten aller Agenten, ohne auf neue Fine-Tunes oder Prompt-Komprimierungsstrategien warten zu müssen.

Vollständiger ethischer und verfahrenstechnischer Zustand

CIRIS-Agenten sind tool-intensive Orchestratoren, die gleichzeitig verwalten:

Mehrstufige Arbeitsabläufe
Systemzustand und Tool-Ausgaben
Nutzernachrichten und Gesprächsverlauf
Den vollständigen Accord und Guide

Dieser kombinierte Kontext übersteigt leicht 32K bis 64K, besonders bei langen Sitzungen oder komplexen Untersuchungen. Deshalb ist 128K das Minimum und 256K oder mehr bevorzugt.

Das Wesentliche:

CIRIS kürzt seine Werte oder Verfahren nicht, um in das Modell zu passen. Stattdessen wählt CIRIS Modelle, die groß genug sind, um das gesamte ethische und operative Regelwerk bei jedem Aufruf zu tragen. Modelle mit kleineren Kontextfenstern (auch wenn sie günstiger oder verbreiteter sind) werden vom Produktionseinsatz ausgeschlossen.

Wie das den CIRIS Accord unterstützt

Modellauswahl als ethische Infrastruktur

Transparenz und Überprüfbarkeit

Großer Kontext hält Denk-Traces, Entscheidungen und Tool-Aufrufe für die menschliche Überprüfung sichtbar
Stabiles JSON und strukturierte Ausgaben machen jeden Tool-Aufruf prüfbar
Vollständige Governance-Dokumente bei jedem Aufruf stellen sicher, dass Entscheidungen auf Prinzipien zurückgeführt werden können

Widerstandsfähigkeit und Governance

Einsatz bei mehreren Anbietern vermeidet einzelne Ausfallpunkte in kritischer ethischer Infrastruktur
Die Wahl von "gut genug und zuverlässig" statt "auffällig, aber fragil" priorisiert Sicherheit und Kontinuität
Kontrollierte Degradierung bei Ausfällen erhält die Dienstverfügbarkeit

Menschliche Aufsicht

Schnelle Stufen halten Menschen komfortabel im Prozess für die Echtzeit-Ethikprüfung
Günstigere Stufen ermöglichen umfangreiche Hintergrundanalysen ohne prohibitive Kosten
Ausgewogener Ansatz unterstützt sowohl den täglichen Betrieb als auch regelmäßige Governance-Prüfungen

Das Wesentliche

CIRIS setzt Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 und Gemma 4 im Produktionsbetrieb ein, weil sie zusammen die betrieblichen und wirtschaftlichen Anforderungen des Accord erfüllen: langer Kontext, zuverlässiges Tool-Calling, mehrsprachige Abdeckung und Reichweite bis zur handelsüblichen Hardware, über drei unabhängige Modellfamilien hinweg. Neue Modelle werden kontinuierlich überwacht und getestet; die Auswahl ändert sich, wenn etwas Besseres die fünf Kriterien tatsächlich erfüllt.

Hier geht es nicht darum, Benchmark-Wertungen zu jagen oder Hype-Zyklen zu folgen. Es geht darum, Modelle zu wählen, die für rechenschaftspflichtige, tool-zentrierte Agenten im Produktionsbetrieb wirklich funktionieren, und die den Accord ernst genug nehmen, um ihn bei jedem einzelnen Aufruf mitzutragen.