CIRIS Agent chạy trên một tập hợp nhỏ các mô hình mở đáp ứng năm tiêu chí không thể bỏ qua. Danh sách sản xuất hiện tại gồm Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 và Gemma 4, được chọn cho các vai trò khác nhau trong khối lượng công việc của tác nhân.
Bộ máy suy luận chính. Nó giữ được một lượng ngữ cảnh rất lớn cùng một lúc, vì vậy đây là lựa chọn mặc định cho các bước suy luận sâu hơn, nơi việc bao quát toàn bộ bức tranh là quan trọng nhất.
Nhà cung cấp: OpenRouter, Groq, Together, DeepInfra
Người đồng hành nhanh trong dòng Llama 4. Nhỏ hơn và nhanh hơn Maverick, với khả năng gọi công cụ mạnh. Được dùng cho các tầng tương tác khi độ trễ quan trọng và không cần toàn bộ ngân sách ngữ cảnh của Maverick.
Nhà cung cấp: OpenRouter, Groq
Chiều sâu đa ngôn ngữ và đầu ra có cấu trúc tốt. Đảm nhận vai trò quan trọng trong các đường suy luận không phải tiếng Anh mà ACCORD đa ngôn ngữ yêu cầu; một nền tảng nhà cung cấp độc lập bên ngoài dòng Llama giúp tăng tính dự phòng trong chuỗi dự phòng.
Nhà cung cấp: OpenRouter, DashScope, DeepInfra
Đủ nhỏ để chạy trên phần cứng phổ thông. Được dùng khi tầm với quan trọng hơn dung lượng thô (triển khai trên thiết bị, băng thông thấp và mạng kém) và là phương án dự phòng của dòng thứ ba bên cạnh Llama và Qwen.
Nhà cung cấp: OpenRouter, Google
Phải hỗ trợ gọi hàm gốc và trả về JSON hợp lệ qua 12–70 lượt gọi công cụ mỗi lần tương tác. CIRIS là một bộ điều phối. Chúng tôi cần ngữ nghĩa công cụ ổn định, không phải hội thoại lan man.
CIRIS nhúng toàn bộ ACCORD và Hướng Dẫn vào mỗi lời nhắc. 128K là mức tối thiểu tuyệt đối; 256K+ được ưu tiên mạnh cho các cuộc trò chuyện dài, đầu ra công cụ và nhật ký kiểm toán.
Mục tiêu: <$1.00 mỗi 1M token kết hợp. Chúng tôi chọn lựa chọn hoạt động rẻ nhất, không phải người chiến thắng bảng xếp hạng rẻ nhất. Một mô hình đáng tin cậy không bao giờ phá vỡ JSON tốt hơn một mô hình rẻ hơn thất bại 1 trong 10 lượt gọi.
Phải có sẵn từ ít nhất hai nhà cung cấp độc lập để có chuỗi dự phòng vững chắc. CIRIS giảm dần chức năng một cách linh hoạt trong khi bị mất điện thay vì thất bại hoàn toàn.
Phản hồi nhanh giữ cho người dùng tham gia vào vòng lặp xem xét đạo đức. Chúng tôi ưu tiên các nhà cung cấp có độ trễ thấp cho các tầng tương tác trong khi chấp nhận các phần phụ trợ chậm hơn cho các tác vụ nền.
Llama 4 Maverick qua nhà cung cấp tối ưu chi phí cho các bước suy luận sâu cần toàn bộ ngân sách ngữ cảnh.
Llama 4 Scout qua nhà cung cấp tối ưu tốc độ (Groq) để sử dụng tương tác, với Maverick trên Groq như một lựa chọn ngữ cảnh nặng hơn.
Qwen 3.6 đảm nhận vai trò quan trọng trong các đường suy luận không phải tiếng Anh mà ACCORD đa ngôn ngữ yêu cầu, đồng thời cung cấp phương án dự phòng không phải Llama trong chuỗi.
Gemma 4 cho các triển khai trên thiết bị, băng thông thấp và mạng kém, nơi tiếp cận người dùng quan trọng hơn kích thước mô hình.
Maverick → Scout → Qwen 3.6 → Gemma 4 qua nhiều nhà cung cấp, để tác nhân giảm dần chức năng linh hoạt qua các dòng mô hình và ranh giới cơ sở hạ tầng thay vì thất bại hoàn toàn.
Maverick xử lý suy luận sâu khi ngân sách ngữ cảnh đầy đủ quan trọng. Scout đảm nhận tầng tương tác khi độ trễ là yếu tố quyết định. Qwen 3.6 đạt đến các đường suy luận đa ngôn ngữ mà ACCORD yêu cầu qua 29 ngôn ngữ. Gemma 4 là lựa chọn dấu chân nhỏ giúp tác nhân tiếp cận được phần cứng phổ thông. Danh sách được chọn để các tầng công việc khác nhau được giao cho mô hình thực sự phù hợp, thay vì ép một mô hình làm tất cả.
Llama (Maverick + Scout), Qwen và Gemma đến từ ba đường huấn luyện độc lập và ba hệ sinh thái nhà cung cấp độc lập. Điều đó quan trọng cho chuỗi dự phòng: một lỗ hổng bảo mật, thay đổi giấy phép hoặc mất dịch vụ nhà cung cấp trên một dòng không làm tác nhân ngừng hoạt động. Tính độc lập ở tầng mô hình giống hệt tính chất làm cho thành phần IDMA trở nên vững chắc ở tầng suy luận.
Các mô hình không thể đáp ứng năm tiêu chí, thường nhất là các mô hình trông hấp dẫn về giá token nhưng thất bại về đầu ra có cấu trúc và gọi công cụ.
Chế độ thất bại tiêu biểu (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
Lỗi này không thể chấp nhận được đối với một framework phụ thuộc vào 12–70 lượt gọi công cụ mỗi lần tương tác. Ngay cả giá token rẻ hơn 3–10 lần cũng không đáng bù đắp cho các lỗi vận hành.
CIRIS nhúng toàn bộ ACCORD và Hướng Dẫn Toàn Diện đầy đủ vào mỗi lời nhắc. Không phải tóm tắt. Không phải phiên bản rút gọn. Toàn bộ văn bản quản trị.
Điều này đảm bảo rằng các cập nhật cho ACCORD hoặc Hướng Dẫn ảnh hưởng ngay lập tức đến hành vi trên tất cả các tác nhân, mà không cần chờ tinh chỉnh mới hoặc các chiến lược nén lời nhắc.
CIRIS Agent là các bộ điều phối sử dụng nhiều công cụ, xử lý đồng thời:
Ngữ cảnh kết hợp này dễ dàng vượt quá 32K–64K, đặc biệt cho các phiên chạy dài hoặc điều tra phức tạp. Đó là lý do tại sao 128K là mức tối thiểu và 256K+ được ưu tiên.
Điểm mấu chốt:
CIRIS không cắt bớt các giá trị hoặc quy trình của mình để phù hợp với mô hình. Thay vào đó, CIRIS chọn các mô hình đủ lớn để mang toàn bộ framework đạo đức và vận hành trong mỗi lượt gọi. Các mô hình có cửa sổ ngữ cảnh nhỏ hơn (dù rẻ hơn hoặc phổ biến hơn) bị loại khỏi sử dụng trong sản xuất.
CIRIS chạy Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 và Gemma 4 trong sản xuất vì cùng nhau chúng thỏa mãn các ràng buộc vận hành và kinh tế mà ACCORD đặt ra: ngữ cảnh dài, gọi công cụ đáng tin cậy, phạm vi đa ngôn ngữ và tiếp cận phần cứng phổ thông, trên ba dòng mô hình độc lập. Các mô hình mới được theo dõi và kiểm tra liên tục; danh sách thay đổi khi có gì đó tốt hơn thực sự đáp ứng năm tiêu chí.
Đây không phải là về việc chạy theo điểm bảng xếp hạng hay đi theo các chu kỳ thổi phồng. Mà là về việc chọn các mô hình thực sự hoạt động cho các tác nhân có trách nhiệm, lấy công cụ làm trung tâm trong sản xuất, và coi trọng ACCORD đủ để mang nó trong mỗi lượt gọi.