Những LLM Chúng Tôi Dùng và Lý Do

CIRIS Agent chạy trên một tập hợp nhỏ các mô hình mở đáp ứng năm tiêu chí không thể bỏ qua. Danh sách sản xuất hiện tại gồm Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 và Gemma 4, được chọn cho các vai trò khác nhau trong khối lượng công việc của tác nhân.

Llama 4 Maverick

Bộ máy suy luận chính. Nó giữ được một lượng ngữ cảnh rất lớn cùng một lúc, vì vậy đây là lựa chọn mặc định cho các bước suy luận sâu hơn, nơi việc bao quát toàn bộ bức tranh là quan trọng nhất.

Nhà cung cấp: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Người đồng hành nhanh trong dòng Llama 4. Nhỏ hơn và nhanh hơn Maverick, với khả năng gọi công cụ mạnh. Được dùng cho các tầng tương tác khi độ trễ quan trọng và không cần toàn bộ ngân sách ngữ cảnh của Maverick.

Nhà cung cấp: OpenRouter, Groq

Qwen 3.6

Chiều sâu đa ngôn ngữ và đầu ra có cấu trúc tốt. Đảm nhận vai trò quan trọng trong các đường suy luận không phải tiếng Anh mà ACCORD đa ngôn ngữ yêu cầu; một nền tảng nhà cung cấp độc lập bên ngoài dòng Llama giúp tăng tính dự phòng trong chuỗi dự phòng.

Nhà cung cấp: OpenRouter, DashScope, DeepInfra

Gemma 4

Đủ nhỏ để chạy trên phần cứng phổ thông. Được dùng khi tầm với quan trọng hơn dung lượng thô (triển khai trên thiết bị, băng thông thấp và mạng kém) và là phương án dự phòng của dòng thứ ba bên cạnh Llama và Qwen.

Nhà cung cấp: OpenRouter, Google

Tiêu Chí Mô Hình Của Chúng Tôi

Năm yêu cầu không thể bỏ qua đối với CIRIS Agent

1. Đầu Ra Có Cấu Trúc và Gọi Công Cụ

Phải hỗ trợ gọi hàm gốc và trả về JSON hợp lệ qua 12–70 lượt gọi công cụ mỗi lần tương tác. CIRIS là một bộ điều phối. Chúng tôi cần ngữ nghĩa công cụ ổn định, không phải hội thoại lan man.

2. Cửa Sổ Ngữ Cảnh: Tối Thiểu 128K

CIRIS nhúng toàn bộ ACCORD và Hướng Dẫn vào mỗi lời nhắc. 128K là mức tối thiểu tuyệt đối; 256K+ được ưu tiên mạnh cho các cuộc trò chuyện dài, đầu ra công cụ và nhật ký kiểm toán.

3. Hiệu Quả Chi Phí

Mục tiêu: <$1.00 mỗi 1M token kết hợp. Chúng tôi chọn lựa chọn hoạt động rẻ nhất, không phải người chiến thắng bảng xếp hạng rẻ nhất. Một mô hình đáng tin cậy không bao giờ phá vỡ JSON tốt hơn một mô hình rẻ hơn thất bại 1 trong 10 lượt gọi.

4. Khả Dụng Đa Nhà Cung Cấp

Phải có sẵn từ ít nhất hai nhà cung cấp độc lập để có chuỗi dự phòng vững chắc. CIRIS giảm dần chức năng một cách linh hoạt trong khi bị mất điện thay vì thất bại hoàn toàn.

5. Độ Trễ và Trải Nghiệm Người Dùng

Phản hồi nhanh giữ cho người dùng tham gia vào vòng lặp xem xét đạo đức. Chúng tôi ưu tiên các nhà cung cấp có độ trễ thấp cho các tầng tương tác trong khi chấp nhận các phần phụ trợ chậm hơn cho các tác vụ nền.

Triển Khai Sản Xuất

Tầng Mặc Định

Llama 4 Maverick qua nhà cung cấp tối ưu chi phí cho các bước suy luận sâu cần toàn bộ ngân sách ngữ cảnh.

Tầng Nhanh

Llama 4 Scout qua nhà cung cấp tối ưu tốc độ (Groq) để sử dụng tương tác, với Maverick trên Groq như một lựa chọn ngữ cảnh nặng hơn.

Tầng Đa Ngôn Ngữ

Qwen 3.6 đảm nhận vai trò quan trọng trong các đường suy luận không phải tiếng Anh mà ACCORD đa ngôn ngữ yêu cầu, đồng thời cung cấp phương án dự phòng không phải Llama trong chuỗi.

Tầng Biên

Gemma 4 cho các triển khai trên thiết bị, băng thông thấp và mạng kém, nơi tiếp cận người dùng quan trọng hơn kích thước mô hình.

Chuỗi Dự Phòng

Maverick → Scout → Qwen 3.6 → Gemma 4 qua nhiều nhà cung cấp, để tác nhân giảm dần chức năng linh hoạt qua các dòng mô hình và ranh giới cơ sở hạ tầng thay vì thất bại hoàn toàn.

Tại Sao Danh Sách Này

Vai trò khác nhau, không thể hoán đổi

Maverick xử lý suy luận sâu khi ngân sách ngữ cảnh đầy đủ quan trọng. Scout đảm nhận tầng tương tác khi độ trễ là yếu tố quyết định. Qwen 3.6 đạt đến các đường suy luận đa ngôn ngữ mà ACCORD yêu cầu qua 29 ngôn ngữ. Gemma 4 là lựa chọn dấu chân nhỏ giúp tác nhân tiếp cận được phần cứng phổ thông. Danh sách được chọn để các tầng công việc khác nhau được giao cho mô hình thực sự phù hợp, thay vì ép một mô hình làm tất cả.

Ba dòng mô hình độc lập

Llama (Maverick + Scout), Qwen và Gemma đến từ ba đường huấn luyện độc lập và ba hệ sinh thái nhà cung cấp độc lập. Điều đó quan trọng cho chuỗi dự phòng: một lỗ hổng bảo mật, thay đổi giấy phép hoặc mất dịch vụ nhà cung cấp trên một dòng không làm tác nhân ngừng hoạt động. Tính độc lập ở tầng mô hình giống hệt tính chất làm cho thành phần IDMA trở nên vững chắc ở tầng suy luận.

Những gì không có trong danh sách

Các mô hình không thể đáp ứng năm tiêu chí, thường nhất là các mô hình trông hấp dẫn về giá token nhưng thất bại về đầu ra có cấu trúc và gọi công cụ.

Chế độ thất bại tiêu biểu (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

Lỗi này không thể chấp nhận được đối với một framework phụ thuộc vào 12–70 lượt gọi công cụ mỗi lần tương tác. Ngay cả giá token rẻ hơn 3–10 lần cũng không đáng bù đắp cho các lỗi vận hành.

Tại Sao Ngữ Cảnh 128K+ Là Không Thể Thiếu

ACCORD và Hướng Dẫn Luôn Được Tải

CIRIS nhúng toàn bộ ACCORD và Hướng Dẫn Toàn Diện đầy đủ vào mỗi lời nhắc. Không phải tóm tắt. Không phải phiên bản rút gọn. Toàn bộ văn bản quản trị.

Điều này đảm bảo rằng các cập nhật cho ACCORD hoặc Hướng Dẫn ảnh hưởng ngay lập tức đến hành vi trên tất cả các tác nhân, mà không cần chờ tinh chỉnh mới hoặc các chiến lược nén lời nhắc.

Trạng Thái Đạo Đức và Thủ Tục Đầy Đủ

CIRIS Agent là các bộ điều phối sử dụng nhiều công cụ, xử lý đồng thời:

Quy trình làm việc nhiều bước
Trạng thái hệ thống và đầu ra công cụ
Tin nhắn người dùng và lịch sử hội thoại
ACCORD và Hướng Dẫn đầy đủ

Ngữ cảnh kết hợp này dễ dàng vượt quá 32K–64K, đặc biệt cho các phiên chạy dài hoặc điều tra phức tạp. Đó là lý do tại sao 128K là mức tối thiểu và 256K+ được ưu tiên.

Điểm mấu chốt:

CIRIS không cắt bớt các giá trị hoặc quy trình của mình để phù hợp với mô hình. Thay vào đó, CIRIS chọn các mô hình đủ lớn để mang toàn bộ framework đạo đức và vận hành trong mỗi lượt gọi. Các mô hình có cửa sổ ngữ cảnh nhỏ hơn (dù rẻ hơn hoặc phổ biến hơn) bị loại khỏi sử dụng trong sản xuất.

Điều Này Hỗ Trợ ACCORD CIRIS Như Thế Nào

Lựa chọn mô hình như cơ sở hạ tầng đạo đức

Tính Minh Bạch và Khả Năng Kiểm Tra

Ngữ cảnh dài giữ dấu vết suy luận, quyết định và lượt gọi công cụ có thể xem xét cho người dùng
JSON ổn định và đầu ra có cấu trúc làm cho mỗi lần gọi công cụ có thể kiểm toán
Các tài liệu quản trị đầy đủ trong mỗi lượt gọi đảm bảo các quyết định có thể truy nguyên về các nguyên tắc

Khả Năng Phục Hồi và Quản Trị

Triển khai đa nhà cung cấp tránh các điểm lỗi đơn lẻ trong cơ sở hạ tầng đạo đức quan trọng
Chọn "đủ tốt và đáng tin cậy" thay vì "ấn tượng nhưng dễ vỡ" ưu tiên an toàn và tính liên tục
Giảm dần chức năng linh hoạt trong khi mất điện duy trì khả năng phục vụ

Giám Sát Con Người

Các tầng nhanh giữ cho con người thoải mái trong vòng lặp xem xét đạo đức thời gian thực
Các tầng rẻ hơn cho phép phân tích nền diện rộng mà không tốn kém quá mức
Phương pháp cân bằng hỗ trợ cả sử dụng hàng ngày và kiểm toán quản trị định kỳ

Điểm Mấu Chốt

CIRIS chạy Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 và Gemma 4 trong sản xuất vì cùng nhau chúng thỏa mãn các ràng buộc vận hành và kinh tế mà ACCORD đặt ra: ngữ cảnh dài, gọi công cụ đáng tin cậy, phạm vi đa ngôn ngữ và tiếp cận phần cứng phổ thông, trên ba dòng mô hình độc lập. Các mô hình mới được theo dõi và kiểm tra liên tục; danh sách thay đổi khi có gì đó tốt hơn thực sự đáp ứng năm tiêu chí.

Đây không phải là về việc chạy theo điểm bảng xếp hạng hay đi theo các chu kỳ thổi phồng. Mà là về việc chọn các mô hình thực sự hoạt động cho các tác nhân có trách nhiệm, lấy công cụ làm trung tâm trong sản xuất, và coi trọng ACCORD đủ để mang nó trong mỗi lượt gọi.