CIRIS Agent ทำงานบนโมเดลแบบเปิดชุดเล็กที่ผ่านเกณฑ์ห้าข้อที่ยืดหยุ่นไม่ได้ ไลน์อัปการผลิตปัจจุบันได้แก่ Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 และ Gemma 4 ซึ่งเลือกมาเพื่อบทบาทต่าง ๆ ในงานของเอเจนต์
หัวใจหลักด้านการให้เหตุผล โมเดลนี้รองรับบริบทจำนวนมากมายในคราวเดียว จึงเป็นค่าเริ่มต้นสำหรับขั้นตอนการให้เหตุผลเชิงลึกที่ต้องมองเห็นภาพรวมทั้งหมด
ผู้ให้บริการ: OpenRouter, Groq, Together, DeepInfra
เพื่อนคู่ที่รวดเร็วในตระกูล Llama 4 เล็กกว่าและเร็วกว่า Maverick พร้อม tool calling ที่แข็งแกร่ง ใช้สำหรับระดับโต้ตอบที่ความหน่วงสำคัญและไม่จำเป็นต้องใช้งบบริบทเต็มของ Maverick
ผู้ให้บริการ: OpenRouter, Groq
ความลึกหลายภาษาและ structured output ที่แข็งแกร่ง รับน้ำหนักในเส้นทางการให้เหตุผลภาษาอื่นที่ Accord หลายภาษากำหนด และฐานผู้ให้บริการอิสระนอกตระกูล Llama ช่วยเพิ่มความซ้ำซ้อนในห่วงโซ่สำรอง
ผู้ให้บริการ: OpenRouter, DashScope, DeepInfra
เล็กพอที่จะทำงานบนฮาร์ดแวร์ทั่วไป ใช้เมื่อการเข้าถึงสำคัญกว่าความสามารถดิบ (การติดตั้งบนอุปกรณ์ แบนด์วิดท์ต่ำ และเครือข่ายที่ย่ำแย่) และเป็นตัวสำรองตระกูลที่สามควบคู่กับ Llama และ Qwen
ผู้ให้บริการ: OpenRouter, Google
ต้องรองรับ function calling โดยตรงและคืนค่า JSON ที่ถูกต้องในการเรียก tool 12-70 ครั้งต่อการโต้ตอบ CIRIS เป็น orchestrator เราต้องการความหมาย tool ที่มั่นคง ไม่ใช่การสนทนาแบบฟุ่มเฟือย
CIRIS ฝัง Accord และ Guide ทั้งหมดลงในทุก prompt ขั้นต่ำ 128K เป็นขั้นต่ำสุด ส่วน 256K+ เป็นที่ต้องการอย่างยิ่งสำหรับการสนทนายาว ผลลัพธ์ tool และเส้นทางการตรวจสอบ
เป้าหมาย: น้อยกว่า $1.00 ต่อ 1 ล้าน token รวม เราเลือกตัวเลือกที่ถูกที่สุดที่ใช้งานได้ ไม่ใช่ผู้ชนะ benchmark ราคาถูกที่สุด โมเดลที่เชื่อถือได้ที่ไม่เคยทำ JSON เสียดีกว่าโมเดลที่ถูกกว่าแต่ล้มเหลว 1 ใน 10 ครั้ง
ต้องพร้อมใช้งานจากผู้ให้บริการอิสระอย่างน้อยสองรายสำหรับห่วงโซ่สำรองที่แข็งแกร่ง CIRIS ลดประสิทธิภาพอย่างนุ่มนวลระหว่างการหยุดทำงานแทนที่จะล้มเหลวอย่างแข็ง
การตอบสนองที่รวดเร็วช่วยให้คนอยู่ในลูปสำหรับขั้นตอนการตรวจสอบทางจริยธรรม เราให้ความสำคัญกับผู้ให้บริการที่มีความหน่วงต่ำสำหรับระดับโต้ตอบ ในขณะที่ยอมรับ backend ที่ช้ากว่าสำหรับงานเบื้องหลัง
Llama 4 Maverick ผ่านผู้ให้บริการที่คุ้มค่าสำหรับขั้นตอนการให้เหตุผลเชิงลึกที่ต้องใช้งบบริบทเต็ม
Llama 4 Scout ผ่านผู้ให้บริการที่เพิ่มประสิทธิภาพความเร็ว (Groq) สำหรับการใช้งานโต้ตอบ โดยมี Maverick บน Groq เป็นทางเลือกที่มีบริบทหนักกว่า
Qwen 3.6 รับน้ำหนักในเส้นทางการให้เหตุผลภาษาอื่นที่ Accord หลายภาษากำหนด และให้ตัวสำรองที่ไม่ใช่ Llama ในห่วงโซ่
Gemma 4 สำหรับการติดตั้งบนอุปกรณ์ แบนด์วิดท์ต่ำ และเครือข่ายที่ย่ำแย่ ที่การเข้าถึงผู้ใช้สำคัญกว่าขนาดของโมเดล
Maverick → Scout → Qwen 3.6 → Gemma 4 ข้ามผู้ให้บริการหลายราย ดังนั้นเอเจนต์จึงลดประสิทธิภาพอย่างนุ่มนวลข้ามตระกูลโมเดลและขอบเขตโครงสร้างพื้นฐาน แทนที่จะล้มเหลวอย่างแข็ง
Maverick จัดการการให้เหตุผลเชิงลึกที่งบบริบทเต็มสำคัญ Scout รับระดับโต้ตอบที่ความหน่วงครอบงำ Qwen 3.6 เข้าถึงเส้นทางการให้เหตุผลหลายภาษาที่ Accord กำหนดใน 29 ภาษา Gemma 4 เป็นตัวเลือกพื้นที่น้อยที่นำเอเจนต์ไปสู่ฮาร์ดแวร์ทั่วไปได้ ไลน์อัปถูกเลือกเพื่อให้งานระดับต่าง ๆ ไปหาโมเดลที่เหมาะสมจริง ๆ แทนที่จะบังคับให้โมเดลเดียวทำทุกอย่าง
Llama (Maverick + Scout), Qwen และ Gemma มาจาก pipeline การฝึกอิสระสามอัน และระบบนิเวศผู้ให้บริการอิสระสามระบบ สิ่งนี้สำคัญสำหรับห่วงโซ่สำรอง: CVE การเปลี่ยนแปลงใบอนุญาต หรือการหยุดทำงานของผู้ให้บริการในตระกูลหนึ่งไม่ทำให้เอเจนต์ล้มเหลว ความเป็นอิสระในชั้นโมเดลเป็นคุณสมบัติเดียวกับที่ทำให้ component IDMA แข็งแกร่งในชั้นการให้เหตุผล
โมเดลที่ไม่สามารถผ่านเกณฑ์ห้าข้อ ส่วนใหญ่คือโมเดลที่ดูน่าสนใจในราคา token แต่ล้มเหลวในเรื่อง structured output และ tool calling
รูปแบบความล้มเหลวที่เป็นตัวแทน (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
ข้อผิดพลาดนี้ยอมรับไม่ได้สำหรับ framework ที่ต้องการ tool call 12-70 ครั้งต่อการโต้ตอบ แม้ราคา token ที่ถูกกว่า 3-10 เท่าก็ไม่คุ้มกับความล้มเหลวในการดำเนินงาน
CIRIS ฝัง Accord ฉบับสมบูรณ์และComprehensive Guide ที่ครบถ้วนลงในทุก prompt ไม่ใช่บทสรุป ไม่ใช่เวอร์ชันย่อ แต่เป็นข้อความกำกับดูแลทั้งหมด
สิ่งนี้ช่วยให้การอัปเดต Accord หรือ Guide ส่งผลต่อพฤติกรรมของเอเจนต์ทั้งหมดทันที โดยไม่ต้องรอการ fine-tune ใหม่หรือกลยุทธ์การบีบอัด prompt
CIRIS Agents เป็น orchestrator ที่ใช้ tool มากมาย จัดการ:
บริบทรวมนี้เกิน 32K-64K ได้ง่าย โดยเฉพาะสำหรับเซสชันที่ทำงานนานหรือการตรวจสอบที่ซับซ้อน นั่นคือเหตุผลที่ 128K เป็นขั้นต่ำและ 256K+ เป็นที่ต้องการ
สรุปสาระสำคัญ:
CIRIS ไม่ตัดทอนค่านิยมหรือขั้นตอนการทำงานเพื่อให้พอดีกับโมเดล แต่ CIRIS เลือกโมเดลที่ใหญ่พอที่จะรองรับ framework ทางจริยธรรมและการดำเนินงานทั้งหมดในทุกการเรียกใช้ โมเดลที่มี context window เล็กกว่า (แม้จะถูกกว่าหรือนิยมมากกว่า) ถูกยกเว้นจากการใช้งานในระบบผลิต
CIRIS ใช้ Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 และ Gemma 4 ในระบบผลิต เพราะรวมกันแล้วตอบสนองข้อจำกัดด้านการดำเนินงานและเศรษฐศาสตร์ที่ Accord กำหนด ได้แก่ บริบทยาว tool calling ที่เชื่อถือได้ ความครอบคลุมหลายภาษา และการเข้าถึงฮาร์ดแวร์ทั่วไป ข้ามตระกูลโมเดลอิสระสามตระกูล โมเดลใหม่จะถูกติดตามและทดสอบอย่างต่อเนื่อง ไลน์อัปจะเปลี่ยนเมื่อมีสิ่งที่ดีกว่าที่ผ่านเกณฑ์ห้าข้อจริง ๆ
นี่ไม่ใช่เรื่องของการไล่ตาม benchmark หรือตามกระแส แต่เป็นเรื่องของการเลือกโมเดลที่ทำงานได้จริงสำหรับเอเจนต์ที่ใช้ tool และรับผิดชอบได้ในระบบผลิต และที่ให้ความสำคัญกับ Accord มากพอที่จะรองรับมันในทุกการเรียกใช้