โมเดล LLM ที่เราใช้และเหตุผล

CIRIS Agent ทำงานบนโมเดลแบบเปิดชุดเล็กที่ผ่านเกณฑ์ห้าข้อที่ยืดหยุ่นไม่ได้ ไลน์อัปการผลิตปัจจุบันได้แก่ Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 และ Gemma 4 ซึ่งเลือกมาเพื่อบทบาทต่าง ๆ ในงานของเอเจนต์

Llama 4 Maverick

หัวใจหลักด้านการให้เหตุผล โมเดลนี้รองรับบริบทจำนวนมากมายในคราวเดียว จึงเป็นค่าเริ่มต้นสำหรับขั้นตอนการให้เหตุผลเชิงลึกที่ต้องมองเห็นภาพรวมทั้งหมด

ผู้ให้บริการ: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

เพื่อนคู่ที่รวดเร็วในตระกูล Llama 4 เล็กกว่าและเร็วกว่า Maverick พร้อม tool calling ที่แข็งแกร่ง ใช้สำหรับระดับโต้ตอบที่ความหน่วงสำคัญและไม่จำเป็นต้องใช้งบบริบทเต็มของ Maverick

ผู้ให้บริการ: OpenRouter, Groq

Qwen 3.6

ความลึกหลายภาษาและ structured output ที่แข็งแกร่ง รับน้ำหนักในเส้นทางการให้เหตุผลภาษาอื่นที่ Accord หลายภาษากำหนด และฐานผู้ให้บริการอิสระนอกตระกูล Llama ช่วยเพิ่มความซ้ำซ้อนในห่วงโซ่สำรอง

ผู้ให้บริการ: OpenRouter, DashScope, DeepInfra

Gemma 4

เล็กพอที่จะทำงานบนฮาร์ดแวร์ทั่วไป ใช้เมื่อการเข้าถึงสำคัญกว่าความสามารถดิบ (การติดตั้งบนอุปกรณ์ แบนด์วิดท์ต่ำ และเครือข่ายที่ย่ำแย่) และเป็นตัวสำรองตระกูลที่สามควบคู่กับ Llama และ Qwen

ผู้ให้บริการ: OpenRouter, Google

เกณฑ์โมเดลของเรา

ข้อกำหนดห้าข้อที่ยืดหยุ่นไม่ได้สำหรับ CIRIS Agent

1. Structured Outputs และ Tool Use

ต้องรองรับ function calling โดยตรงและคืนค่า JSON ที่ถูกต้องในการเรียก tool 12-70 ครั้งต่อการโต้ตอบ CIRIS เป็น orchestrator เราต้องการความหมาย tool ที่มั่นคง ไม่ใช่การสนทนาแบบฟุ่มเฟือย

2. Context Window: ขั้นต่ำ 128K

CIRIS ฝัง Accord และ Guide ทั้งหมดลงในทุก prompt ขั้นต่ำ 128K เป็นขั้นต่ำสุด ส่วน 256K+ เป็นที่ต้องการอย่างยิ่งสำหรับการสนทนายาว ผลลัพธ์ tool และเส้นทางการตรวจสอบ

3. ประสิทธิภาพด้านต้นทุน

เป้าหมาย: น้อยกว่า $1.00 ต่อ 1 ล้าน token รวม เราเลือกตัวเลือกที่ถูกที่สุดที่ใช้งานได้ ไม่ใช่ผู้ชนะ benchmark ราคาถูกที่สุด โมเดลที่เชื่อถือได้ที่ไม่เคยทำ JSON เสียดีกว่าโมเดลที่ถูกกว่าแต่ล้มเหลว 1 ใน 10 ครั้ง

4. ความพร้อมใช้งานจากหลายผู้ให้บริการ

ต้องพร้อมใช้งานจากผู้ให้บริการอิสระอย่างน้อยสองรายสำหรับห่วงโซ่สำรองที่แข็งแกร่ง CIRIS ลดประสิทธิภาพอย่างนุ่มนวลระหว่างการหยุดทำงานแทนที่จะล้มเหลวอย่างแข็ง

5. ความหน่วงและประสบการณ์ผู้ใช้

การตอบสนองที่รวดเร็วช่วยให้คนอยู่ในลูปสำหรับขั้นตอนการตรวจสอบทางจริยธรรม เราให้ความสำคัญกับผู้ให้บริการที่มีความหน่วงต่ำสำหรับระดับโต้ตอบ ในขณะที่ยอมรับ backend ที่ช้ากว่าสำหรับงานเบื้องหลัง

การติดตั้งในระบบผลิต

ระดับเริ่มต้น

Llama 4 Maverick ผ่านผู้ให้บริการที่คุ้มค่าสำหรับขั้นตอนการให้เหตุผลเชิงลึกที่ต้องใช้งบบริบทเต็ม

ระดับรวดเร็ว

Llama 4 Scout ผ่านผู้ให้บริการที่เพิ่มประสิทธิภาพความเร็ว (Groq) สำหรับการใช้งานโต้ตอบ โดยมี Maverick บน Groq เป็นทางเลือกที่มีบริบทหนักกว่า

ระดับหลายภาษา

Qwen 3.6 รับน้ำหนักในเส้นทางการให้เหตุผลภาษาอื่นที่ Accord หลายภาษากำหนด และให้ตัวสำรองที่ไม่ใช่ Llama ในห่วงโซ่

ระดับ Edge

Gemma 4 สำหรับการติดตั้งบนอุปกรณ์ แบนด์วิดท์ต่ำ และเครือข่ายที่ย่ำแย่ ที่การเข้าถึงผู้ใช้สำคัญกว่าขนาดของโมเดล

ห่วงโซ่สำรอง

Maverick → Scout → Qwen 3.6 → Gemma 4 ข้ามผู้ให้บริการหลายราย ดังนั้นเอเจนต์จึงลดประสิทธิภาพอย่างนุ่มนวลข้ามตระกูลโมเดลและขอบเขตโครงสร้างพื้นฐาน แทนที่จะล้มเหลวอย่างแข็ง

เหตุผลที่เลือกไลน์อัปนี้

บทบาทต่างกัน ไม่ใช่ชิ้นส่วนที่แทนกันได้

Maverick จัดการการให้เหตุผลเชิงลึกที่งบบริบทเต็มสำคัญ Scout รับระดับโต้ตอบที่ความหน่วงครอบงำ Qwen 3.6 เข้าถึงเส้นทางการให้เหตุผลหลายภาษาที่ Accord กำหนดใน 29 ภาษา Gemma 4 เป็นตัวเลือกพื้นที่น้อยที่นำเอเจนต์ไปสู่ฮาร์ดแวร์ทั่วไปได้ ไลน์อัปถูกเลือกเพื่อให้งานระดับต่าง ๆ ไปหาโมเดลที่เหมาะสมจริง ๆ แทนที่จะบังคับให้โมเดลเดียวทำทุกอย่าง

ตระกูลโมเดลอิสระสามตระกูล

Llama (Maverick + Scout), Qwen และ Gemma มาจาก pipeline การฝึกอิสระสามอัน และระบบนิเวศผู้ให้บริการอิสระสามระบบ สิ่งนี้สำคัญสำหรับห่วงโซ่สำรอง: CVE การเปลี่ยนแปลงใบอนุญาต หรือการหยุดทำงานของผู้ให้บริการในตระกูลหนึ่งไม่ทำให้เอเจนต์ล้มเหลว ความเป็นอิสระในชั้นโมเดลเป็นคุณสมบัติเดียวกับที่ทำให้ component IDMA แข็งแกร่งในชั้นการให้เหตุผล

สิ่งที่ไม่อยู่ในไลน์อัป

โมเดลที่ไม่สามารถผ่านเกณฑ์ห้าข้อ ส่วนใหญ่คือโมเดลที่ดูน่าสนใจในราคา token แต่ล้มเหลวในเรื่อง structured output และ tool calling

รูปแบบความล้มเหลวที่เป็นตัวแทน (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

ข้อผิดพลาดนี้ยอมรับไม่ได้สำหรับ framework ที่ต้องการ tool call 12-70 ครั้งต่อการโต้ตอบ แม้ราคา token ที่ถูกกว่า 3-10 เท่าก็ไม่คุ้มกับความล้มเหลวในการดำเนินงาน

เหตุใด Context 128K+ ถึงยืดหยุ่นไม่ได้

Accord และ Guide แบบเปิดตลอดเวลา

CIRIS ฝัง Accord ฉบับสมบูรณ์และComprehensive Guide ที่ครบถ้วนลงในทุก prompt ไม่ใช่บทสรุป ไม่ใช่เวอร์ชันย่อ แต่เป็นข้อความกำกับดูแลทั้งหมด

สิ่งนี้ช่วยให้การอัปเดต Accord หรือ Guide ส่งผลต่อพฤติกรรมของเอเจนต์ทั้งหมดทันที โดยไม่ต้องรอการ fine-tune ใหม่หรือกลยุทธ์การบีบอัด prompt

สถานะทางจริยธรรมและขั้นตอนการทำงานเต็มรูปแบบ

CIRIS Agents เป็น orchestrator ที่ใช้ tool มากมาย จัดการ:

ขั้นตอนการทำงานหลายขั้นตอน
สถานะระบบและผลลัพธ์ tool
ข้อความผู้ใช้และประวัติการสนทนา
Accord และ Guide ฉบับสมบูรณ์

บริบทรวมนี้เกิน 32K-64K ได้ง่าย โดยเฉพาะสำหรับเซสชันที่ทำงานนานหรือการตรวจสอบที่ซับซ้อน นั่นคือเหตุผลที่ 128K เป็นขั้นต่ำและ 256K+ เป็นที่ต้องการ

สรุปสาระสำคัญ:

CIRIS ไม่ตัดทอนค่านิยมหรือขั้นตอนการทำงานเพื่อให้พอดีกับโมเดล แต่ CIRIS เลือกโมเดลที่ใหญ่พอที่จะรองรับ framework ทางจริยธรรมและการดำเนินงานทั้งหมดในทุกการเรียกใช้ โมเดลที่มี context window เล็กกว่า (แม้จะถูกกว่าหรือนิยมมากกว่า) ถูกยกเว้นจากการใช้งานในระบบผลิต

วิธีที่สิ่งนี้สนับสนุน CIRIS Accord

การเลือกโมเดลในฐานะโครงสร้างพื้นฐานทางจริยธรรม

ความโปร่งใสและการตรวจสอบได้

บริบทยาวทำให้ร่องรอยการให้เหตุผล การตัดสินใจ และการเรียก tool มองเห็นได้สำหรับการตรวจสอบของมนุษย์
JSON ที่มั่นคงและ structured output ทำให้การเรียกใช้ tool ทุกครั้งตรวจสอบได้
เอกสารกำกับดูแลครบถ้วนในทุกการเรียกช่วยให้การตัดสินใจสามารถติดตามกลับไปหาหลักการได้

ความยืดหยุ่นและการกำกับดูแล

การติดตั้งจากหลายผู้ให้บริการหลีกเลี่ยงจุดล้มเหลวเดียวในโครงสร้างพื้นฐานทางจริยธรรมที่สำคัญ
การเลือก "ดีพอและเชื่อถือได้" แทน "น่าตื่นเต้นแต่เปราะบาง" ให้ความสำคัญกับความปลอดภัยและความต่อเนื่อง
การลดประสิทธิภาพอย่างนุ่มนวลระหว่างการหยุดทำงานรักษาความพร้อมใช้งานของบริการ

การดูแลของมนุษย์

ระดับรวดเร็วช่วยให้คนอยู่ในลูปอย่างสบายสำหรับการตรวจสอบทางจริยธรรมแบบ real-time
ระดับที่ถูกกว่าช่วยให้วิเคราะห์เบื้องหลังได้อย่างกว้างขวางโดยไม่มีต้นทุนที่สูงเกินไป
แนวทางที่สมดุลรองรับทั้งการใช้งานประจำวันและการตรวจสอบกำกับดูแลเป็นระยะ

สรุปสาระสำคัญ

CIRIS ใช้ Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 และ Gemma 4 ในระบบผลิต เพราะรวมกันแล้วตอบสนองข้อจำกัดด้านการดำเนินงานและเศรษฐศาสตร์ที่ Accord กำหนด ได้แก่ บริบทยาว tool calling ที่เชื่อถือได้ ความครอบคลุมหลายภาษา และการเข้าถึงฮาร์ดแวร์ทั่วไป ข้ามตระกูลโมเดลอิสระสามตระกูล โมเดลใหม่จะถูกติดตามและทดสอบอย่างต่อเนื่อง ไลน์อัปจะเปลี่ยนเมื่อมีสิ่งที่ดีกว่าที่ผ่านเกณฑ์ห้าข้อจริง ๆ

นี่ไม่ใช่เรื่องของการไล่ตาม benchmark หรือตามกระแส แต่เป็นเรื่องของการเลือกโมเดลที่ทำงานได้จริงสำหรับเอเจนต์ที่ใช้ tool และรับผิดชอบได้ในระบบผลิต และที่ให้ความสำคัญกับ Accord มากพอที่จะรองรับมันในทุกการเรียกใช้