우리가 사용하는 LLM과 그 이유

CIRIS Agent는 다섯 가지 필수 기준을 충족하는 소수의 오픈 모델로 운영됩니다. 현재 프로덕션 라인업은 Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, Gemma 4이며, 에이전트 작업 부하에서 각각 다른 역할을 맡습니다.

Llama 4 Maverick

추론의 핵심 엔진입니다. 한 번에 매우 큰 맥락을 유지하므로, 전체 맥락을 한눈에 파악하는 것이 가장 중요한 깊은 추론 단계의 기본값으로 사용됩니다.

제공업체: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Llama 4 패밀리의 빠른 파트너입니다. Maverick보다 작고 빠르며 강력한 도구 호출 기능을 갖추고 있습니다. Maverick의 전체 맥락 예산이 필요하지 않고 지연 시간이 중요한 대화형 티어에 사용됩니다.

제공업체: OpenRouter, Groq

Qwen 3.6

다국어 깊이와 강력한 구조화 출력을 제공합니다. 폴리글롯 Accord가 요구하는 비영어 추론 경로에서 중요한 역할을 담당하며, Llama 패밀리 외부의 독립적인 제공업체 기반이 폴백 체인에 중복성을 더합니다.

제공업체: OpenRouter, DashScope, DeepInfra

Gemma 4

일반 하드웨어에서 실행할 수 있을 만큼 작습니다. 원시 용량보다 접근성이 더 중요한 경우(온디바이스, 저대역폭, 네트워크 저하 환경 배포)와 Llama 및 Qwen과 함께 세 번째 패밀리 폴백으로 사용됩니다.

제공업체: OpenRouter, Google

모델 선택 기준

CIRIS Agent의 다섯 가지 필수 요건

1. 구조화 출력 및 도구 사용

함수 호출을 네이티브로 지원하고 상호작용당 12~70회의 도구 호출에서 유효한 JSON을 반환해야 합니다. CIRIS는 오케스트레이터입니다. 대화형 응답이 아닌 안정적인 도구 의미론이 필요합니다.

2. 컨텍스트 창: 최소 128K

CIRIS는 모든 프롬프트에 전체 Accord와 가이드를 포함합니다. 128K는 절대 최소값이며, 긴 대화, 도구 출력, 감사 추적을 위해 256K 이상이 강력히 권장됩니다.

3. 비용 효율성

목표: 1M 토큰 합산 $1.00 미만. 가장 저렴한 벤치마크 우승자가 아닌 실제로 작동하는 가장 저렴한 옵션을 선택합니다. JSON을 절대 깨뜨리지 않는 안정적인 모델이 10회 중 1회 실패하는 더 싼 모델보다 낫습니다.

4. 다중 제공업체 가용성

견고한 폴백 체인을 위해 최소 두 개의 독립 제공업체에서 사용 가능해야 합니다. CIRIS는 장애 시 완전히 실패하는 대신 우아하게 성능을 낮춥니다.

5. 지연 시간 및 사용자 경험

빠른 응답은 윤리적 검토 워크플로우에서 사람이 루프 안에 머물 수 있게 합니다. 백그라운드 작업에는 느린 백엔드를 허용하면서 대화형 티어에는 저지연 제공업체를 우선시합니다.

프로덕션 배포

기본 티어

전체 컨텍스트 예산이 필요한 깊은 추론 단계를 위해 비용 최적화 제공업체를 통한 Llama 4 Maverick.

빠른 티어

대화형 사용을 위해 속도 최적화 제공업체(Groq)를 통한 Llama 4 Scout, 더 넓은 맥락이 필요한 경우 Groq의 Maverick이 대안.

다국어 티어

Qwen 3.6은 폴리글롯 Accord가 요구하는 비영어 추론 경로를 담당하며, 체인에서 비Llama 폴백을 제공합니다.

엣지 티어

모델 크기보다 사용자 접근성이 더 중요한 온디바이스, 저대역폭, 네트워크 저하 환경 배포를 위한 Gemma 4.

폴백 체인

여러 제공업체에 걸친 Maverick → Scout → Qwen 3.6 → Gemma 4로, 에이전트가 모델 패밀리와 인프라 경계 전반에 걸쳐 완전히 실패하는 대신 우아하게 성능을 낮춥니다.

이 라인업을 선택한 이유

교체 가능한 부품이 아닌 서로 다른 역할

Maverick은 전체 컨텍스트 예산이 중요한 깊은 추론을 담당합니다. Scout은 지연 시간이 지배적인 대화형 티어를 맡습니다. Qwen 3.6은 Accord가 29개 언어에서 요구하는 폴리글롯 추론 경로에 도달합니다. Gemma 4는 에이전트를 일반 하드웨어 범위 내에 두는 소형 옵션입니다. 라인업은 한 모델이 모든 것을 강제로 처리하는 대신 각 작업 티어가 실제로 적합한 모델로 가도록 선택되었습니다.

세 개의 독립적인 모델 패밀리

Llama(Maverick + Scout), Qwen, Gemma는 세 개의 독립적인 학습 파이프라인과 세 개의 독립적인 제공업체 생태계에서 나옵니다. 폴백 체인에서 중요한 점은, 한 패밀리의 CVE, 라이선스 변경, 또는 제공업체 장애가 에이전트를 중단시키지 않는다는 것입니다. 모델 레이어에서의 독립성은 추론 레이어에서 IDMA 구성 요소를 강건하게 만드는 것과 동일한 특성입니다.

라인업에서 제외되는 것

다섯 가지 기준을 충족하지 못하는 모델들로, 대부분 토큰 가격은 매력적으로 보이지만 구조화 출력과 도구 호출에서 실패하는 모델들입니다.

대표적인 실패 사례(GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

이 오류는 상호작용당 12~70회의 도구 호출에 의존하는 프레임워크에서 용납될 수 없습니다. 3~10배 더 저렴한 토큰 가격도 운영상의 실패를 감수할 만한 가치가 없습니다.

128K 이상의 컨텍스트가 필수인 이유

항상 켜져 있는 Accord와 가이드

CIRIS는 모든 프롬프트에 전체 Accord와 완전한 종합 가이드를 포함합니다. 요약본이 아닙니다. 축약 버전이 아닙니다. 전체 거버넌스 텍스트 그대로입니다.

이를 통해 Accord나 가이드를 업데이트하면 새로운 파인튜닝이나 프롬프트 압축 전략을 기다리지 않고도 모든 에이전트의 동작에 즉시 영향을 미칩니다.

전체 윤리 및 절차 상태

CIRIS 에이전트는 다음을 처리하는 도구 중심 오케스트레이터입니다:

다단계 워크플로우
시스템 상태 및 도구 출력
사용자 메시지 및 대화 기록
전체 Accord 및 가이드

이 합산 컨텍스트는 특히 장기 실행 세션이나 복잡한 조사의 경우 32K~64K를 쉽게 초과합니다. 그래서 128K가 최소값이고 256K 이상이 권장됩니다.

핵심 결론:

CIRIS는 모델에 맞게 가치나 절차를 줄이지 않습니다. 대신, CIRIS는 모든 호출에서 전체 윤리 및 운영 프레임워크를 담을 수 있을 만큼 충분히 큰 모델을 선택합니다. 컨텍스트 창이 작은 모델(더 저렴하거나 더 인기 있더라도)은 프로덕션 사용에서 제외됩니다.

CIRIS Accord를 지원하는 방식

윤리적 인프라로서의 모델 선택

투명성 및 검사 가능성

긴 컨텍스트는 추론 추적, 결정, 도구 호출을 사람이 검토할 수 있도록 가시적으로 유지합니다
안정적인 JSON과 구조화 출력은 모든 도구 호출을 감사 가능하게 만듭니다
모든 호출에 완전한 거버넌스 아티팩트를 포함하여 결정을 원칙으로 추적할 수 있습니다

복원력 및 거버넌스

다중 제공업체 배포는 중요한 윤리 인프라의 단일 실패 지점을 방지합니다
"화려하지만 불안정한" 대신 "충분히 좋고 안정적인" 선택은 안전성과 지속성을 우선시합니다
장애 시 우아한 성능 저하로 서비스 가용성을 유지합니다

인간 감독

빠른 티어는 실시간 윤리 검토를 위해 사람이 루프에 편안하게 머물 수 있게 합니다
저렴한 티어는 과도한 비용 없이 광범위한 백그라운드 분석을 가능하게 합니다
균형 잡힌 접근 방식은 일상적인 사용과 정기 거버넌스 감사를 모두 지원합니다

핵심 결론

CIRIS는 Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, Gemma 4를 프로덕션에서 운영합니다. 이 모델들이 함께 Accord가 부과하는 운영 및 경제적 제약을 충족하기 때문입니다: 긴 컨텍스트, 안정적인 도구 호출, 폴리글롯 범위, 일반 하드웨어 접근성, 그리고 세 개의 독립적인 모델 패밀리. 새 모델은 지속적으로 모니터링 및 테스트되며, 더 나은 모델이 실제로 다섯 가지 기준을 충족할 때 라인업이 변경됩니다.

이것은 벤치마크 점수를 쫓거나 유행을 따르는 것이 아닙니다. 프로덕션에서 책임 있고 도구 중심적인 에이전트에 실제로 작동하는 모델을 선택하고, 모든 단일 호출에서 Accord를 충분히 진지하게 담아낼 모델을 고르는 것입니다.