Mawasiliano ya KwanzaSakinishaRatchet ya UpatanifuShirikishoLinganishaUtafitiMkatabaGitHub
Ukurasa huu ulitafsiriwa na mashine. Ikiwa kitu chochote hakisomeki vizuri, tafadhali fungua suala, hifadhi inapatikana kwa umma kwa sababu hiyo. Ripoti tatizo la tafsiri

Modeli za LLM Tunazotumia na Sababu Zake

CIRIS Agent inafanya kazi kwa modeli chache za wazi ambazo zinakidhi vigezo vitano visivyoweza kupuuzwa. Safu ya sasa ya uzalishaji ni Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, na Gemma 4, zilizochaguliwa kwa majukumu tofauti katika mzigo wa kazi wa wakala.

Llama 4 Maverick

Injini kuu ya hoja. Inashikilia kiasi kikubwa sana cha muktadha kwa wakati mmoja, kwa hivyo ndio chaguo la kawaida kwa hatua za hoja za kina ambapo kuweka picha nzima mbele ni muhimu zaidi.

Watoa huduma: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Msaidizi wa haraka katika familia ya Llama 4. Ndogo na wa haraka zaidi kuliko Maverick, akiwa na uwezo imara wa kuita zana. Hutumika kwa viwango vya mwingiliano ambapo muda wa kujibu una umuhimu na bajeti kamili ya muktadha wa Maverick haihitajiki.

Watoa huduma: OpenRouter, Groq

Qwen 3.6

Kina cha lugha nyingi na matokeo imara ya muundo. Hubeba uzito katika njia za hoja zisizo za Kiingereza ambazo Mkataba wa lugha nyingi unahitaji; msingi wa mtoa huduma huru nje ya familia ya Llama huongeza uakiba katika mnyororo wa kuingia mbadala.

Watoa huduma: OpenRouter, DashScope, DeepInfra

Gemma 4

Ndogo ya kutosha kukimbia kwenye vifaa vya kawaida. Hutumika mahali ambapo ufikiaji una umuhimu zaidi kuliko uwezo ghafi (kwenye kifaa, unganisho la chini, na upelekaji wa mtandao ulioathirika) na kama mbadala wa familia ya tatu pamoja na Llama na Qwen.

Watoa huduma: OpenRouter, Google

Vigezo Vyetu vya Modeli

Mahitaji matano yasiyoweza kupuuzwa kwa CIRIS Agent

1. Matokeo ya Muundo na Matumizi ya Zana

Lazima iunge mkono natively uito wa vitendaji na kurudisha JSON halali katika uito wa zana 12 hadi 70 kwa kila mwingiliano. CIRIS ni mpangiliaji. Tunahitaji semantiki imara za zana, sio mazungumzo ya maneno mengi.

2. Dirisha la Muktadha: Kiwango cha Chini cha 128K

CIRIS inajumuisha Mkataba kamili na Mwongozo katika kila ujumbe. 128K ndiyo kiwango cha chini kabisa; 256K+ inapendelewa sana kwa mazungumzo marefu, matokeo ya zana, na njia za ukaguzi.

3. Ufanisi wa Gharama

Lengo: chini ya $1.00 kwa tokeni 1M pamoja. Tunachagua chaguo la bei nafuu zaidi linalofanya kazi, sio mshindi wa bei nafuu zaidi wa kipimo. Modeli inayotegemewa ambayo haichanganyi JSON kamwe inashinda modeli ya bei nafuu zaidi inayoshindwa mara 1 kati ya 10.

4. Upatikanaji wa Watoa Huduma Wengi

Lazima ipatikane kutoka kwa watoa huduma wawili huru au zaidi kwa minyororo imara ya mbadala. CIRIS inashuka kwa heshima wakati wa ukatikaji badala ya kushindwa kabisa.

5. Muda wa Kujibu na Uzoefu wa Mtumiaji

Majibu ya haraka huweka wanadamu katika mzunguko kwa mtiririko wa ukaguzi wa kimaadili. Tunapendelea watoa huduma wa muda mfupi wa kujibu kwa viwango vya mwingiliano huku tukikubali vifaa vya polepole zaidi kwa kazi za nyuma.

Upelekaji wa Uzalishaji

Kiwango cha Kawaida

Llama 4 Maverick kupitia mtoa huduma ulioimarishwa kwa gharama kwa hatua za hoja za kina zinazohitaji bajeti kamili ya muktadha.

Kiwango cha Haraka

Llama 4 Scout kupitia mtoa huduma ulioboreshwa kwa kasi (Groq) kwa matumizi ya mwingiliano, na Maverick kwenye Groq kama mbadala wa muktadha mzito zaidi.

Kiwango cha Lugha Nyingi

Qwen 3.6 hubeba uzito katika njia za hoja zisizo za Kiingereza ambazo Mkataba wa lugha nyingi unahitaji, na hutoa mbadala wa kundi lisilo la Llama katika mnyororo.

Kiwango cha Makingamakingo

Gemma 4 kwa upelekaji kwenye kifaa, unganisho la chini, na mtandao ulioathirika ambapo kufikia mtumiaji kuna umuhimu zaidi kuliko ukubwa wa modeli.

Mnyororo wa Mbadala

Maverick โ†’ Scout โ†’ Qwen 3.6 โ†’ Gemma 4 kwa watoa huduma wengi, ili wakala ushuke kwa heshima katika familia za modeli na mipaka ya miundombinu badala ya kushindwa kabisa.

Sababu ya Safu Hii

Majukumu tofauti, sio sehemu zinazoweza kubadilishana

Maverick anashughulikia hoja za kina ambapo bajeti kamili ya muktadha ina umuhimu. Scout hubeba kiwango cha mwingiliano ambapo muda wa kujibu unatawala. Qwen 3.6 hufikia njia za hoja za lugha nyingi ambazo Mkataba unahitaji katika lugha 29. Gemma 4 ni chaguo la kiwango kidogo cha alama ambayo huweka wakala ndani ya uwezo wa vifaa vya kawaida. Safu imechaguliwa ili viwango tofauti vya kazi viende kwa modeli inayofaa kweli kweli, badala ya kulazimisha modeli moja kufanya kila kitu.

Familia tatu huru za modeli

Llama (Maverick + Scout), Qwen, na Gemma zinatoka katika njia tatu huru za mafunzo na mifumo mitatu huru ya watoa huduma. Hilo lina umuhimu kwa minyororo ya mbadala: CVE, mabadiliko ya leseni, au ukatikaji wa mtoa huduma katika familia moja hautelemshi wakala. Uhuru katika safu ya modeli ni sawa na mali inayofanya sehemu ya IDMA kuwa imara katika safu ya hoja.

Kinachobaki nje ya safu

Modeli ambazo haziwezi kukidhi vigezo vitano, mara nyingi, modeli ambazo zinaonekana kuvutia kwa bei ya tokeni lakini zinashindwa katika matokeo ya muundo na uito wa zana.

Hali ya kushindwa inayowakilisha (GPT-OSS-20B): "uchaguzi wa zana unahitajika, lakini modeli haikuita zana"

Hitilafu hii haiwezi kukubalika kwa mfumo unaotegemea uito wa zana 12 hadi 70 kwa kila mwingiliano. Hata bei ya tokeni ya nafuu mara 3 hadi 10 haistahili kushindwa kwa uendeshaji.

Sababu ya Muktadha wa 128K+ Kutoweza Kupuuzwa

Mkataba na Mwongozo Waliopo Kila Wakati

CIRIS inajumuisha Mkataba kamili na Mwongozo Kamili wa Kina katika kila ujumbe. Sio muhtasari. Sio toleo lililofupishwa. Maandiko yote ya utawala.

Hii inahakikisha kwamba masasisho ya Mkataba au Mwongozo yanaathiri tabia mara moja katika mawakala wote, bila kusubiri mafunzo mapya au mikakati ya kupunguza ujumbe.

Hali Kamili ya Kimaadili na ya Utaratibu

Mawakala wa CIRIS ni wapangiliaji wenye zana nyingi wanaosimamia:

  • Mtiririko wa hatua nyingi
  • Hali ya mfumo na matokeo ya zana
  • Ujumbe wa mtumiaji na historia ya mazungumzo
  • Mkataba kamili na Mwongozo

Muktadha huu uliounganishwa unazidi kwa urahisi 32K hadi 64K, hasa kwa vikao vya muda mrefu au uchunguzi mgumu. Ndiyo maana 128K ndiyo kiwango cha chini na 256K+ inapendelewa.

Hitimisho:

CIRIS haipunguzi maadili au taratibu zake ili kulingana na modeli. Badala yake, CIRIS huchagua modeli ambazo ni kubwa ya kutosha kubeba mfumo wote wa kimaadili na wa uendeshaji katika kila uito. Modeli zenye madirisha madogo ya muktadha (hata kama ni za bei nafuu au maarufu zaidi) zinaachwa nje ya matumizi ya uzalishaji.

Jinsi Hii Inavyounga Mkono Mkataba wa CIRIS

Uchaguzi wa modeli kama miundombinu ya kimaadili

Uwazi na Ukaguliaji

  • Muktadha mrefu huweka njia za hoja, maamuzi, na uito wa zana wazi kwa ukaguzi wa binadamu
  • JSON imara na matokeo ya muundo hufanya kila uito wa zana uweze kukaguliwa
  • Vifaa kamili vya utawala katika kila uito huhakikisha maamuzi yanaweza kufuatiliwa hadi kanuni

Uthabiti na Utawala

  • Upelekaji wa watoa huduma wengi huepuka pointi moja za kushindwa katika miundombinu muhimu ya kimaadili
  • Kuchagua "ya kutosha na inayotegemewa" badala ya "inayovutia lakini dhaifu" kunatanguliza usalama na uendelevu
  • Kushuka kwa heshima wakati wa ukatikaji kunahifadhi upatikanaji wa huduma

Usimamizi wa Binadamu

  • Viwango vya haraka huweka wanadamu vizuri katika mzunguko kwa ukaguzi wa kimaadili wa wakati halisi
  • Viwango vya bei nafuu vinasaidia uchambuzi mpana wa nyuma bila gharama kubwa
  • Njia yenye usawa inasaidia matumizi ya kila siku na ukaguzi wa utawala wa mara kwa mara

Hitimisho

CIRIS inakimbia Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, na Gemma 4 katika uzalishaji kwa sababu pamoja zinakidhi vizuizi vya uendeshaji na kiuchumi ambavyo Mkataba unaweka: muktadha mrefu, uito imara wa zana, ufunikaji wa lugha nyingi, na ufikiaji wa vifaa vya kawaida, katika familia tatu huru za modeli. Modeli mpya zinafuatiliwa na kupimwa kila wakati; safu inabadilika modeli bora inapokidhi kweli vigezo vitano.

Hii si kuhusu kufuata alama za vipimo au mzunguko wa msisimko. Ni kuhusu kuchagua modeli ambazo zinafanya kazi kweli kweli kwa mawakala yanayoweza kuhesabiwa, yenye zana nyingi katika uzalishaji, na ambayo yanachukulia Mkataba kwa uzito wa kutosha kubeba katika kila uito mmoja mmoja.