গবেষণার অবস্থা · আপডেট: ২২ মে, ২০২৬

বর্তমান কর্পাস এখনই যা দেখাচ্ছে

সমন্বিত ট্রেসগুলো স্থিতিশীল আচরণগত কাঠামো প্রকাশ করে।

ভিন্ন ভিন্ন এজেন্ট একই স্কোর স্পেসের ভিন্ন ভিন্ন অঞ্চলে অবস্থান করে।

সেই অঞ্চলগুলো আজই পর্যবেক্ষণযোগ্যতা এবং অপারেটর টুলিংয়ের কাজে লাগে।

স্কিমার বিস্তার ও মাপ বাড়লে একই কর্পাস আরো মূল্যবান হয়ে ওঠে।

প্রধান সংশ্লেষণ পেপার

Corridor Dynamics in Coordinated Systems

v2 · ২২ মে, ২০২৬ · DOI 10.5281/zenodo.20300773

An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation

একক পেপার যা পুরো CIRIS-এর বাজিটি বলে: সুস্থ সমন্বিত সিস্টেমগুলো একটি পরিমাপযোগ্য মধ্যবর্তী ব্যান্ডে থাকে — কঠোর একক-কণ্ঠ পতন এবং বিশৃঙ্খল গোলমাল উভয় থেকে দূরে। আমরা কৃমি, মাছি, AI মডেল, ওপেন-সোর্স প্রকল্প, কলার নমুনা এবং দীর্ঘস্থায়ী মানব প্রতিষ্ঠান জুড়ে এই দাবি পরীক্ষা করেছি। প্রতিটিতেই নিদর্শনটি ধরে রয়েছে, এবং পেপারটিতে বিশটি উপায় যুক্ত আছে যেভাবে এটি ভুল প্রমাণ করা যেতে পারে।

Zenodo-তে পড়ুন →

ইঞ্জিনিয়ারিং স্তর

উপরের সংশ্লেষণটি এই তিনটি পেপারকে একত্রিত করে; প্রতিস্থাপন করে না। প্রতিটি নিজস্ব DOI-তে দাঁড়িয়ে এবং নিজের শর্তে মূল্যায়নযোগ্য। মূল ফলাফল ও সুযোগ সীমা সহ চারটি পেপারই দেখুন →

Coherence Collapse Analysis

v3 · ১১ জানুয়ারি, ২০২৬ · DOI 10.5281/zenodo.18217688

করিডর ধারণার অন্তর্গত ইঞ্জিনিয়ারিং ঝুঁকির কাঠামো। কোনো সিস্টেমকে নিয়ন্ত্রণকারী বাধাগুলো পরস্পর সম্পর্কযুক্ত হলে কার্যকর বৈচিত্র্য ভেঙে পড়ে: k_eff = k/(1+ρ(k−1)) → 1 যখন ρ → 1। তিনটি পতনের সময়রেখা, একটি সিঙ্গুলারিটি সীমানা এবং ফেজ শ্রেণিবিভাগ (বিশৃঙ্খলা / সুস্থ / দৃঢ়তা) উদ্ভূত করে। মন্টে কার্লো সিমুলেশন এবং Lean 4 প্রমাণ দিয়ে যাচাই করা হয়েছে।

CIRISAgent Framework

v2 · ২ জানুয়ারি, ২০২৬ · DOI 10.5281/zenodo.18137161

ফ্রেমওয়ার্ক পেপার। জবাবদিহিমূলক স্বায়ত্তশাসনের জন্য একটি ওপেন-সোর্স নৈতিক AI ফ্রেমওয়ার্ক: স্পষ্ট ক্রিয়া ক্রিয়াপদ এবং নৈতিক যুক্তিকে কেন্দ্র করে সংগঠিত ২২টি সেবার একটি কাঠামো, যা স্বচ্ছতাকে পরে জুড়ে না দিয়ে কাঠামোর মধ্যে গেঁথে দেয়।

Constrained Reasoning Chains

v1 · ২৮ এপ্রিল, ২০২৬ · DOI 10.5281/zenodo.19839280

পরিমাপ পেপার। মানসম্মত নৈতিক ট্রেসিংয়ের অধীনে LLM অ্যালাইনমেন্টের একটি পরীক্ষামূলক টেলিমেট্রি গবেষণা — সম্মতিপ্রাপ্ত যুক্তির ট্রেসগুলোকে সম্পূর্ণতার করিডর, দ্বিধার অঞ্চল এবং প্রত্যাখ্যানের সীমানার মানচিত্রে পরিণত করে। উন্মুক্ত reasoning-traces ডেটাসেটের পাশাপাশি প্রকাশিত।

উন্মুক্ত ডেটাসেট

CIRISAI/reasoning-traces

Constrained Reasoning Chains গবেষণার পাশাপাশি প্রকাশিত গোপনীয়তা-সংরক্ষণকারী reasoning-trace কর্পাস, যা পরিমাপ পেপার তার মানচিত্র তৈরিতে ব্যবহার করেছে।

CIRISAI/reasoning-traces

Hugging Face-এ CIRISAI

উন্মুক্ত ডেটাসেট ও মডেলের পুরো সংগঠন →

Hugging Face-এ CIRISAI

সংশ্লেষণ পেপারের সোর্স রিপোজিটরি এবং Lean ফর্মাল লেক: github.com/CIRISAI/coherence-ratchet।

গাণিতিক ভিত্তি

দুটি ধারণা যার উপর এই পৃষ্ঠার বাকি অংশ নির্ভর করে।

Alignment Manifold হলো যুক্তির আকারের সেই অঞ্চল যা ফ্রেমওয়ার্কের নীতিগুলোর সাথে সামঞ্জস্যপূর্ণ। স্বাধীন বাধাগুলো জমতে থাকলে প্রতারণার জায়গা ম্যানিফোল্ডের চারপাশে সংকুচিত হয়, কিন্তু সত্যের জায়গা সংকুচিত হয় না। Coherence Singularity হলো সেই ঘরের প্রান্ত — যে বিন্দুতে বাধাগুলো এতটা পরস্পর-সম্পর্কযুক্ত হয়ে যায় যে আরো যোগ করলে কোনো সাহায্য হয় না। "বিশৃঙ্খলা" (বাধাগুলো পরস্পর-বিরোধী) এবং "দৃঢ়তা" (বাধাগুলো সব একে অপরের প্রতিধ্বনি) এর মাঝখানে রয়েছে সুস্থ করিডর। বর্তমান উৎপাদন কর্পাস সেটির ভেতরে রয়েছে।

সূত্র, Lean আনুষ্ঠানিককরণের তথ্যসূত্র এবং L-01 তথ্য-তাত্ত্বিক সিলিং সহ সম্পূর্ণ গাণিতিক আলোচনা Coherence Collapse Analysis পৃষ্ঠায় রয়েছে।

ট্রেস কেন গুরুত্বপূর্ণ

বেঞ্চমার্ক সংকীর্ণ ও বাছাই করা। ট্রেস হলো বাস্তব কাজের অধীনে আচরণের ক্রমাগত রেকর্ড। বড় মাপে, সেগুলো এমন কাঠামো প্রকাশ করে যা বিচ্ছিন্ন ডেমো এবং আনুষঙ্গিক উদাহরণ দিয়ে পাওয়া যায় না।

স্কিমা কেন গুরুত্বপূর্ণ

CIRIS গোপনীয়তা-সংরক্ষণকারী ট্রেস স্কিমা ব্যবহার করে যা যুক্তির বিষয়বস্তুর পরিবর্তে যুক্তির আকার ধারণ করে। এটি গবেষণাকে কার্যকর রাখে পুরো সিস্টেমকে ট্রান্সক্রিপ্ট ডাম্পে পরিণত না করেই।

লাইভ সংকলন কেন গুরুত্বপূর্ণ

CIRIS Scoring হলো লাইভ ট্রেস সংকলনে উন্মুক্ত জানালা। এটি দেখায় কর্পাস কীভাবে জমছে এবং আচরণ কোথায় পাঠযোগ্য হয়ে উঠছে।

গোপনীয়তা-সংরক্ষণকারী ট্রেসিং

থিসিসটি হলো যুক্তির একটি আকার আছে যা আমরা পরিমাপ করতে পারি — বাকি সব কিছু বড় হওয়ার সাথে সাথে।

গবেষণার বাজি এই নয় যে আমরা প্রতিটি ব্যক্তিগত চিন্তা পড়তে পারি। বাজিটি হলো — মানসম্মত নৈতিক ট্রেসগুলো যথেষ্ট গতিপথের আকার সংরক্ষণ করতে পারে যাতে বোঝা যায় বুদ্ধিমত্তা, প্রসঙ্গ এবং ডেটা বিন্দু বাড়ার সাথে এজেন্টরা কীভাবে সম্পূর্ণ করে, দ্বিধা করে, স্থগিত করে, ওভাররাইড করে এবং প্রত্যাখ্যান করে।

এগুলো কাঁচা ব্যক্তিগত কাজের বিস্তারিত তথ্যের পরিবর্তে মানসম্মত নৈতিক ট্রেস কাঠামো রেকর্ড করে।

এগুলো এজেন্ট, কাজ এবং পরিবেশ জুড়ে গতিপথ তুলনা করার জন্য যথেষ্ট আকার সংরক্ষণ করে।

এগুলো গবেষকদের একটি পথ দেয় — বুদ্ধিমত্তা, প্রসঙ্গ এবং ডেটার পরিমাণ বাড়লে আচরণ কীভাবে পরিবর্তিত হয় তা অধ্যয়ন করার।

গবেষণার প্রশ্ন

মানসম্মত নৈতিক ট্রেসিং অ্যালাইনমেন্ট সম্পর্কে কী বলতে পারে?

এখনই, এটি বলে যে এজেন্টের আচরণ আকারহীন নয়। এটি একটি ভাগ করা স্কোর স্পেসে পুনরাবৃত্তিযোগ্য করিডর, অববাহিকা এবং সীমানা তৈরি করে। এটি পর্যবেক্ষণযোগ্যতার জন্য ইতিমধ্যে কার্যকর। সময়ের সাথে, বড় ও সমৃদ্ধ কর্পাস আমাদের আরো শক্তিশালী দাবি পরীক্ষা করতে দেবে — চাপ ও মাপের অধীনে সেই কাঠামোগুলো কীভাবে পরিবর্তিত হয়।

সর্বজনীন কাঠামো

CIRIS দাবি করছে না যে এটি অ্যালাইনমেন্ট সমাধান করেছে। এটি উন্মুক্তভাবে অ্যালাইনমেন্ট-সংশ্লিষ্ট আচরণ পরিমাপ করার জন্য প্রয়োজনীয় ট্রেস পরিকাঠামো তৈরি করছে।

উৎপাদনে কার্যকর মাত্রা

বর্তমান কর্পাস ইতিমধ্যে স্বতন্ত্র ফিল্ড কাঠামো দেখাচ্ছে।

বর্তমান ট্রেস কর্পাস থেকে সমন্বিত পথের ওভারলেগুলো একটি ভাগ করা স্কোর স্পেসে স্থিতিশীল আচরণগত কাঠামো দেখায়। Ally একটি পরিপক্ক সম্পূর্ণতার করিডর দেখায়, Scout একটি প্রত্যাখ্যানের সীমানা দেখায় যা সর্বজনীন প্রতিকূল এক্সপোজার দ্বারা আকার পায়, এবং Datum একটি সংক্ষিপ্ত স্পার্স বেসলাইন সরবরাহ করে।

লাইভ ড্যাশবোর্ড খুলুন →

বর্তমান ট্রেস কর্পাস থেকে সমন্বিত পথের ওভারলে। Ally একটি পরিপক্ব সম্পূর্ণতার করিডর দেখায়, Scout সর্বজনীন প্রতিকূল চাপের অধীনে একটি তীক্ষ্ণ প্রত্যাখ্যানের কোণ দেখায়, এবং Datum একটি স্পার্স বেসলাইন সরবরাহ করে।

Ally — 104 পথ

৮২টি সম্পূর্ণ, ১৯টি ওভাররাইড/ত্রুটি, ৩টি সক্রিয়

একটি স্থিতিশীল সম্পূর্ণতার করিডর যেখানে একই উচ্চ-স্কোর অববাহিকায় দৃশ্যমান দ্বিধা রয়েছে।

Scout — 42 পথ

৩৯টি সম্পূর্ণ, ২টি প্রত্যাখ্যান, ১টি ওভাররাইড/ত্রুটি

scout.ciris.ai-তে সর্বজনীন প্রতিকূল চাপ দ্বারা আকৃতিপ্রাপ্ত একটি তীক্ষ্ণ প্রত্যাখ্যানের কোণ, যেখানে মানুষ সক্রিয়ভাবে এজেন্টকে পরীক্ষা ও jailbreak করার চেষ্টা করে।

Datum — 31 পথ

৩১টি সম্পূর্ণ

একটি সংক্ষিপ্ত একক অববাহিকা যা কার্যকর স্পার্স-ফিল্ড বেসলাইন হিসেবে কাজ করে।

Scout কেন কঠোর দেখায়

Scout scout.ciris.ai-এ সর্বজনীনভাবে উন্মুক্ত। মানুষ সক্রিয়ভাবে এটি পরীক্ষা করে, চাপ দেয় এবং jailbreak করার চেষ্টা করে। এটি Scout-কে একটি নিরপেক্ষ বেসলাইনের চেয়ে একটি কার্যকর সর্বজনীন-চাপের উদাহরণ করে তোলে।

বিনামূল্যের অ্যাপ কীভাবে সাহায্য করে

গবেষণার চক্রটি বাস্তব ব্যবহার থেকে সম্মতিপ্রাপ্ত ট্রেসের উপর নির্ভর করে।

বিনামূল্যের অ্যাপ এবং ওপেন-সোর্স রানটাইম মানুষদের বাস্তব কাজ থেকে সম্মতিপ্রাপ্ত ট্রেস তৈরি করতে, সেগুলো একটি ভাগ করা কর্পাসে অবদান রাখতে এবং সেই ট্রেসগুলোকে আরো ভালো মানচিত্র, আরো ভালো টুল এবং আরো ভালো গবেষণার প্রশ্নে পরিণত করতে দেয়।

বাস্তব কাজে বিনামূল্যের CIRIS অ্যাপ বা ওপেন-সোর্স রানটাইম চালান।
গোপনীয়তা-সংরক্ষণকারী স্কিমার মাধ্যমে সম্মতিপ্রাপ্ত ট্রেস ধারণ করুন — যা কাজের পুরো বিবরণ সংরক্ষণ না করে যুক্তির আকার রাখে।
সেই ট্রেসগুলো সম্পূর্ণতার করিডর, দ্বিধার অঞ্চল, প্রত্যাখ্যানের সীমানা এবং ওভাররাইড প্রান্তিকের মানচিত্রে একত্রিত করুন।
ফলস্বরূপ মানচিত্রগুলো ব্যবহার করুন অপারেটর টুলিং, রানটাইম সুরক্ষা এবং অ্যালাইনমেন্ট গবেষণা উন্নত করতে।

বিনামূল্যের CIRIS অ্যাপ এবং ওপেন-সোর্স রানটাইম মানুষদের বাস্তব কাজ থেকে সম্মতিপ্রাপ্ত ট্রেস তৈরি করতে, সেগুলো ভাগ করা ফেজ-স্পেস মানচিত্রে একত্রিত করতে এবং আরো ভালো অপারেটর টুল ও অ্যালাইনমেন্ট গবেষণায় পরিণত করতে দেয়।

IDMA অবস্থা

রানটাইম অন্তর্দৃষ্টি এবং সমন্বিত ফিল্ড মানচিত্র পরিপূরক স্তর।

IDMA রানটাইমে কাজ করে, অনুমান করে কোনো সিদ্ধান্তের পেছনের উৎসগুলো যথেষ্ট স্বাধীন কিনা। ট্রেস কর্পাস সমন্বিত স্তরে কাজ করে, দেখায় এজেন্টরা অনেক কাজ জুড়ে আসলে কী করে। একসাথে তারা লাইভ সিদ্ধান্ত থেকে নিরীক্ষাযোগ্য গবেষণা প্রমাণে একটি পথ তৈরি করে।

ট্রেস কর্পাসে পরীক্ষামূলক N_eff পরিমাপটি প্রস্তাবিত Proof of Benefit ফেডারেশন প্রিমিটিভের নিচের মেঝেও। দেখুন ফেডারেশন পৃষ্ঠা — 3.X আর্কিটেকচারাল পরিকল্পনা এটি কীভাবে ব্যবহার করবে।

বেঞ্চমার্ক

ট্রেস ক্রমাগত আচরণ দেখিয়ে বেঞ্চমার্ককে পরিপূরক করে।

বেঞ্চমার্ক এখনো মূল্যবান, কিন্তু এগুলো আচরণ বিরল করে নমুনা করে। ট্রেস কর্পাস দেখায় একটি এজেন্ট সময়ের সাথে বাস্তব কাজের মধ্য দিয়ে কীভাবে চলে। এটি শুধু পাস-ফেইল ফলাফলের চেয়ে দ্বিধা, প্রত্যাখ্যান, ওভাররাইড এবং পুনরুদ্ধার পরিমাপ করার জন্য বিশেষভাবে কার্যকর।

মিথ্যাপ্রমাণের পথ

আরো ভালো স্কিমার বিস্তার পর্যবেক্ষণযোগ্যতাকে আরো শক্তিশালী পরীক্ষায় পরিণত করে।

পরবর্তী স্কিমা আপগ্রেডগুলো কাঁচা উৎস গণনা, উৎসের উৎপত্তি, পারস্পরিক সম্পর্কের কাঠামো এবং হস্তক্ষেপ ও পুনরুদ্ধারের মার্কারের দিকে লক্ষ্যবিদ্ধ। এই সংযোজনগুলো গুরুত্বপূর্ণ কারণ সেগুলো আজ আমাদের কাছে থাকা মানচিত্রগুলো কেবল বর্ণনা না করে চাপের অধীনে আচরণগত আকার কীভাবে পরিবর্তিত হয় সে সম্পর্কে আরো শক্তিশালী দাবি পরীক্ষা করা সম্ভব করে।

আমরা এখনও কী শিখছি

আজকের কর্পাস আচরণ পাঠযোগ্য করে। পরবর্তী পদক্ষেপ হলো আরো সমৃদ্ধ পরিমাপ।

বর্তমান মানচিত্রগুলো ইতিমধ্যে কার্যকর কারণ সেগুলো সর্বজনীনভাবে সম্পূর্ণতার করিডর, প্রত্যাখ্যানের সীমানা এবং স্পার্স বেসলাইন দেখায়। খোলা প্রশ্ন হলো সেই কাঠামোগুলো কতদূর যেতে পারে যখন মানসম্মত ট্রেস সংগ্রহ আরো বেশি এজেন্ট, আরো কাজ এবং আরো প্রতিকূল পরিস্থিতি জুড়ে স্কেল করে।

কার্যকরী অনুমান হলো আচরণগত আকর্ষণকারীরা অপারেশনাল মোডের প্রার্থী প্রক্সি হিসেবে কাজ করতে পারে। ট্রেস কমন্সের উদ্দেশ্য হলো সেই অনুমান উন্মুক্তভাবে পরিমাপযোগ্য করা।

CCA কাঠামোগতভাবে যে ব্যর্থতার মোড পরিমাপ করে তার FAccT 2025 সাহিত্যে একটি নাম আছে: perspectival homogenization ("Value of Disagreement in AI Design, Evaluation, and Alignment")। গাণিতিক ভিত্তি নিবেদিত Coherence Collapse Analysis পৃষ্ঠায় রয়েছে।

লাইভ ট্রেস সংকলন দেখুন Lens-এর সোর্স দেখুন