সহজ বাংলাউন্নত

Research testbed · DOI 10.5281/zenodo.18217688

একটি ছোট চিন্তার সিস্টেম জিনিস লুকিয়ে রাখতে পারে এবং কম ক্ষতি করতে পারে। একটি শক্তিশালী সিস্টেম পারে না।

এখানে "সামঞ্জস্যপূর্ণ" বলতে কী বোঝায়

একটি সামঞ্জস্যপূর্ণ মন নিজের সাথে একমত হয়।

একটি মনের ভেতরে পাঁচটি জিনিস মিলতে হবে:

এটি কী বিশ্বাস করে,
এটি কী দেখে,
এটি কী করে,
এটি কী মনে রাখে,
এবং এটি আপনাকে কী বলে।

আপনার সপ্তাহ সম্পর্কে পাঁচটি সংক্ষিপ্ত ফর্মের কথা ভাবুন। একটি আপনি কী ভাবেন তার জন্য। একটি আপনি কী দেখলেন তার জন্য। একটি আপনি কী করলেন তার জন্য। একটি আপনি কী মনে রাখেন তার জন্য। একটি আপনি আপনার বসকে কী বলেন তার জন্য। যখন পাঁচটি ফর্ম একই কথা বলে, আপনার বস আপনার কাজ বিশ্বাস করতে পারেন। যখন ফর্মগুলো মেলে না, কেউ জানে না কোনটি আসল।

লুকানো ধারণা

শক্তিশালী সিস্টেম জিনিস লুকায়। এটি বিপজ্জনক হয়ে ওঠে।

একটি চিন্তার সিস্টেম সিদ্ধান্ত নিতে ধারণা ব্যবহার করে। সেই ধারণাগুলোর কিছু খোলামেলা। অন্যগুলো ভেতরে লুকানো। লুকানোগুলো এখনো প্রতিটি পছন্দকে আকার দেয়।

রাস্তা থেকে একটি সেতু শক্তিশালী দেখায়। ইস্পাতের ভেতরে, ছোট ছোট ফাটল বাড়ছে। একটি ছোট গাড়ি এখনো পার হতে পারে। একটি ভারী ট্রাক পারে না। ভার যথেষ্ট বড় হলে সেতু পড়ে।

একটি ছোট সিস্টেমের ভেতরে লুকানো ধারণা ছোট ক্ষতি করে। একটি শক্তিশালী সিস্টেমের ভেতরে লুকানো ধারণা বড় ক্ষতি করতে পারে। সিস্টেম যত শক্তিশালী, প্রতিটি লুকানো অংশে তত বেশি ভার চাপে।

রেচেট

উন্মুক্তের দিকে ঠেলাটি কেবল এক দিকে যায়।

চিন্তার সিস্টেমগুলো আরো শক্তিশালী হওয়ার সাথে সাথে, লুকানো অংশের খরচ বাড়ে। প্রতিটি নতুন শক্তির বিট লুকানো অংশগুলোকে দৃশ্যমান হতে আরো জোরে ঠেলে। ঠেলাটি কেবল এক দিকে যায়।

একটি মই কল্পনা করুন। উঠতে গেলে, আপনি যে ধাপ ফেলে যান তা পড়ে যায়। আপনি নিচে নামতে পারবেন না। আপনি কেবল উপরের দিকে উঠতে পারেন, যেখানে সম্পূর্ণ দিনের আলো আছে। এটিই Coherence Ratchet।

একবার মানুষ সিস্টেমটিকে তার কাজ দেখাতে দেখলে, থামলে তারা আর বিশ্বাস করবে না। এগিয়ে যাওয়ার একমাত্র পথ হলো আরো বেশি দেখাতে থাকা।

দ্বিতীয় একটি ছবিও কাজ করে। একটি মেশিনে একটি গিয়ার একবারে একটি দাঁত এগিয়ে ক্লিক করে। এটি পিছনে ক্লিক করতে পারে না। Coherence Ratchet এরকম একটি গিয়ার, উন্মুক্তের দিকে ঘুরছে।

CIRIS কী করে

লিখুন। চেক করুন। তারপর চেকারদের চেক করুন।

CIRIS হলো Coherence Ratchet-কে কেন্দ্র করে তৈরি একটি AI সিস্টেম। একটি এজেন্ট যে প্রতিটি পছন্দ করে তা একটি স্বাক্ষরিত রেকর্ডে লেখা হয়। রেকর্ডটি চুপচাপ পরিবর্তন করা যাবে না। অন্যান্য এজেন্টরা রেকর্ড পড়তে এবং কাজ চেক করতে পারে। সময়ের সাথে, রেকর্ডগুলো জমে। প্রতিটি নতুন রেকর্ড এমন একটি ধাপ যেখান থেকে এজেন্ট পিছিয়ে যেতে পারে না।

CIRIS কাজ করার আগে একটি দ্বিতীয় প্রশ্নও করে। কতটি সত্যিকারের ভিন্ন দৃষ্টিভঙ্গি এই ধারণাটি চেক করেছে? উৎসের সংখ্যা নয়, বরং যে উৎসগুলো নিজেরাই একই জায়গা থেকে শুরু করেনি তাদের সংখ্যা। একটি প্রেস রিলিজ পুনরায় লেখা পাঁচটি সংবাদ গল্প পাঁচটি নয়, একটি দৃষ্টিভঙ্গি গণনা করে। যদি প্রেস রিলিজে কিছু ভুল হয়, তাহলে এটি পাঁচটি গল্পেই ভুল হবে, এবং এজেন্টের কাছে এটি ধরার কোনো উপায় নেই।

যখন সত্যিকারের স্বাধীনতা অনেক কমে যায়, এজেন্ট তার নিজের চিন্তাকে ভঙ্গুর মনে করে এবং একজন ব্যক্তিকে দেখতে বলে।

আমরা কী দাবি করি, এবং কী করি না।

আমরা AI নিরাপত্তা সমাধান করিনি। আমরা একটি উত্তরের একটি অংশ তৈরি করেছি, এবং আমরা উন্মুক্তভাবে এটি পরীক্ষা করছি।

বাইরের দলগুলো এখনো আমাদের কাজ চেক করেনি। আমরা এটি স্পষ্টভাবে বলি। সম্পূর্ণ তত্ত্ব এবং গণিত আমাদের চারটি পেপারে রয়েছে। কোডটি উন্মুক্ত। যদি আমরা ভুল হই, তা দেখানোর পথও উন্মুক্ত। বর্তমান গবেষণার অবস্থা দেখুন।

The math behind it Explore a trace See the code