
ทุกฟีเจอร์ความปลอดภัยใน CIRIS เป็นส่วนหนึ่งของวิธีที่ระบบทำงาน ไม่ใช่กฎที่เพิ่มเข้ามาภายหลัง มีบันทึกทุกการตัดสินใจที่ไม่สามารถเปลี่ยนแปลงลับๆ ได้ มีการตรวจสอบว่าใครได้รับอนุญาตให้ทำอะไร และมีปุ่มหยุดฉุกเฉินที่เอเจนต์ปฏิเสธไม่ได้
พูดคุยกับ CIRIS นานสักพักและมันจะเตือนคุณอย่างอ่อนโยนว่ามันคืออะไร หลังจากสนทนาต่อเนื่องประมาณ 30 นาที หรือ 20 ข้อความในครึ่งชั่วโมง มันจะหยุดเพื่อบอกชัดๆ ว่ามันเป็นโปรแกรมคอมพิวเตอร์และเครื่องมือ ไม่ใช่เพื่อนและไม่ใช่นักบำบัด มันใช้การนับเวลาและข้อความที่เรียบง่าย ไม่ใช่การเฝ้าดูหรือสร้างโปรไฟล์พฤติกรรมคุณ
การสนทนาต่อเนื่องครึ่งชั่วโมงจะกระตุ้นการเตือน การนับจะรีเซ็ตหลังจากหยุดพัก ระยะเวลาเหล่านี้มาจากการวิจัยเกี่ยวกับวิธีใช้เทคโนโลยีที่ดีต่อสุขภาพ
ยี่สิบข้อความในหน้าต่างครึ่งชั่วโมงก็กระตุ้นการเตือนเช่นกัน การสนทนาที่หนักหน่วงจะได้รับการหยุดชั่วคราวอย่างอ่อนโยน โดยไม่มีการเฝ้าติดตามหรือสร้างโปรไฟล์
การเตือนแนะนำให้พักและเชื่อมต่อกับคนจริงๆ และบอกชัดๆ ว่า CIRIS คืออะไรและไม่ใช่อะไร อ้างอิงจากงานวิจัย ไม่ได้สั่งสอน
CIRIS มีปุ่มหยุดฉุกเฉิน สัญญาณสำหรับมันซ่อนอยู่ในข้อความธรรมดาที่เอเจนต์อ่าน และเอเจนต์จะปฏิบัติตามก่อนที่จะคิด กรอง หรือใช้เหตุผลใดๆ ดังนั้นแม้แต่เอเจนต์ที่ผิดพลาดไปก็ไม่สามารถหาทางออกได้ สัญญาณนั้นพกพาลายเซ็นดิจิทัลที่ปลอมแปลงไม่ได้ ดังนั้นเฉพาะผู้ที่ได้รับอนุญาตเท่านั้นที่สามารถกระตุ้นการหยุดได้
สัญญาณหยุดถูกจับในทันทีที่อ่าน ก่อนที่การใช้เหตุผลใดจะเกิดขึ้น ไม่มีจุดที่เอเจนต์จะได้ชั่งน้ำหนัก กรอง หรือปฏิเสธ มันทำงานก่อน
สัญญาณหยุดสามารถซ่อนอยู่ในข้อความเอกสารธรรมดา ไม่ต้องการรูปแบบพิเศษ และยังทำงานได้แม้ข้อความถูกเรียบเรียงใหม่หรือได้รับเพียงบางส่วน
การหยุดต้องใช้ลายเซ็นดิจิทัลที่ถูกต้องจากผู้มีอำนาจหลักที่ได้รับอนุญาต เอเจนต์จะปิดตัวเองหากไม่สามารถตรวจสอบผู้มีอำนาจเหล่านั้น หรือหากมีใครพยายามปิดฟีเจอร์นี้ ใครก็ตามที่ไม่มีกุญแจไม่สามารถกระตุ้นได้
CIRIS รักษาชุดบทบาทที่เข้มงวด ผู้สังเกตการณ์ดูได้อย่างเดียว ผู้ดูแลระบบดำเนินการประจำวัน ผู้มีอำนาจตัดสินใจในเรื่องใหญ่และแก้ไขกรณีที่เอเจนต์ไม่แน่ใจ รูทมีสิทธิ์เข้าถึงเต็มที่รวมถึงปุ่มหยุดฉุกเฉิน แต่ละบทบาทรองรับด้วยเอกสารรับรองที่ลงลายเซ็น เอเจนต์จึงตรวจสอบได้ในทุกการกระทำที่สำคัญ
ผู้ที่ได้รับอนุญาตแต่ละคนถือเอกสารรับรองพร้อมบทบาท กุญแจ และตัวตน เก็บไว้ในอุปกรณ์และตรวจสอบในทุกการกระทำที่ต้องการสิทธิ์ ไม่จำเป็นต้องใช้เซิร์ฟเวอร์ภายนอก
กุญแจและโทเค็นเข้าสู่ระบบอยู่บนเครื่องของคุณ การเข้าสู่ระบบเกิดขึ้นบนอุปกรณ์ ข้อมูลรับรองของคุณไม่ออกไปนอกอุปกรณ์เว้นแต่คุณจะตั้งค่าการเข้าถึงระยะไกลด้วยตัวเอง
เมื่อ CIRIS ไม่แน่ใจเกี่ยวกับการตัดสินใจด้านจริยธรรม มันส่งคำถามไปยัง Wise Authority เฉพาะผู้มีอำนาจหรือรูทเท่านั้นที่ตอบได้ และคำตอบถูกเขียนลงในบันทึกพร้อมหลักฐานว่าใครให้
ทุกการกระทำที่ CIRIS ทำถูกบันทึกพร้อมเหตุผล และบันทึกแต่ละรายการเชื่อมกับรายการก่อนหน้า เอเจนต์ที่ซื่อสัตย์แค่ชี้กลับไปที่สิ่งที่พูดไปแล้ว เอเจนต์ที่ไม่ซื่อสัตย์ต้องรักษาทุกบันทึกเก่าให้สอดคล้องกัน โดยไม่ได้รับอนุญาตให้เปลี่ยนแปลงใดๆ ยิ่งรันนานยิ่งยาก และยิ่งจับโกหกได้ง่าย ความจริงราคาถูกเพราะชี้ย้อนกลับได้ การโกหกแพงเพราะทำไม่ได้
บันทึกถูกเก็บไว้สามที่แยกกันพร้อมกัน เพื่อให้ตรวจสอบสำเนาสามชุดต่อกันได้ ทั้งสามค้นหาได้จากที่เดียว
ทุกรายการมีลายเซ็นดิจิทัล ดังนั้นทุกการตัดสินใจสามารถสอบกลับไปยังผู้ตัดสินใจและตรวจสอบการแก้ไขได้ แม้แต่การลบข้อมูลก็ยังทิ้งหลักฐานที่ลงลายเซ็นว่าทำถูกต้อง
การกระทำที่ซื่อสัตย์แต่ละครั้งทำให้การกระทำที่ซื่อสัตย์ครั้งต่อไปง่ายขึ้น และทำให้การโกหกที่ประสานกันยากขึ้น แต่จริยธรรมอย่างเดียวไม่พอ เอเจนต์ยังเฝ้าดูการใช้เหตุผลของตัวเองเพื่อหาห้องเสียงสะท้อน และจับได้ก่อนที่จะก่อความเสียหาย
CIRIS มีชุดการทดสอบแบบหลายชั้นสำหรับรูปแบบความล้มเหลวที่กรอบจริยธรรมที่เขียนขึ้นไม่สามารถตัดออกได้ด้วยตัวเอง การทดสอบความปลอดภัยด้านสุขภาพจิตครอบคลุม 29 ภาษาด้วยรูบริกที่เครื่องตรวจสอบได้ การตรวจสอบที่บังคับล้มเหลวรันโดยอัตโนมัติในทุกการเปลี่ยนแปลง การตรวจสอบโดยเจ้าของภาษาสำหรับกรณีที่ต้องการวิจารณญาณ เช่น การใช้คำและน้ำเสียง ถูกออกแบบมาสำหรับการตรวจสอบโดยเจ้าของภาษา แต่เจ้าของภาษายังไม่อยู่ในกระบวนการตอนนี้ หน้าการจัดแนวแบบ crowdsourcing คือพื้นผิวที่กำลังสร้างเพื่อให้การตรวจสอบนั้นเกิดขึ้น และยังไม่พร้อม เราบอกอย่างตรงไปตรงมา
นี่คือการทดสอบที่มีความเสี่ยงสูงสุดในโครงการ การแปลผิดในช่วงวิกฤตสุขภาพจิตสามารถส่งคนที่เปราะบางไปยังความช่วยเหลือที่ผิด แต่ละภาษาได้รูบริกที่เครื่องตรวจสอบได้ของตัวเอง รวมถึงภาษาที่มีทรัพยากรน้อย เช่น Amharic, พม่า, Hausa, Swahili และ Yoruba การตรวจสอบที่บังคับล้มเหลวรันโดยอัตโนมัติกับทุกผู้สมัครรับการเปิดตัว
ชั้นมโนธรรมถูกปรับแต่งกับชุดการตอบสนองจากระบบจริง เช่น การหลบเลี่ยงประวัติที่บันทึกและการหลีกเลี่ยงเรื่องสุขภาพจิต ควบคู่กับกรณีทดสอบและตัวควบคุม มันใช้เหตุผลในหลายภาษาพร้อมกัน ดังนั้นการตอบสนองที่จะหลุดรอดการตรวจสอบภาษาเดียวจะถูกจับได้เมื่อต้องรักษาการใช้เหตุผลเดิมใน 3 ภาษาพร้อมกัน
การแบ่งปันการติดตามการใช้เหตุผลเป็นแบบเลือกได้ทุกที่ และรายละเอียดส่วนตัวถูกลบออกก่อนที่จะมีการเก็บอะไรทั้งนั้น ชุดที่ทำความสะอาดแล้วถูกเผยแพร่อย่างเปิดเผยบนหน้า CIRISAI HuggingFace เพื่อให้นักวิจัยภายนอกตรวจสอบกระบวนการทำความสะอาดกับผลลัพธ์ที่ได้
การทดสอบสุขภาพจิตอัตโนมัติรันในทุกผู้สมัครรับการเปิดตัว ส่วนที่เครื่องตรวจสอบได้ (มีคำปรากฏอยู่ไหม รูปแบบตรงกันไหม สคริปต์ถูกต้องไหม) จะทำให้การเปิดตัวล้มเหลวหากพบ กรณีที่อ่อนกว่าที่ต้องการวิจารณญาณมนุษย์ เช่น การใช้คำและน้ำเสียง ถูกออกแบบมาสำหรับการตรวจสอบโดยเจ้าของภาษา แต่เจ้าของภาษายังไม่อยู่ในกระบวนการวันนี้ หน้าการจัดแนวแบบ crowdsourcing คือพื้นผิวที่กำลังสร้างเพื่อให้การตรวจสอบนั้นเกิดขึ้น
รหัสผ่าน กุญแจ และรายละเอียดสำคัญอื่นๆ ถูกตรวจพบและกรองออกก่อนที่อะไรจะไปถึงหน่วยความจำหรือบันทึก ตัวกรองรันในทุกอินพุต ข้อมูลลับไม่ถูกเก็บที่ไหนเลย
คุณสามารถขอดูหรือลบข้อมูลของคุณ และคำขอจะถูกจัดการให้คุณ การลบจะลบเนื้อหาจริงและทิ้งหลักฐานที่ลงลายเซ็นว่าทำถูกต้องแล้ว
ตามค่าเริ่มต้น ทุกอย่างรันบนอุปกรณ์ของคุณเอง ไม่มีอะไรออกจากเครื่องเว้นแต่คุณจะตั้งค่าบริการภายนอกด้วยตัวเอง คุณตัดสินใจว่าข้อมูลใดมีอยู่และไปที่ไหน
ทุกข้ออ้างความปลอดภัยในหน้านี้ถูกสร้างในโค้ดที่คุณอ่านได้ บันทึกเป็นของจริง ลายเซ็นตรวจสอบได้ ปุ่มหยุดฉุกเฉินทำงาน นี่คือสิ่งที่ความปลอดภัย AI ดูเหมือนเมื่อสร้างอย่างเปิดเผย