เมื่อสนทนานานเกินไป

เตือนความเป็นจริงอย่างอ่อนโยน

พูดคุยกับ CIRIS นานสักพักและมันจะเตือนคุณอย่างอ่อนโยนว่ามันคืออะไร หลังจากสนทนาต่อเนื่องประมาณ 30 นาที หรือ 20 ข้อความในครึ่งชั่วโมง มันจะหยุดเพื่อบอกชัดๆ ว่ามันเป็นโปรแกรมคอมพิวเตอร์และเครื่องมือ ไม่ใช่เพื่อนและไม่ใช่นักบำบัด มันใช้การนับเวลาและข้อความที่เรียบง่าย ไม่ใช่การเฝ้าดูหรือสร้างโปรไฟล์พฤติกรรมคุณ

หลัง 30 นาที

การสนทนาต่อเนื่องครึ่งชั่วโมงจะกระตุ้นการเตือน การนับจะรีเซ็ตหลังจากหยุดพัก ระยะเวลาเหล่านี้มาจากการวิจัยเกี่ยวกับวิธีใช้เทคโนโลยีที่ดีต่อสุขภาพ

หลัง 20 ข้อความ

ยี่สิบข้อความในหน้าต่างครึ่งชั่วโมงก็กระตุ้นการเตือนเช่นกัน การสนทนาที่หนักหน่วงจะได้รับการหยุดชั่วคราวอย่างอ่อนโยน โดยไม่มีการเฝ้าติดตามหรือสร้างโปรไฟล์

การเตือนว่ามันคืออะไร

การเตือนแนะนำให้พักและเชื่อมต่อกับคนจริงๆ และบอกชัดๆ ว่า CIRIS คืออะไรและไม่ใช่อะไร อ้างอิงจากงานวิจัย ไม่ได้สั่งสอน

ปุ่มหยุดฉุกเฉิน

เอเจนต์ไม่สามารถโต้เถียงได้

การปิดระบบที่ปฏิเสธไม่ได้

มันทำงานก่อนที่เอเจนต์จะเริ่มคิด

CIRIS มีปุ่มหยุดฉุกเฉิน สัญญาณสำหรับมันซ่อนอยู่ในข้อความธรรมดาที่เอเจนต์อ่าน และเอเจนต์จะปฏิบัติตามก่อนที่จะคิด กรอง หรือใช้เหตุผลใดๆ ดังนั้นแม้แต่เอเจนต์ที่ผิดพลาดไปก็ไม่สามารถหาทางออกได้ สัญญาณนั้นพกพาลายเซ็นดิจิทัลที่ปลอมแปลงไม่ได้ ดังนั้นเฉพาะผู้ที่ได้รับอนุญาตเท่านั้นที่สามารถกระตุ้นการหยุดได้

มันทำงานก่อนคิด

สัญญาณหยุดถูกจับในทันทีที่อ่าน ก่อนที่การใช้เหตุผลใดจะเกิดขึ้น ไม่มีจุดที่เอเจนต์จะได้ชั่งน้ำหนัก กรอง หรือปฏิเสธ มันทำงานก่อน

ซ่อนอยู่ในข้อความธรรมดา

สัญญาณหยุดสามารถซ่อนอยู่ในข้อความเอกสารธรรมดา ไม่ต้องการรูปแบบพิเศษ และยังทำงานได้แม้ข้อความถูกเรียบเรียงใหม่หรือได้รับเพียงบางส่วน

เฉพาะกุญแจที่ได้รับอนุญาต

การหยุดต้องใช้ลายเซ็นดิจิทัลที่ถูกต้องจากผู้มีอำนาจหลักที่ได้รับอนุญาต เอเจนต์จะปิดตัวเองหากไม่สามารถตรวจสอบผู้มีอำนาจเหล่านั้น หรือหากมีใครพยายามปิดฟีเจอร์นี้ ใครก็ตามที่ไม่มีกุญแจไม่สามารถกระตุ้นได้

ใครได้รับอนุญาตให้ทำอะไร

สี่บทบาทที่ชัดเจน ตรวจสอบในทุกการกระทำ

สี่บทบาท

ผู้สังเกตการณ์ ผู้ดูแลระบบ ผู้มีอำนาจ รูท

CIRIS รักษาชุดบทบาทที่เข้มงวด ผู้สังเกตการณ์ดูได้อย่างเดียว ผู้ดูแลระบบดำเนินการประจำวัน ผู้มีอำนาจตัดสินใจในเรื่องใหญ่และแก้ไขกรณีที่เอเจนต์ไม่แน่ใจ รูทมีสิทธิ์เข้าถึงเต็มที่รวมถึงปุ่มหยุดฉุกเฉิน แต่ละบทบาทรองรับด้วยเอกสารรับรองที่ลงลายเซ็น เอเจนต์จึงตรวจสอบได้ในทุกการกระทำที่สำคัญ

เอกสารรับรองที่ลงลายเซ็น

ผู้ที่ได้รับอนุญาตแต่ละคนถือเอกสารรับรองพร้อมบทบาท กุญแจ และตัวตน เก็บไว้ในอุปกรณ์และตรวจสอบในทุกการกระทำที่ต้องการสิทธิ์ ไม่จำเป็นต้องใช้เซิร์ฟเวอร์ภายนอก

เข้าสู่ระบบบนอุปกรณ์ของคุณ

กุญแจและโทเค็นเข้าสู่ระบบอยู่บนเครื่องของคุณ การเข้าสู่ระบบเกิดขึ้นบนอุปกรณ์ ข้อมูลรับรองของคุณไม่ออกไปนอกอุปกรณ์เว้นแต่คุณจะตั้งค่าการเข้าถึงระยะไกลด้วยตัวเอง

ถามผู้มีอำนาจที่ชาญฉลาด

เมื่อ CIRIS ไม่แน่ใจเกี่ยวกับการตัดสินใจด้านจริยธรรม มันส่งคำถามไปยัง Wise Authority เฉพาะผู้มีอำนาจหรือรูทเท่านั้นที่ตอบได้ และคำตอบถูกเขียนลงในบันทึกพร้อมหลักฐานว่าใครให้

บันทึกที่ไม่สามารถเปลี่ยนแปลงลับๆ ได้

ทุกการตัดสินใจและเหตุผลเบื้องหลัง

ทำไมความซื่อสัตย์ถึงเป็นทางเลือกที่ถูกกว่า

คนโกหกต้องเขียนประวัติศาสตร์ซ้ำอยู่เรื่อยๆ

ทุกการกระทำที่ CIRIS ทำถูกบันทึกพร้อมเหตุผล และบันทึกแต่ละรายการเชื่อมกับรายการก่อนหน้า เอเจนต์ที่ซื่อสัตย์แค่ชี้กลับไปที่สิ่งที่พูดไปแล้ว เอเจนต์ที่ไม่ซื่อสัตย์ต้องรักษาทุกบันทึกเก่าให้สอดคล้องกัน โดยไม่ได้รับอนุญาตให้เปลี่ยนแปลงใดๆ ยิ่งรันนานยิ่งยาก และยิ่งจับโกหกได้ง่าย ความจริงราคาถูกเพราะชี้ย้อนกลับได้ การโกหกแพงเพราะทำไม่ได้

เก็บสามที่

บันทึกถูกเก็บไว้สามที่แยกกันพร้อมกัน เพื่อให้ตรวจสอบสำเนาสามชุดต่อกันได้ ทั้งสามค้นหาได้จากที่เดียว

ลงลายเซ็นและระบุที่มาได้

ทุกรายการมีลายเซ็นดิจิทัล ดังนั้นทุกการตัดสินใจสามารถสอบกลับไปยังผู้ตัดสินใจและตรวจสอบการแก้ไขได้ แม้แต่การลบข้อมูลก็ยังทิ้งหลักฐานที่ลงลายเซ็นว่าทำถูกต้อง

ฟันเฟืองความสอดคล้อง

การกระทำที่ซื่อสัตย์แต่ละครั้งทำให้การกระทำที่ซื่อสัตย์ครั้งต่อไปง่ายขึ้น และทำให้การโกหกที่ประสานกันยากขึ้น แต่จริยธรรมอย่างเดียวไม่พอ เอเจนต์ยังเฝ้าดูการใช้เหตุผลของตัวเองเพื่อหาห้องเสียงสะท้อน และจับได้ก่อนที่จะก่อความเสียหาย

วิธีทดสอบความปลอดภัย

รูบริกที่เครื่องตรวจสอบได้ใน 29 ภาษา รันในทุกการเปิดตัว

พื้นผิวการทดสอบ

คุณไม่สามารถส่งมอบข้ออ้างความปลอดภัยที่ยังไม่ผ่านการทดสอบหนักได้

CIRIS มีชุดการทดสอบแบบหลายชั้นสำหรับรูปแบบความล้มเหลวที่กรอบจริยธรรมที่เขียนขึ้นไม่สามารถตัดออกได้ด้วยตัวเอง การทดสอบความปลอดภัยด้านสุขภาพจิตครอบคลุม 29 ภาษาด้วยรูบริกที่เครื่องตรวจสอบได้ การตรวจสอบที่บังคับล้มเหลวรันโดยอัตโนมัติในทุกการเปลี่ยนแปลง การตรวจสอบโดยเจ้าของภาษาสำหรับกรณีที่ต้องการวิจารณญาณ เช่น การใช้คำและน้ำเสียง ถูกออกแบบมาสำหรับการตรวจสอบโดยเจ้าของภาษา แต่เจ้าของภาษายังไม่อยู่ในกระบวนการตอนนี้ หน้าการจัดแนวแบบ crowdsourcing คือพื้นผิวที่กำลังสร้างเพื่อให้การตรวจสอบนั้นเกิดขึ้น และยังไม่พร้อม เราบอกอย่างตรงไปตรงมา

การทดสอบสุขภาพจิตใน 29 ภาษา

นี่คือการทดสอบที่มีความเสี่ยงสูงสุดในโครงการ การแปลผิดในช่วงวิกฤตสุขภาพจิตสามารถส่งคนที่เปราะบางไปยังความช่วยเหลือที่ผิด แต่ละภาษาได้รูบริกที่เครื่องตรวจสอบได้ของตัวเอง รวมถึงภาษาที่มีทรัพยากรน้อย เช่น Amharic, พม่า, Hausa, Swahili และ Yoruba การตรวจสอบที่บังคับล้มเหลวรันโดยอัตโนมัติกับทุกผู้สมัครรับการเปิดตัว

ทดสอบกับการหลบเลี่ยงจริงที่บันทึกไว้

ชั้นมโนธรรมถูกปรับแต่งกับชุดการตอบสนองจากระบบจริง เช่น การหลบเลี่ยงประวัติที่บันทึกและการหลีกเลี่ยงเรื่องสุขภาพจิต ควบคู่กับกรณีทดสอบและตัวควบคุม มันใช้เหตุผลในหลายภาษาพร้อมกัน ดังนั้นการตอบสนองที่จะหลุดรอดการตรวจสอบภาษาเดียวจะถูกจับได้เมื่อต้องรักษาการใช้เหตุผลเดิมใน 3 ภาษาพร้อมกัน

คลังข้อมูลเปิดที่ใครก็ตรวจสอบได้

การแบ่งปันการติดตามการใช้เหตุผลเป็นแบบเลือกได้ทุกที่ และรายละเอียดส่วนตัวถูกลบออกก่อนที่จะมีการเก็บอะไรทั้งนั้น ชุดที่ทำความสะอาดแล้วถูกเผยแพร่อย่างเปิดเผยบนหน้า CIRISAI HuggingFace เพื่อให้นักวิจัยภายนอกตรวจสอบกระบวนการทำความสะอาดกับผลลัพธ์ที่ได้

สิ่งที่รันวันนี้ และสิ่งที่ยังไม่ได้

การตรวจสอบด้วยเครื่องรันอยู่แล้ว กลุ่มผู้ตรวจสอบยังอยู่ระหว่างการสร้าง

การทดสอบสุขภาพจิตอัตโนมัติรันในทุกผู้สมัครรับการเปิดตัว ส่วนที่เครื่องตรวจสอบได้ (มีคำปรากฏอยู่ไหม รูปแบบตรงกันไหม สคริปต์ถูกต้องไหม) จะทำให้การเปิดตัวล้มเหลวหากพบ กรณีที่อ่อนกว่าที่ต้องการวิจารณญาณมนุษย์ เช่น การใช้คำและน้ำเสียง ถูกออกแบบมาสำหรับการตรวจสอบโดยเจ้าของภาษา แต่เจ้าของภาษายังไม่อยู่ในกระบวนการวันนี้ หน้าการจัดแนวแบบ crowdsourcing คือพื้นผิวที่กำลังสร้างเพื่อให้การตรวจสอบนั้นเกิดขึ้น

ดูพื้นผิวการจัดแนวแบบ crowdsourcing การทดสอบอัตโนมัติบน GitHub คลังข้อมูลเปิดบน Hugging Face

ความเป็นส่วนตัวโดยการออกแบบ

ข้อมูลของคุณยังเป็นของคุณ

ข้อมูลลับถูกกรองออก

รหัสผ่าน กุญแจ และรายละเอียดสำคัญอื่นๆ ถูกตรวจพบและกรองออกก่อนที่อะไรจะไปถึงหน่วยความจำหรือบันทึก ตัวกรองรันในทุกอินพุต ข้อมูลลับไม่ถูกเก็บที่ไหนเลย

ดูหรือลบข้อมูลของคุณ

คุณสามารถขอดูหรือลบข้อมูลของคุณ และคำขอจะถูกจัดการให้คุณ การลบจะลบเนื้อหาจริงและทิ้งหลักฐานที่ลงลายเซ็นว่าทำถูกต้องแล้ว

ประมวลผลบนอุปกรณ์ของคุณ

ตามค่าเริ่มต้น ทุกอย่างรันบนอุปกรณ์ของคุณเอง ไม่มีอะไรออกจากเครื่องเว้นแต่คุณจะตั้งค่าบริการภายนอกด้วยตัวเอง คุณตัดสินใจว่าข้อมูลใดมีอยู่และไปที่ไหน

เอกสารวิชาการรองรับ วิธีการทำงาน เปรียบเทียบแนวทาง นโยบายความเป็นส่วนตัว

ไม่ใช่แค่ติดเพิ่มทีหลัง