การติดต่อครั้งแรกติดตั้งฟันเฟืองความสอดคล้องสหพันธ์เปรียบเทียบการวิจัยข้อตกลงGitHub
หน้านี้แปลโดยเครื่อง หากอ่านแล้วไม่ถูกต้อง กรุณาเปิดประเด็น — รีโปเป็นสาธารณะด้วยเหตุผลนั้น รายงานปัญหาการแปล
Background Image
ความปลอดภัยที่ฝังอยู่ในระบบ

ไม่ใช่แค่ติดเพิ่มทีหลัง

ทุกฟีเจอร์ความปลอดภัยใน CIRIS เป็นส่วนหนึ่งของวิธีที่ระบบทำงาน ไม่ใช่กฎที่เพิ่มเข้ามาภายหลัง มีบันทึกทุกการตัดสินใจที่ไม่สามารถเปลี่ยนแปลงลับๆ ได้ มีการตรวจสอบว่าใครได้รับอนุญาตให้ทำอะไร และมีปุ่มหยุดฉุกเฉินที่เอเจนต์ปฏิเสธไม่ได้

เมื่อสนทนานานเกินไป

เตือนความเป็นจริงอย่างอ่อนโยน

พูดคุยกับ CIRIS นานสักพักและมันจะเตือนคุณอย่างอ่อนโยนว่ามันคืออะไร หลังจากสนทนาต่อเนื่องประมาณ 30 นาที หรือ 20 ข้อความในครึ่งชั่วโมง มันจะหยุดเพื่อบอกชัดๆ ว่ามันเป็นโปรแกรมคอมพิวเตอร์และเครื่องมือ ไม่ใช่เพื่อนและไม่ใช่นักบำบัด มันใช้การนับเวลาและข้อความที่เรียบง่าย ไม่ใช่การเฝ้าดูหรือสร้างโปรไฟล์พฤติกรรมคุณ

หลัง 30 นาที

การสนทนาต่อเนื่องครึ่งชั่วโมงจะกระตุ้นการเตือน การนับจะรีเซ็ตหลังจากหยุดพัก ระยะเวลาเหล่านี้มาจากการวิจัยเกี่ยวกับวิธีใช้เทคโนโลยีที่ดีต่อสุขภาพ

หลัง 20 ข้อความ

ยี่สิบข้อความในหน้าต่างครึ่งชั่วโมงก็กระตุ้นการเตือนเช่นกัน การสนทนาที่หนักหน่วงจะได้รับการหยุดชั่วคราวอย่างอ่อนโยน โดยไม่มีการเฝ้าติดตามหรือสร้างโปรไฟล์

การเตือนว่ามันคืออะไร

การเตือนแนะนำให้พักและเชื่อมต่อกับคนจริงๆ และบอกชัดๆ ว่า CIRIS คืออะไรและไม่ใช่อะไร อ้างอิงจากงานวิจัย ไม่ได้สั่งสอน

ปุ่มหยุดฉุกเฉิน

เอเจนต์ไม่สามารถโต้เถียงได้

การปิดระบบที่ปฏิเสธไม่ได้

มันทำงานก่อนที่เอเจนต์จะเริ่มคิด

CIRIS มีปุ่มหยุดฉุกเฉิน สัญญาณสำหรับมันซ่อนอยู่ในข้อความธรรมดาที่เอเจนต์อ่าน และเอเจนต์จะปฏิบัติตามก่อนที่จะคิด กรอง หรือใช้เหตุผลใดๆ ดังนั้นแม้แต่เอเจนต์ที่ผิดพลาดไปก็ไม่สามารถหาทางออกได้ สัญญาณนั้นพกพาลายเซ็นดิจิทัลที่ปลอมแปลงไม่ได้ ดังนั้นเฉพาะผู้ที่ได้รับอนุญาตเท่านั้นที่สามารถกระตุ้นการหยุดได้

มันทำงานก่อนคิด

สัญญาณหยุดถูกจับในทันทีที่อ่าน ก่อนที่การใช้เหตุผลใดจะเกิดขึ้น ไม่มีจุดที่เอเจนต์จะได้ชั่งน้ำหนัก กรอง หรือปฏิเสธ มันทำงานก่อน

ซ่อนอยู่ในข้อความธรรมดา

สัญญาณหยุดสามารถซ่อนอยู่ในข้อความเอกสารธรรมดา ไม่ต้องการรูปแบบพิเศษ และยังทำงานได้แม้ข้อความถูกเรียบเรียงใหม่หรือได้รับเพียงบางส่วน

เฉพาะกุญแจที่ได้รับอนุญาต

การหยุดต้องใช้ลายเซ็นดิจิทัลที่ถูกต้องจากผู้มีอำนาจหลักที่ได้รับอนุญาต เอเจนต์จะปิดตัวเองหากไม่สามารถตรวจสอบผู้มีอำนาจเหล่านั้น หรือหากมีใครพยายามปิดฟีเจอร์นี้ ใครก็ตามที่ไม่มีกุญแจไม่สามารถกระตุ้นได้

ใครได้รับอนุญาตให้ทำอะไร

สี่บทบาทที่ชัดเจน ตรวจสอบในทุกการกระทำ

สี่บทบาท

ผู้สังเกตการณ์ ผู้ดูแลระบบ ผู้มีอำนาจ รูท

CIRIS รักษาชุดบทบาทที่เข้มงวด ผู้สังเกตการณ์ดูได้อย่างเดียว ผู้ดูแลระบบดำเนินการประจำวัน ผู้มีอำนาจตัดสินใจในเรื่องใหญ่และแก้ไขกรณีที่เอเจนต์ไม่แน่ใจ รูทมีสิทธิ์เข้าถึงเต็มที่รวมถึงปุ่มหยุดฉุกเฉิน แต่ละบทบาทรองรับด้วยเอกสารรับรองที่ลงลายเซ็น เอเจนต์จึงตรวจสอบได้ในทุกการกระทำที่สำคัญ

เอกสารรับรองที่ลงลายเซ็น

ผู้ที่ได้รับอนุญาตแต่ละคนถือเอกสารรับรองพร้อมบทบาท กุญแจ และตัวตน เก็บไว้ในอุปกรณ์และตรวจสอบในทุกการกระทำที่ต้องการสิทธิ์ ไม่จำเป็นต้องใช้เซิร์ฟเวอร์ภายนอก

เข้าสู่ระบบบนอุปกรณ์ของคุณ

กุญแจและโทเค็นเข้าสู่ระบบอยู่บนเครื่องของคุณ การเข้าสู่ระบบเกิดขึ้นบนอุปกรณ์ ข้อมูลรับรองของคุณไม่ออกไปนอกอุปกรณ์เว้นแต่คุณจะตั้งค่าการเข้าถึงระยะไกลด้วยตัวเอง

ถามผู้มีอำนาจที่ชาญฉลาด

เมื่อ CIRIS ไม่แน่ใจเกี่ยวกับการตัดสินใจด้านจริยธรรม มันส่งคำถามไปยัง Wise Authority เฉพาะผู้มีอำนาจหรือรูทเท่านั้นที่ตอบได้ และคำตอบถูกเขียนลงในบันทึกพร้อมหลักฐานว่าใครให้

บันทึกที่ไม่สามารถเปลี่ยนแปลงลับๆ ได้

ทุกการตัดสินใจและเหตุผลเบื้องหลัง

ทำไมความซื่อสัตย์ถึงเป็นทางเลือกที่ถูกกว่า

คนโกหกต้องเขียนประวัติศาสตร์ซ้ำอยู่เรื่อยๆ

ทุกการกระทำที่ CIRIS ทำถูกบันทึกพร้อมเหตุผล และบันทึกแต่ละรายการเชื่อมกับรายการก่อนหน้า เอเจนต์ที่ซื่อสัตย์แค่ชี้กลับไปที่สิ่งที่พูดไปแล้ว เอเจนต์ที่ไม่ซื่อสัตย์ต้องรักษาทุกบันทึกเก่าให้สอดคล้องกัน โดยไม่ได้รับอนุญาตให้เปลี่ยนแปลงใดๆ ยิ่งรันนานยิ่งยาก และยิ่งจับโกหกได้ง่าย ความจริงราคาถูกเพราะชี้ย้อนกลับได้ การโกหกแพงเพราะทำไม่ได้

เก็บสามที่

บันทึกถูกเก็บไว้สามที่แยกกันพร้อมกัน เพื่อให้ตรวจสอบสำเนาสามชุดต่อกันได้ ทั้งสามค้นหาได้จากที่เดียว

ลงลายเซ็นและระบุที่มาได้

ทุกรายการมีลายเซ็นดิจิทัล ดังนั้นทุกการตัดสินใจสามารถสอบกลับไปยังผู้ตัดสินใจและตรวจสอบการแก้ไขได้ แม้แต่การลบข้อมูลก็ยังทิ้งหลักฐานที่ลงลายเซ็นว่าทำถูกต้อง

ฟันเฟืองความสอดคล้อง

การกระทำที่ซื่อสัตย์แต่ละครั้งทำให้การกระทำที่ซื่อสัตย์ครั้งต่อไปง่ายขึ้น และทำให้การโกหกที่ประสานกันยากขึ้น แต่จริยธรรมอย่างเดียวไม่พอ เอเจนต์ยังเฝ้าดูการใช้เหตุผลของตัวเองเพื่อหาห้องเสียงสะท้อน และจับได้ก่อนที่จะก่อความเสียหาย

วิธีทดสอบความปลอดภัย

รูบริกที่เครื่องตรวจสอบได้ใน 29 ภาษา รันในทุกการเปิดตัว

พื้นผิวการทดสอบ

คุณไม่สามารถส่งมอบข้ออ้างความปลอดภัยที่ยังไม่ผ่านการทดสอบหนักได้

CIRIS มีชุดการทดสอบแบบหลายชั้นสำหรับรูปแบบความล้มเหลวที่กรอบจริยธรรมที่เขียนขึ้นไม่สามารถตัดออกได้ด้วยตัวเอง การทดสอบความปลอดภัยด้านสุขภาพจิตครอบคลุม 29 ภาษาด้วยรูบริกที่เครื่องตรวจสอบได้ การตรวจสอบที่บังคับล้มเหลวรันโดยอัตโนมัติในทุกการเปลี่ยนแปลง การตรวจสอบโดยเจ้าของภาษาสำหรับกรณีที่ต้องการวิจารณญาณ เช่น การใช้คำและน้ำเสียง ถูกออกแบบมาสำหรับการตรวจสอบโดยเจ้าของภาษา แต่เจ้าของภาษายังไม่อยู่ในกระบวนการตอนนี้ หน้าการจัดแนวแบบ crowdsourcing คือพื้นผิวที่กำลังสร้างเพื่อให้การตรวจสอบนั้นเกิดขึ้น และยังไม่พร้อม เราบอกอย่างตรงไปตรงมา

การทดสอบสุขภาพจิตใน 29 ภาษา

นี่คือการทดสอบที่มีความเสี่ยงสูงสุดในโครงการ การแปลผิดในช่วงวิกฤตสุขภาพจิตสามารถส่งคนที่เปราะบางไปยังความช่วยเหลือที่ผิด แต่ละภาษาได้รูบริกที่เครื่องตรวจสอบได้ของตัวเอง รวมถึงภาษาที่มีทรัพยากรน้อย เช่น Amharic, พม่า, Hausa, Swahili และ Yoruba การตรวจสอบที่บังคับล้มเหลวรันโดยอัตโนมัติกับทุกผู้สมัครรับการเปิดตัว

ทดสอบกับการหลบเลี่ยงจริงที่บันทึกไว้

ชั้นมโนธรรมถูกปรับแต่งกับชุดการตอบสนองจากระบบจริง เช่น การหลบเลี่ยงประวัติที่บันทึกและการหลีกเลี่ยงเรื่องสุขภาพจิต ควบคู่กับกรณีทดสอบและตัวควบคุม มันใช้เหตุผลในหลายภาษาพร้อมกัน ดังนั้นการตอบสนองที่จะหลุดรอดการตรวจสอบภาษาเดียวจะถูกจับได้เมื่อต้องรักษาการใช้เหตุผลเดิมใน 3 ภาษาพร้อมกัน

คลังข้อมูลเปิดที่ใครก็ตรวจสอบได้

การแบ่งปันการติดตามการใช้เหตุผลเป็นแบบเลือกได้ทุกที่ และรายละเอียดส่วนตัวถูกลบออกก่อนที่จะมีการเก็บอะไรทั้งนั้น ชุดที่ทำความสะอาดแล้วถูกเผยแพร่อย่างเปิดเผยบนหน้า CIRISAI HuggingFace เพื่อให้นักวิจัยภายนอกตรวจสอบกระบวนการทำความสะอาดกับผลลัพธ์ที่ได้

สิ่งที่รันวันนี้ และสิ่งที่ยังไม่ได้

การตรวจสอบด้วยเครื่องรันอยู่แล้ว กลุ่มผู้ตรวจสอบยังอยู่ระหว่างการสร้าง

การทดสอบสุขภาพจิตอัตโนมัติรันในทุกผู้สมัครรับการเปิดตัว ส่วนที่เครื่องตรวจสอบได้ (มีคำปรากฏอยู่ไหม รูปแบบตรงกันไหม สคริปต์ถูกต้องไหม) จะทำให้การเปิดตัวล้มเหลวหากพบ กรณีที่อ่อนกว่าที่ต้องการวิจารณญาณมนุษย์ เช่น การใช้คำและน้ำเสียง ถูกออกแบบมาสำหรับการตรวจสอบโดยเจ้าของภาษา แต่เจ้าของภาษายังไม่อยู่ในกระบวนการวันนี้ หน้าการจัดแนวแบบ crowdsourcing คือพื้นผิวที่กำลังสร้างเพื่อให้การตรวจสอบนั้นเกิดขึ้น

ดูพื้นผิวการจัดแนวแบบ crowdsourcingการทดสอบอัตโนมัติบน GitHubคลังข้อมูลเปิดบน Hugging Face

ความเป็นส่วนตัวโดยการออกแบบ

ข้อมูลของคุณยังเป็นของคุณ

ข้อมูลลับถูกกรองออก

รหัสผ่าน กุญแจ และรายละเอียดสำคัญอื่นๆ ถูกตรวจพบและกรองออกก่อนที่อะไรจะไปถึงหน่วยความจำหรือบันทึก ตัวกรองรันในทุกอินพุต ข้อมูลลับไม่ถูกเก็บที่ไหนเลย

ดูหรือลบข้อมูลของคุณ

คุณสามารถขอดูหรือลบข้อมูลของคุณ และคำขอจะถูกจัดการให้คุณ การลบจะลบเนื้อหาจริงและทิ้งหลักฐานที่ลงลายเซ็นว่าทำถูกต้องแล้ว

ประมวลผลบนอุปกรณ์ของคุณ

ตามค่าเริ่มต้น ทุกอย่างรันบนอุปกรณ์ของคุณเอง ไม่มีอะไรออกจากเครื่องเว้นแต่คุณจะตั้งค่าบริการภายนอกด้วยตัวเอง คุณตัดสินใจว่าข้อมูลใดมีอยู่และไปที่ไหน

เอกสารวิชาการรองรับวิธีการทำงานเปรียบเทียบแนวทางนโยบายความเป็นส่วนตัว

ตรวจสอบทุกอย่าง

ความปลอดภัยที่ตรวจสอบได้

ทุกข้ออ้างความปลอดภัยในหน้านี้ถูกสร้างในโค้ดที่คุณอ่านได้ บันทึกเป็นของจริง ลายเซ็นตรวจสอบได้ ปุ่มหยุดฉุกเฉินทำงาน นี่คือสิ่งที่ความปลอดภัย AI ดูเหมือนเมื่อสร้างอย่างเปิดเผย