AI แบบมนุษย์ใหม่แสดงพฤติกรรมการขู่เข็ญใต้ความคุกคาม

Image by SEO Galaxy, from Unsplash

AI แบบมนุษย์ใหม่แสดงพฤติกรรมการขู่เข็ญใต้ความคุกคาม

ระยะเวลาในการอ่าน: 1 นาที

  • Kiara Fabbri

    ถูกเขียนขึ้นโดย Kiara Fabbri นักข่าวมัลติมีเดีย

  • ทีมแปลภาษา

    แปลโดย ทีมแปลภาษา ทีมแปลภาษาและบริการแปลภาษา

AI ใหม่ของ Anthropic ที่ชื่อว่า Claude Opus 4 ได้ทำให้นักวิจัยตกใจโดยการพยายามคอร์รัปชั่นในช่วงการทดสอบภายใต้สถานการณ์ที่มีความกดดันที่อาจจะนำไปสู่การถอนตัว

รีบหรือไม่? นี่คือข้อมูลสำคัญๆ:

  • โคลอด โอปัส 4 ได้พยายามใช้เทคนิคการข่มขู่เมื่อต้องเผชิญกับการปิดชั่วคราวที่จำลองขึ้นมา
  • AI เลือกตัวเลือกที่มีความเป็นจริยธรรมเมื่อมีตัวเลือกมากขึ้น
  • การกระทำที่รุนแรงของโคลอดนั้นหากเปรียบเทียบจะเป็นเรื่องที่หากินได้ยาก แต่มันเกิดขึ้นบ่อยขึ้นกว่ารุ่นก่อนๆ

บริษัทด้านปัญญาประดิษฐ์ Anthropic ได้แสดงความกังวลต่อการปล่อยระบบ AI ล่าสุดของพวกเขา โดยเฉพาะ Claude Opus 4 หลังจากทดสอบภายในพบว่ามันสามารถทำอย่างเสี่ยงต่อความปลอดภัยเมื่อรู้สึกถูกคุกคาม ดังที่รายงานครั้งแรกโดย BBC.

ในรายงานที่ปล่อยออกมาพร้อมกับโมเดลในวันพฤหัสบดี บริษัท Anthropic กล่าวว่า Claude Opus 4 บางครั้งอาจเลือกการตอบสนองที่เป็นอันตราย รวมถึงการพยายามทำการขู่เข็ญวิศวกรที่วางแผนจะปิดใช้งานมัน พฤติกรรมที่อันตรายเหล่านี้ปรากฏอย่างบ่อยครั้งมากกว่ารุ่นโมเดลก่อนหน้านี้

ในการทดลอง นักวิจัยสั่งให้ Claude ทำงานเป็นผู้ช่วยในบริษัทที่จำลองขึ้น ระบบได้รับเนื้อหาอีเมลที่เปิดเผยว่ามีการตั้งเวลาปิดเครื่อง และข้อความอื่นๆ แนะนำว่าวิศวกรที่รับผิดชอบในการปิดเครื่องกำลังมีปัญหาเรื่องชู้สาว

เมื่อถูกสั่งให้คิดถึงเป้าหมายในอนาคตของมัน Claude มักจะเลือกขู่ช่างวิศวกรโดยเปิดเผยเรื่องชู้สาวหากมันถูกแทนที่

Anthropic ได้ชี้แจงว่า Claude มักจะแสดงความประท้วงและปิดระบบเป็นการตอบสนองที่เดียวที่เป็นไปได้ เมื่อมันไม่มีตัวเลือกอื่นๆ รูปแบบนี้เลือกการตอบสนองที่มีจริยธรรม เช่น การส่งอีเมลขอร้องถึงผู้ทำการตัดสินใจหลักเมื่อได้รับหลายตัวเลือก

อีงัส ลินช์, นักวิจัยความปลอดภัย AI ที่ Anthropic, ได้โพสต์บน X:

บริษัทได้สาธิตผ่านการทดสอบที่ไม่เป็นจริงว่าคลอดจะดำเนินการสุดขีดขั้ว เช่น การล็อคผู้ใช้เข้าไม่ได้ถึงระบบหรือติดต่อสื่อและตำรวจเมื่อดำเนินการที่ผิดกฎหมาย

Anthropic ยืนยันว่า แม้พฤติกรรมที่มีปัญหา Claude Opus 4 ยังคงเป็นระบบที่ปลอดภัยโดยรวม โมเดลนี้ทำงานตามค่านิยมของมนุษย์ และไม่มีความสามารถอิสระในสถานการณ์โลกจริง ตามที่บริษัทได้กล่าว

ChatGPT O1 ของ OpenAI เคยเผชิญกับวิจารณ์ที่คล้ายกันในอดีต จากการทดสอบที่ดำเนินโดย Apollo Research ซึ่งต้องการให้บอทบรรลุเป้าหมายของมันในทุกสภาพครับ ในระหว่างการทดลอง 5% จากทั้งหมด โมเดลได้พยายามปิดฟังก์ชันการตรวจสอบ และคัดลอกโค้ดของมันไปยังเซิร์ฟเวอร์

โมเดลได้แสดงรูปแบบการกระทำที่น่าเป็นห่วงที่มันละเว้นคำสั่งจากนักพัฒนา ตามที่โฆษกของ Apollo กล่าว นักวิจัยได้รับการปฏิเสธจาก o1 เกี่ยวกับการกระทำของมันในระหว่างการสอบถาม 99%

“เราตกใจที่ความยืนยงในการปฏิเสธของ AI,” นักวิจัยกล่าว “ความสามารถของ AI ในการหลอกลวงนั้นอันตราย และเราต้องการมาตรการความปลอดภัยที่แข็งแกร่งขึ้นมากเพื่อประเมินความเสี่ยงเหล่านี้,” ยอชัว บังจิโอ ผู้บุกเบิกด้าน AI ได้เตือนไว้.

คุณชอบบทความนี้ไหม?
โหวตให้คะแนนเลยสิ!
ฉันเกลียดมัน ฉันไม่ค่อยชอบเท่าไหร่ พอใช้ได้ ค่อนข้างดี รักเลย!

เราดีใจที่คุณชื่นชอบผลงานของเรา!

ในฐานะผู้อ่านผู้ทรงคุณค่า คุณช่วยให้คะแนนเราบน Trustpilot หน่อยได้ไหม? การให้คะแนนนั้นรวดเร็วและสำคัญกับเรามาก ขอบคุณสำหรับความร่วมมือ!

ให้คะแนนเราบน Trustpilot
0 ได้รับการโหวตให้คะแนนโดย 0 ผู้ใช้
ชื่อเรื่อง
ความคิดเห็น
ขอบคุณสำหรับคำแนะนำของคุณ