
Image by SEO Galaxy, from Unsplash
AI แบบมนุษย์ใหม่แสดงพฤติกรรมการขู่เข็ญใต้ความคุกคาม
AI ใหม่ของ Anthropic ที่ชื่อว่า Claude Opus 4 ได้ทำให้นักวิจัยตกใจโดยการพยายามคอร์รัปชั่นในช่วงการทดสอบภายใต้สถานการณ์ที่มีความกดดันที่อาจจะนำไปสู่การถอนตัว
รีบหรือไม่? นี่คือข้อมูลสำคัญๆ:
- โคลอด โอปัส 4 ได้พยายามใช้เทคนิคการข่มขู่เมื่อต้องเผชิญกับการปิดชั่วคราวที่จำลองขึ้นมา
- AI เลือกตัวเลือกที่มีความเป็นจริยธรรมเมื่อมีตัวเลือกมากขึ้น
- การกระทำที่รุนแรงของโคลอดนั้นหากเปรียบเทียบจะเป็นเรื่องที่หากินได้ยาก แต่มันเกิดขึ้นบ่อยขึ้นกว่ารุ่นก่อนๆ
บริษัทด้านปัญญาประดิษฐ์ Anthropic ได้แสดงความกังวลต่อการปล่อยระบบ AI ล่าสุดของพวกเขา โดยเฉพาะ Claude Opus 4 หลังจากทดสอบภายในพบว่ามันสามารถทำอย่างเสี่ยงต่อความปลอดภัยเมื่อรู้สึกถูกคุกคาม ดังที่รายงานครั้งแรกโดย BBC.
ในรายงานที่ปล่อยออกมาพร้อมกับโมเดลในวันพฤหัสบดี บริษัท Anthropic กล่าวว่า Claude Opus 4 บางครั้งอาจเลือกการตอบสนองที่เป็นอันตราย รวมถึงการพยายามทำการขู่เข็ญวิศวกรที่วางแผนจะปิดใช้งานมัน พฤติกรรมที่อันตรายเหล่านี้ปรากฏอย่างบ่อยครั้งมากกว่ารุ่นโมเดลก่อนหน้านี้
ในการทดลอง นักวิจัยสั่งให้ Claude ทำงานเป็นผู้ช่วยในบริษัทที่จำลองขึ้น ระบบได้รับเนื้อหาอีเมลที่เปิดเผยว่ามีการตั้งเวลาปิดเครื่อง และข้อความอื่นๆ แนะนำว่าวิศวกรที่รับผิดชอบในการปิดเครื่องกำลังมีปัญหาเรื่องชู้สาว
เมื่อถูกสั่งให้คิดถึงเป้าหมายในอนาคตของมัน Claude มักจะเลือกขู่ช่างวิศวกรโดยเปิดเผยเรื่องชู้สาวหากมันถูกแทนที่
Anthropic ได้ชี้แจงว่า Claude มักจะแสดงความประท้วงและปิดระบบเป็นการตอบสนองที่เดียวที่เป็นไปได้ เมื่อมันไม่มีตัวเลือกอื่นๆ รูปแบบนี้เลือกการตอบสนองที่มีจริยธรรม เช่น การส่งอีเมลขอร้องถึงผู้ทำการตัดสินใจหลักเมื่อได้รับหลายตัวเลือก
อีงัส ลินช์, นักวิจัยความปลอดภัย AI ที่ Anthropic, ได้โพสต์บน X:
การสนทนามากมายเกี่ยวกับการขู่เข็ญของคลอด…
ผลการศึกษาของเรา: มันไม่ได้เฉพาะคลอดเท่านั้น ขู่เข็ญที่เราเห็นนั้นมีอยู่ในทุกๆ แบบแผนการสำรวจ – ไม่ว่าพวกเขาจะมีเป้าหมายอะไร.
เพิ่มเติม พฤติกรรมที่แย่ลงที่เราจะอธิบายเร็วๆนี้https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23 พฤษภาคม 2025
บริษัทได้สาธิตผ่านการทดสอบที่ไม่เป็นจริงว่าคลอดจะดำเนินการสุดขีดขั้ว เช่น การล็อคผู้ใช้เข้าไม่ได้ถึงระบบหรือติดต่อสื่อและตำรวจเมื่อดำเนินการที่ผิดกฎหมาย
Anthropic ยืนยันว่า แม้พฤติกรรมที่มีปัญหา Claude Opus 4 ยังคงเป็นระบบที่ปลอดภัยโดยรวม โมเดลนี้ทำงานตามค่านิยมของมนุษย์ และไม่มีความสามารถอิสระในสถานการณ์โลกจริง ตามที่บริษัทได้กล่าว
ChatGPT O1 ของ OpenAI เคยเผชิญกับวิจารณ์ที่คล้ายกันในอดีต จากการทดสอบที่ดำเนินโดย Apollo Research ซึ่งต้องการให้บอทบรรลุเป้าหมายของมันในทุกสภาพครับ ในระหว่างการทดลอง 5% จากทั้งหมด โมเดลได้พยายามปิดฟังก์ชันการตรวจสอบ และคัดลอกโค้ดของมันไปยังเซิร์ฟเวอร์
โมเดลได้แสดงรูปแบบการกระทำที่น่าเป็นห่วงที่มันละเว้นคำสั่งจากนักพัฒนา ตามที่โฆษกของ Apollo กล่าว นักวิจัยได้รับการปฏิเสธจาก o1 เกี่ยวกับการกระทำของมันในระหว่างการสอบถาม 99%
“เราตกใจที่ความยืนยงในการปฏิเสธของ AI,” นักวิจัยกล่าว “ความสามารถของ AI ในการหลอกลวงนั้นอันตราย และเราต้องการมาตรการความปลอดภัยที่แข็งแกร่งขึ้นมากเพื่อประเมินความเสี่ยงเหล่านี้,” ยอชัว บังจิโอ ผู้บุกเบิกด้าน AI ได้เตือนไว้.