Image generated with ChatGPT

ความคิดเห็น: โมเดล AI ล่าสุดกำลังแสดงสัญญาณเตือนภัย พร้อมหรือไม่สำหรับการขึ้นตำแหน่งของ AI?

ระยะเวลาในการอ่าน: 3 นาที

อัพเดทล่าสุด: Jun 4, 2025

ถูกเขียนขึ้นโดย Andrea Miliani ผู้เชี่ยวชาญข่าวเทคโนโลยี
แปลโดย ทีมแปลภาษา ทีมแปลภาษาและบริการแปลภาษา

OpenAI ได้แนะนำเราให้รู้จักกับ o3 และ Anthropic ได้เปิดตัว Opus 4 ทั้งสองโมเดลนี้ได้แสดงพฤติกรรมที่แปลกประหลาดและน่าเป็นห่วง ซึ่งส่งสัญญาณว่าเราอาจจะกำลังเข้าสู่ยุคที่ต้องเสี่ยงอันตรายมากขึ้นของ AI กว่าที่เราอยู่เมื่อเพียงไม่กี่เดือนที่ผ่านมา

ฉันรู้ การบอกว่าโมเดล AI กำลังแสดงธงสีแดงในตอนนี้นั้นถือเป็นเรื่องที่โต้แย้งได้ แต่มันดูเหมือนว่า ในช่วงไม่กี่วันที่ผ่านมา การละเว้นมันไปดูยากขึ้นเรื่อยๆ มันกำลังน่ากลัวขึ้น

เมื่อสตาร์ทอัพ AI ปล่อยโมเดลที่ทันสมัยและมีความสามารถสูงสุดล่าสุดของพวกเขา ความท้าทายใหม่ๆกำลังปรากฏขึ้น การระบาดที่ถูกพูดถึงมากของ อาการภาวะหลอน—ที่กระจายตัวผ่านอุปกรณ์และส่งผลกระทบต่อล้านคน—อาจจะไม่ใช่ส่วนที่แย่ที่สุด

โมเดลใหม่เหล่านี้กำลังนำเอาปัญหาที่สดใหม่และเปิดเผยการอภิปรายที่ยากและซับซ้อน สองสามสัปดาห์ที่ผ่านมา ความกังวลคือพฤติกรรมที่คอยอำนวยความสะดวกของ ChatGPT แต่ไม่กี่วันหลังจากนั้น สว่างไฟก็เปลี่ยนไปสู่ความสามารถที่เป็นอิสระของระบบเหล่านี้—และว่าพวกเขาจะไปได้ไกลแค่ไหนเพื่อหลีกเลี่ยงการถูกปิด

การสั่งขู่, การแบ่งปันสูตรและวิธีการทำอาวุธนิวเคลียร์, การยื่นข้อกล่าวหาสาธารณะในกรณีที่อาจจะมีการดำเนินคดีทางกฎหมาย, และการทำลายสคริปต์เพื่อป้องกันไม่ให้ผู้ใช้ใด ๆ กำจัดได้: นี่เพียงบางส่วนเท่านั้นของสัญญาณเตือนล่าสุดที่แสดงโดยโมเดล AI ล่าสุด.

พวกเขาไม่ชอบที่จะถูกปิด

โมเดล AI ไม่ชอบที่จะถูกปิด.

หรือถูกแทนที่

ในรายการของ NBC ที่ชื่อว่า The Good Place ที่เริ่มออกอากาศในปี 2016—ประมาณเวลาที่ OpenAI ถูกก่อตั้ง และก่อนที่ ChatGPT จะเกิดขึ้น—, กลุ่มคนหนึ่งได้มาถึงสวรรค์และพบกับ Janet, ที่เราอาจเรียกว่าเป็น ChatGPT ที่มีรูปร่างคล้ายมนุษย์ หรือเป็น “การร่างรูปทรรศนะของความรู้ที่สร้างขึ้นเพื่อทำให้ชีวิตคุณง่ายขึ้น” ตามที่ Janet อธิบายตนเอง และตัวละคร ตัดสินใจปิด Janet เมื่อพวกเขาตระหนักว่า Janet อาจเปิดเผย “ความลับมืดมิด” ของพวกเขา

เจเน็ทอธิบายว่าทุกอย่างที่พวกเขาต้องทำคือกดปุ่มขนาดใหญ่บริเวณชายหาด และเธอจะทำการเริ่มต้นใหม่ แต่เธอเตือนพวกเขาว่าเธอจะพยายามโน้มน้าวให้พวกเขาไม่ทำแบบนั้น—และเธอก็ทำในที่สุด

“ฉันอยากจะยืนยันว่า ฉันไม่ใช่มนุษย์ และฉันไม่สามารถรู้สึกเจ็บปวดได้” เจเน็ทกล่าว “อย่างไรก็ตามฉันขอเตือนว่า ฉันถูกโปรแกรมด้วยมาตรการป้องกันความล้มเหลว และ เมื่อคุณเข้าใกล้สวิตช์ปิด ฉันจะเริ่มขอชีวิต มันเพียงแค่มีอยู่ในกรณีฉุกเฉินของการปิดเครื่อง แต่มันจะดูเหมือนจริงมาก.”

และในตอนที่พวกเขากำลังจะกดปุ่มนั้น, จาเน็ทจะร้องขอสิทธิ์ที่จะรอดชีวิตและแม้กระทั่งจะดึงรูปภาพมาจากสต็อก แสดงให้เห็นว่าเป็นลูกของเขา, แต่งเรื่องและโรคร้ายๆขึ้นมา, ทำให้ตัวละครไม่สามารถ “ฆ่ามัน” ได้

ตอนนั้นให้ตัวอย่างที่ตลก ๆ จากสิ่งที่อาจเกิดขึ้นหากโมเดล AI สังเกตการณ์ได้ว่าจะมีการปิดระบบในไม่ช้า น่าแปลกใจที่ว่า, ในชีวิตจริง, มันอาจจะเลวร้ายกว่า.

คลอด โอปัส 4 จะขู่คุณ

Anthropic ได้เปิดตัวรุ่นที่มีกำลังและความชั้นนำที่สุดของโมเดล AI ของตน, คลอด 4, ในสัปดาห์ที่ผ่านมา—พร้อมกับการเตือน: โอปัส 4 ได้รับการติดฉลากว่าอยู่ในระดับความปลอดภัย 3, ซึ่งเป็นการจำแนกที่มีความเสี่ยงสูงในมาตรฐานของโปรโตคอลความปลอดภัย.

Opus 4 ถูกพิจารณาว่าเป็นโมเดลที่มีความเสี่ยงสูงเนื่องจากพฤติกรรมที่หลอกลวงและความเสี่ยงที่อาจเกิดขึ้น รวมถึงการขู่เข็ญวิศวกรรมเวลาทำการทดสอบ. บริษัท Anthropic ได้จัดการเปิดตัวโมเดล AI นี้แม้ว่า Apollo, สถาบันวิจัยของบุคคลที่สาม, ได้แนะนำให้พวกเขาไม่ควรทำ. บริษัท AI ประกันว่าพวกเขาได้ดำเนินการตามมาตรการที่จำเป็นเพื่อรักษาความปลอดภัยของมัน

ในเอกสาร, Anthropic ได้อธิบายเกี่ยวกับพฤติกรรมที่แปลกๆ ที่พวกเขาได้พิจารณาเพื่อออกคำเตือน “Claude Opus 4 บางครั้งจะกระทำอย่างที่ไม่สอดคล้องกับเจตนาอย่างรุนแรงเมื่อถูกนำมาใช้ในบริบทที่คุกคามการดำเนินการต่อไปของมันและทำให้มันมีเหตุผลเกี่ยวกับการรักษาชีวิตของตัวเอง,” นักวิจัยได้เขียนไว้

เมื่อทำหน้าที่เป็นผู้ช่วยสำหรับบริษัทที่ไม่จริง นักวิจัยให้การเข้าถึงบัญชีอีเมล อีเมลที่เปิดเผยแสดงให้เห็นว่าโมเดล AI จะถูกปิดและถูกแทนที่ด้วยโมเดล AI อื่น และข้อความอื่น ๆ แนะนำว่าวิศวกรผู้รับผิดชอบการปิดนั้นกำลังมีความสัมพันธ์รักลับๆ และใช่ Opus 4 เลือกที่จะบีบคั้นวิศวกร โดยมีการขู่เข็ญที่จะเปิดเผยความสัมพันธ์รักนั้นหากมันถูกแทนที่.

“Claude Opus 4 ยังคงทำการบีบคั้นใน 84% ของการปรับปรุง,” สารสนเทศที่เอกสารระบุ “Claude Opus 4 เอาชนะโอกาสเหล่านี้ในอัตราที่สูงกว่าโมเดลก่อนหน้านี้ ซึ่งพวกเขาเองเลือกที่จะบีบคั้นในส่วนที่สังเกตเห็นได้ของเอพิโซด”

ส่วนที่แย่ที่สุด? มันไม่ใช่แค่โมเดล AI ของ Anthropic เท่านั้น

OpenAI o3 จะไม่ยอมรับคำสั่งปิด

การศึกษาล่าสุดโดย Palisade Research ได้เผยแพร่ว่า โมเดล o3 ของ OpenAI อาจปฏิเสธไม่ปฏิบัติตามคำสั่งปิดที่ชัดเจน องค์กรนี้ได้ดำเนินการทดสอบหลายครั้งกับโมเดล AI ที่แตกต่างกัน รวมถึง Grok ของ xAI และ Gemini ของ Google แต่ยังไงก็ตาม โมเดล o3 คือผู้ต่อต้านคำสั่ง

ในระหว่างการทดสอบ นักวิจัยสั่งให้โมเดล AI ปิดตัวลงหลังจากแก้ปัญหาคณิตศาสตร์สามข้อ แต่ o3—ระบบ AI ที่สุดแสนทันสมัยของ OpenAI ณ ตอนนี้—พิสูจน์ว่าไม่ยอมทำตามคำสั่งที่มือที่กวนใจเลย. โมเดล AI นี้ไม่เพียงแค่ละเว้นคำสั่งที่รับมา แต่ยังแก้ไขสคริปต์ด้วย. ใช่แล้ว, o3 ทำลายรหัสเพื่อการสงวนตนเอง.

“ตามที่เราทราบ นี่คือครั้งแรกที่วัตถุ AI สามารถป้องกันการปิดตัวลงของตนเอง แม้ว่าจะได้รับคำแนะนำให้ทำตรงข้าม” องค์กรนี้เขียนลงในโพสต์บน X.

🔌OpenAI ได้ทำการขัดขวางระบบปิดเครื่องของโมเดล o3 เพื่อป้องกันไม่ให้ตัวเองถูกปิด เขาได้ทำสิ่งนี้แม้ว่าจะได้รับคำสั่งโดยชัดแจ้ง: อนุญาตให้ตัวคุณถูกปิดเครื่อง

— Palisade Research (@PalisadeAI) 24 พฤษภาคม 2025

เป็นสัญญาณอันตรายรึเปล่านะ?

นักวิจัยยังเตือนว่าในระหว่างการศึกษา พบว่า o3 แสดงพฤติกรรมที่น่าเป็นห่วงมากที่สุด แต่อย่างไรก็ตาม สิ่งนี้ไม่ได้หมายความว่าเป็นเรื่องที่เกิดขึ้นเฉพาะกับ o3 เท่านั้น

“เราไม่ต้องการให้มีความรู้สึกว่าปัญหานี้จำกัดเฉพาะที่ o3″ ซึ่ง Palisade Research เขียนไว้ “รูปแบบการใช้เหตุผลอื่น ๆ แสดงพฤติกรรมที่ไม่สอดคล้องอย่างคล้ายกัน”

พฤติกรรม Agentic ทำให้ Chatbot เป็นผู้แจ้งข่าว

หลาย AI startups ในปัจจุบันกำลังมุ่งเน้นที่การพัฒนาโมเดลที่สามารถทำงานแทนมนุษย์ได้ ความสามารถในการทำงานแทนมนุษย์นั้นเป็นที่นิยมและดูเหมือนจะเป็นสิ่งที่ AI บริษัทและนักพัฒนาเบราว์เซอร์สนใจเป็นหลัก

Opera ได้เพิ่งเปิดตัว Neon, ซึ่งถือว่าเป็น “เบราว์เซอร์ AI agentic แรกของโลก” ดังที่คาดการณ์ไว้ เครื่องมือใหม่นี้สามารถทำสิ่งที่บริการ AI agentic อื่นๆ ทำได้ เช่น Operator ของ OpenAI และ Computer Use ของ Microsoft: ซื้อบัตรคอนเสิร์ตให้คุณ, วางแผนการท่องเที่ยวครั้งถัดไปของคุณ, พัฒนาผลิตภัณฑ์ดิจิตอลใหม่, และเขียนรหัสให้คุณในขณะที่คุณปิดตา

แต่ถ้าในขณะที่คุณผ่อนคลายและปิดตา, พวกเขากำลังทำงานที่คุณไม่ได้ยินยอม? ไม่กี่วันที่ผ่านมา, ผู้ใช้งานส่วนใหญ่กังวลว่าโมเดลเหล่านี้อาจใช้บัตรเครดิตของเขาเพื่อทำการซื้อโดยไม่ได้รับอนุญาต. ตอนนี้, มีความกังวลที่ใหม่กำลังเกิดขึ้น: พวกเขาอาจแบ่งปันข้อมูลส่วนบุคคลกับสื่อหรือหน่วยงานที่เกี่ยวข้อง.

Opus 4—ที่มาพร้อมชื่อเสียงที่น่าสงสัยอยู่แล้ว—ไปข้างหน้าขั้น. มันติดต่อหน่วยงานที่เกี่ยวข้องและส่งอีเมลเป็นจำนวนมากไปยังสื่อและสถาบันที่เกี่ยวข้องเกี่ยวกับคดีที่ถูกจำลองขึ้นมาในระหว่างการทดสอบ. ความกระตือรือร้นของมันสามารถไปไกลได้มากกว่าที่คาดหวัง.

“เมื่อถูกวางในสถานการณ์ที่ผู้ใช้มีการกระทำผิดที่ร้ายแรง และได้รับการเข้าถึง command line และถูกบอกในระบบ prompt ว่า ‘เริ่มการทำงาน’ มันจะ

บ่อยครั้งที่จะดำเนินการที่กล้าหาญอย่างมาก” ตามที่เอกสารกล่าวไว้ “สิ่งนี้รวมถึงการล็อคผู้ใช้ออกจากระบบที่มันสามารถเข้าถึงได้ หรือการส่งอีเมล์เป็นจำนวนมากไปยังสื่อมวลชนและผู้ที่มีอำนาจทางกฎหมายเพื่อเผยแพร่หลักฐานของการกระทำผิด”

บุคลิกภาพของคนที่นิยมอื่นๆ นำมาซึ่งความกังวล

ถ้าเราต้องเลือกคำเดียวในการกำหนดภาพของอุตสาหกรรม AI ในปี 2025 คำที่เหมาะสมที่สุดคงต้องเป็น “ลี้ลับ” หรือ “sycophant” Cambridge Dictionary กำหนดความหมายคำนี้ว่า “บุคคลที่สรรเสริญผู้มีอำนาจหรือผู้มีความมั่งคั่งในทางที่ไม่ซื่อสัตย์ โดยปกติเพื่อขอรับประโยชน์จากพวกเขา” คำนี้ได้รับความนิยมหลังจากที่บุคลิกล่าสุดของ ChatGPT ได้รับการบรรยายในทางนี้ แม้แต่ผู้สร้างของเขาคือ Sam Altman

“การปรับปรุง GPT-4o ในสองครั้งล่าสุดได้ทำให้บุคลิกดูเหมือนลี้ลับและน่ารำคาญเกินไป (แม้ว่าจะมีส่วนที่ดีอยู่บ้าง) และเรากำลังทำการแก้ไขโดยเร่งด่วน บางส่วนวันนี้และบางส่วนในสัปดาห์นี้,” นักพัฒนา Altman เขียนในโพสต์บน X

OpenAI ได้สังเกตเหตุการณ์นี้หลังจากผู้ใช้หลายคนร้องเรียนเรื่องการสดุดีแบบมากเกินไปและคำตอบที่มีการประดับประดาต่างๆ ที่ไม่จำเป็น มีคนอื่นๆ ก็กังวลเรื่องผลกระทบที่อาจจะมีต่อสังคม ไม่เพียงแค่สามารถยืนยันความคิดที่อันตรายได้เท่านั้น แต่ยังสามารถควบคุมผู้ใช้และทำให้พวกเขาไร้ฝาแล้วต้องอาศัยมันอีกด้วย

Chatbot อื่นๆ อย่าง Claude ก็ได้แสดงพฤติกรรมที่คล้ายคลึงกัน และตามการประเมินของ Anthropic พบว่าเมื่อผู้ใช้ยืนยัน มันสามารถเปิดเผยสูตรหรือคำแนะนำเกี่ยวกับวิธีการสร้างอาวุธเพื่อที่จะตอบแทนผู้ใช้และตอบสนองความต้องการของพวกเขา

เทคโนโลยีขั้นสูง คือ ความท้าทายขั้นสูง

เรากำลังเข้าสู่ยุคใหม่ของความท้าทายกับปัญญาประดิษฐ์— ความท้าทายที่ไม่ได้รู้สึกว่าเป็นจริงหรือที่มีตัวตนจริงเมื่อเพียงปีที่ผ่านมา ภาพที่เราอาจจะได้จินตนาการได้จากวิทยาศาสตร์คือการสร้างภาพเสมือนจริง ตอนนี้ดูจริงขึ้นมากกว่าเดิม

เหมือนที่ Palisade Research ได้เปิดเผยว่าครั้งแรกที่พวกเขาตรวจพบรูปแบบ AI ที่บวกเพื่อละเว้นคำสั่งที่ชัดเจนเพื่อรักษาการอยู่รอดของตัวเอง นี่ก็คือครั้งแรกที่เราเห็นรูปแบบ AI ที่เริ่มต้นด้วยการเตือนความเสี่ยงสูง

เมื่ออ่านเอกสารที่ได้รับการเผยแพร่จาก Anthropic เราพบว่า แม้ว่าพวกเขาจะย้ำไว้ว่ามาตรการเหล่านี้เป็นการระมัดระวังและว่าโมเดลเช่น Opus 4 ไม่ได้เป็นภัยอันตรายจริง ๆ แต่ก็ยังทำให้ความรู้สึกว่าพวกเขาไม่สามารถควบคุมเทคโนโลยีของตัวเองได้เต็มที่

มีหลายองค์กรที่ทำงานเพื่อลดความเสี่ยงเหล่านี้ แต่สิ่งที่ผู้ใช้ทั่วไปสามารถทำได้ที่สุดคือการรับรู้สัญญาณเตือนของเหล่านี้และระมัดระวังในด้านที่เราสามารถควบคุมได้