Photo by Joshua Woroniecki on Unsplash
นักวิจัยจาก Cloudflare อ้างว่า Perplexity กำลังทำการเก็บข้อมูลจากเว็บไซต์ แม้ว่ามีการปิดกั้น AI Bot
นักวิจัยจากผู้ให้บริการโครงสร้างพื้นฐานอินเทอร์เน็ต Cloudflare อ้างว่าระบบ AI ที่ชื่อ Perplexity ได้ทำการดึงเนื้อหาจากเว็บไซต์โดยไม่ได้รับอนุญาต แม้ว่าผู้เผยแพร่จะได้ใช้การปิดกั้น AI bot แล้ว.
รีบร้อน? นี่คือข้อเท็จจริงที่คุณควรทราบ:
- Cloudflare อ้างว่า Perplexity ได้ทำการดึงข้อมูลจากเว็บไซต์โดยไม่ได้รับอนุญาต.
- นักวิจัยยืนยันว่า Perplexity มีพฤติกรรม “การคลานเข้าไปอย่างลับ ๆ” แม้ว่าผู้ประกาศจะใช้บล็อกบอท AI.
- โฆษกจาก Perplexity เรียกข้อบังคับของ Cloudflare ว่าเป็น “การทำให้ตัวเองประดิษฐ์”.
ตามรายงานที่ Cloudflare เผยแพร่ในวันจันทร์ที่ผ่านมา บริษัท Perplexity ได้ทำการค้นหาข้อมูลบนเว็บไซต์โดยใช้ user agent ที่กำหนดไว้โดยค่าเริ่มต้น และเปลี่ยนตัวตนเพื่อหลีกเลี่ยงการถูกบล็อก พฤติกรรมการ“ค้นหาข้อมูลอย่างลับ ๆ บนเว็บ”นี้ได้รับการยืนยันจากผู้เชี่ยวชาญของ Cloudflare แล้ว
“เราพบหลักฐานอย่างต่อเนื่องที่แสดงว่า Perplexity มีการแก้ไข user agent และเปลี่ยน source ASNs อย่างต่อเนื่องเพื่อซ่อนกิจกรรมการครอลลิ่งของตน รวมถึงการไม่สนใจ—หรือบางครั้งไม่สามารถดึงไฟล์ robots.txt ได้” นักวิจัยเขียนไว้
ครอลเลอร์ควรจะโปร่งใส ระบุวัตถุประสงค์ของตนอย่างชัดเจน และเคารพความชอบของเว็บไซต์ แต่นักวิจัยอ้างว่า Perplexity ไม่ได้ปฏิบัติตามห principele ่งปัญหานี้ และมีการสรุปว่า Perplexity ไม่ได้ปฏิบัติตามห principele ่งนี้ การสรุปนี้ได้มาจากการสอบสวนที่เริ่มต้นจากการร้องเรียนของลูกค้า
“เราได้รับการร้องเรียนจากลูกค้าที่ทั้งไม่อนุญาตให้ Perplexity ดำเนินการคราวล์ในไฟล์ robots.txt และยังสร้างกฎ WAF เพื่อบล็อกคราวล์เลอร์ทั้งสองของ Perplexity โดยเฉพาะ: PerplexityBot และ Perplexity-User” นักวิจัยเขียน “ลูกค้าเหล่านี้บอกเราว่า Perplexity ยังสามารถเข้าถึงเนื้อหาของพวกเขาได้ แม้พวกเขาจะเห็นว่าบอทของมันถูกบล็อกอย่างสำเร็จ”
นักวิจัยจาก Cloudflare กล่าวว่าพวกเขาได้ตรวจสอบการอ้างสิทธิ์เหล่านี้โดยการทำซ้ำการบล็อกและการทดสอบหลายครั้งเพื่อสังเกตุพฤติกรรมของคราวเลอร์ ในการทดสอบหนึ่งพวกเขาได้สร้างโดเมนใหม่ที่ยังไม่ได้รับการจัดทำดัชนีและรวมไฟล์ robots.txt เพื่อบล็อก “บอทที่เคารพ” ในภายหลังพวกเขาสอบถาม Perplexity เกี่ยวกับข้อมูลเฉพาะเกี่ยวกับโดเมนที่ถูกจำกัดและพบว่าเครื่องมือค้นหาที่ขับเคลื่อนด้วย AI ยังให้รายละเอียดและข้อมูลที่ถูกต้องเกี่ยวกับเว็บไซต์”
“การตอบสนองนี้ไม่น่าคาดคิด เนื่องจากเราได้ทำการป้องกันและรักษาข้อมูลนี้ให้ไม่สามารถถูกเรียกคืนได้โดยตัวเครื่องค้นหาของพวกเขา” นักวิจัยเพิ่มเติม
เจสซี ดไวเออร์ โฆษกจาก Perplexity เรียกการวิจัยนี้ว่า “การแสดงเพื่อเพิ่มความน่าสนใจ” ในคำแถลงข่าวสำหรับ The Verge ดไวเออร์ยังเพิ่มเติมว่ามี “ความเข้าใจผิด” ในรายงานของ Cloudflare
Cloudflare ได้พัฒนาเครื่องมือหลายๆ ชิ้นเพื่อช่วยให้ผู้ประกาศข่าวสามารถป้องกันการครอบครัว AI ที่ไม่ได้รับอนุญาต ในเดือนมีนาคม, Cloudflare ได้ปล่อย “AI Labyrinth,” ใช้เครื่องมือนี้เพื่อเปลี่ยนทางการครอบครัวที่ไม่ได้รับอนุญาตเข้าไปในเส้นทางที่สร้างโดย AI เดือนที่แล้ว, มันได้เริ่มต้น “Pay Per Crawl,” ระบบ ที่คิดค่าธรรมเนียมต่อการเข้าถึงเนื้อหาของผู้ประกาศข่าวโดย AI bots.