中文(新加坡)

目前位置: 首頁> AI 資訊

OpenAI 機器人被指控對小型電子商務網站發動DDoS 攻擊並竊取數據

作者: LoRA 時間: 2025年01月11日 397

最近,Trilegangers 執行長Oleksandr Tomchuk 收到警報,稱其公司的電子商務網站癱瘓了。經過調查後,他發現罪魁禍首是來自OpenAI 的一個機器人,它正不懈地試圖抓取他整個龐大的網站。該網站擁有超過65,000種產品,每種產品都有一頁,至少有三張照片。 OpenAI 發送了「數萬」個伺服器請求,試圖下載全部內容,數十萬張照片及其詳細描述。

湯姆丘克表示,OpenAI 的爬蟲程式正在摧毀他們的網站,這基本上是一次DDoS 攻擊。該公司將3D 物件檔案以及照片(從手到頭髮、皮膚和全身)出售給3D 藝術家、視訊遊戲製作者以及任何需要以數位方式重現真實人類特徵的人。

Trilegangers 的網站就是其業務。該公司花了十多年時間,建立了所謂的網路上最大的「人體數位替身」資料庫,也就是從真實人體模型掃描而來的3D 影像檔案。

湯姆丘克的團隊總部位於烏克蘭,但也獲得了美國佛羅裡達州坦帕市的許可,其網站上有一個服務條款頁面,禁止機器人未經許可拍攝其圖像。但僅憑這一點並沒有起到什麼作用。網站必須使用正確配置的robot.txt 文件,其中的標籤明確告訴OpenAI 的機器人GPTBot 不要打擾網站。

openai-crawler-log-2-e1736526937976.jpg

Robot.txt,又稱機器人排除協議,是為了告訴搜尋引擎網站在索引網頁時不要抓取什麼內容而創建的。 OpenAI 在其資訊頁面上表示,當配置了自己的一組禁止抓取標籤時,它會尊重此類文件,但它也警告說,其機器人可能需要長達24小時才能識別更新的robot.txt 文件。

湯姆丘克表示,如果某個網站沒有正確使用robot.txt,OpenAI 和其他公司就會認為他們可以隨心所欲地抓取資料。這不是一個可選系統。

更糟的是,Trilegangers 不僅在美國工作時間內被OpenAI 的機器人強制下線,而且Tomchuk 預計,由於該機器人的所有CPU 和下載活動,AWS 帳單還會大幅增加。

Robot.txt 也不是萬全之策。 AI 公司自願遵守它。去年夏天,另一家AI 新創公司Perplexity 因一些證據表明Perplexity 沒有遵守它而受到Wired 調查的關注,這一事件相當著名。

湯姆丘克表示,他沒有找到聯絡OpenAI 並詢問的方法。 OpenAI 沒有回應TechCrunch 的置評請求。 OpenAI 迄今未能提供其長期承諾的選擇退出工具。

對於Triplegangers 來說,這是一個特別棘手的問題。 「我們從事的業務中,權利問題相當嚴重,因為我們掃描的是真人,」他說。根據歐洲GDPR 等法律,“他們不能隨便在網上拍下任何人的照片然後使用。”

駭客,網路攻擊,寫程式碼

諷刺的是,OpenAI 機器人的貪婪讓Triplegangers 意識到了它是多麼的暴露。他說,如果它更溫柔地刮擦,Tomchuk 永遠不會知道。

「這很可怕,因為這些公司似乎利用了一個漏洞來抓取數據,他們說『如果你用我們的標籤更新你的robot.txt,你可以選擇退出』,」湯姆丘克說,但這讓企業主有責任了解如何阻止他們。

他希望其他小型網路企業知道,發現人工智慧機器人是否正在竊取網站的版權資產的唯一方法就是主動尋找。他當然不是唯一一個被人工智慧機器人恐嚇的人。其他網站的所有者最近告訴《商業內幕》 OpenAI 機器人如何破壞他們的網站並增加他們的AWS 費用。

到2024年,這一問題將進一步惡化。數位廣告公司DoubleVerify 的最新研究發現,人工智慧爬蟲和抓取工具導致2024年「一般無效流量」增加86%,即並非來自真實用戶的流量。

常見問題

AI課程適合哪些人群?

AI課程適合對人工智能技術感興趣的人,包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。

AI課程的學習難度如何?

課程內容從基礎到高級不等,初學者可以選擇基礎課程,逐步深入到更複雜的算法和應用。

學習AI需要哪些基礎?

學習AI需要一定的數學基礎(如線性代數、概率論、微積分等),以及編程知識(Python是最常用的編程語言)。

AI課程能學到什麼?

將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術,掌握使用AI工具和框架進行實際開發。

AI課程學完後能做什麼工作?

您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。