研究揭示：僅需0.001% 的假數據就能讓AI 模型失效

作者: LoRA 時間: 2025年01月15日 861

近期，紐約大學的研究團隊發表了一項研究，揭示了大規模語言模型（LLM）在資料訓練中的脆弱性。他們發現，即使是極少量的假訊息，只需佔訓練資料的0.001%，就能導致整個模型出現重大錯誤。這項發現對於醫療領域尤其引人關注，因為錯誤的訊息可能直接影響病患的安全。

代碼網際網路 (2)

研究人員在《自然醫學》雜誌上發表的論文中指出，雖然LLM 表現出色，但如果其訓練數據中被注入了虛假信息，這些模型依然可能在一些開放源代碼的評估基準上表現得與未受影響的模型一樣好。這意味著，在常規測試下，我們可能無法察覺到這些模型的潛在風險。

為了驗證這一點，研究團隊對一個名為「The Pile」的訓練資料集進行了實驗，他們在其中故意加入了150，000篇AI 生成的醫療虛假文章。僅用24小時，他們就產生了這些內容，研究表明，給資料集替換0.001% 的內容，即使是一個小小的1百萬個訓練標記，也能導致有害內容增加4.8%。這個過程的成本極為低廉，只花了5美元。

這種資料中毒攻擊不需要直接接觸模型的權重，而是攻擊者只需在網路上發布有害訊息，就能削弱LLM 的有效性。研究團隊強調，這項發現凸顯了在醫療領域使用AI 工具時所存在的重大風險。同時，他們也提到，已經有相關案例顯示，某些AI 醫療平台，例如MyChart，在自動回覆患者問題時，常常會產生錯誤的訊息，給患者帶來困擾。

因此，研究人員呼籲AI 開發者和醫療提供者在開發醫療LLM 時，必須清楚地認識到這一脆弱性。他們建議，在未來能夠確保安全性之前，不應將LLM 用於診斷或治療等關鍵任務。