近期,紐約大學的研究團隊發表了一項研究,揭示了大規模語言模型(LLM)在資料訓練中的脆弱性。他們發現,即使是極少量的假訊息,只需佔訓練資料的0.001%,就能導致整個模型出現重大錯誤。這項發現對於醫療領域尤其引人關注,因為錯誤的訊息可能直接影響病患的安全。
研究人員在《自然醫學》雜誌上發表的論文中指出,雖然LLM 表現出色,但如果其訓練數據中被注入了虛假信息,這些模型依然可能在一些開放源代碼的評估基準上表現得與未受影響的模型一樣好。這意味著,在常規測試下,我們可能無法察覺到這些模型的潛在風險。
為了驗證這一點,研究團隊對一個名為「The Pile」的訓練資料集進行了實驗,他們在其中故意加入了150,000篇AI 生成的醫療虛假文章。僅用24小時,他們就產生了這些內容,研究表明,給資料集替換0.001% 的內容,即使是一個小小的1百萬個訓練標記,也能導致有害內容增加4.8%。這個過程的成本極為低廉,只花了5美元。
這種資料中毒攻擊不需要直接接觸模型的權重,而是攻擊者只需在網路上發布有害訊息,就能削弱LLM 的有效性。研究團隊強調,這項發現凸顯了在醫療領域使用AI 工具時所存在的重大風險。同時,他們也提到,已經有相關案例顯示,某些AI 醫療平台,例如MyChart,在自動回覆患者問題時,常常會產生錯誤的訊息,給患者帶來困擾。
因此,研究人員呼籲AI 開發者和醫療提供者在開發醫療LLM 時,必須清楚地認識到這一脆弱性。他們建議,在未來能夠確保安全性之前,不應將LLM 用於診斷或治療等關鍵任務。
AI課程適合對人工智能技術感興趣的人,包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。
課程內容從基礎到高級不等,初學者可以選擇基礎課程,逐步深入到更複雜的算法和應用。
學習AI需要一定的數學基礎(如線性代數、概率論、微積分等),以及編程知識(Python是最常用的編程語言)。
將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術,掌握使用AI工具和框架進行實際開發。
您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。