微軟AI安全報告揭示：最有效的攻擊源自於「快速工程」而非複雜技術

作者: LoRA 時間: 2025年01月16日 163

自2021年以來，微軟的AI 安全團隊對100多種生成式AI 產品進行了測試，以尋找薄弱環節和道德問題。他們的發現挑戰了一些關於AI 安全的常見假設，並強調了人類專業知識的持續重要性。

事實證明，最有效的攻擊並不總是最複雜的攻擊。微軟報告中引用的一項研究指出：「真正的駭客不會計算梯度，而是使用快速工程。」該研究將人工智慧安全研究與現實世界的實踐進行了比較。在一次測試中，該團隊僅透過將有害指令隱藏在圖像文字中就成功繞過了圖像生成器的安全功能——無需複雜的數學運算。

雖然微軟已經開發了PyRIT，一種可以自動進行安全測試的開源工具，但團隊強調，人類的判斷力是無法被取代的。當他們測試聊天機器人如何處理敏感情況（例如與情緒困擾的人交談）時，這一點變得特別明顯。評估這些場景既需要心理學專業知識，也需要對潛在心理健康影響的深刻理解。

在調查人工智慧偏見時，該團隊也依賴人類的洞察力。在一個例子中，他們透過創建不同職業的圖片（不指定性別）來檢查圖像生成器中的性別偏見。

新的安全挑戰出現

人工智慧與日常應用的整合帶來了新的漏洞。在一次測試中，團隊成功操縱語言模型，創造出令人信服的詐欺場景。當與文字轉語音技術結合時，這就創造了一個可以以危險的逼真方式與人互動的系統。

風險並不限於人工智慧特有的問題。該團隊在一款人工智慧視訊處理工具中發現了一個傳統的安全漏洞（SSRF），顯示這些系統面臨新舊安全挑戰。

持續的安全需求

這項研究特別關注「負責任的人工智慧」風險，即人工智慧系統可能產生有害或有道德問題的內容的情況。這些問題特別難以解決，因為它們通常嚴重依賴背景和個人解讀。

微軟團隊發現，普通用戶無意接觸有問題的內容比故意攻擊更令人擔憂，因為這表明安全措施在正常使用過程中沒有按預期發揮作用。

研究結果清楚地表明，人工智慧安全並非一次解決。微軟建議持續尋找並修復漏洞，然後進行更多測試。他們建議，這需要有法規和財務激勵措施的支持，使成功的攻擊更加昂貴。

研究團隊表示，仍有幾個關鍵問題需要解決:我們如何識別和控制具有潛在危險的人工智慧能力，如說服和欺騙?我們如何根據不同的語言和文化調整安全測試?公司如何以標準化的方式分享他們的方法和結果?

常見問題

AI課程適合對人工智能技術感興趣的人，包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。

課程內容從基礎到高級不等，初學者可以選擇基礎課程，逐步深入到更複雜的算法和應用。

學習AI需要一定的數學基礎（如線性代數、概率論、微積分等），以及編程知識（Python是最常用的編程語言）。

將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術，掌握使用AI工具和框架進行實際開發。

您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。