最近的一項研究顯示,受試者在區分ChatGPT 與人類治療師的心理治療反應時,遇到了很大的困難。研究表明,AI 的回答往往被認為比專業人士的回答更具同理心。這項研究應用了經典的圖靈測試,旨在評估人類能否識別與機器還是與其他人互動。研究人員邀請了830名參與者,要求他們判斷18對夫妻治療案例中,哪些反應來自於ChatGPT,哪些來自於經驗豐富的人類治療師。
根據發表在《PLOS 心理健康》上的研究結果,參與者在識別治療反應的過程中,表現僅略高於隨機猜測。人類治療師的反應被正確識別的比例為56.1%,而ChatGPT 的反應為51.2%。這項研究還發現,ChatGPT 在治療質量的多個維度上表現優於人類專家,包括治療聯盟、同理心和文化適應性。
ChatGPT 能夠取得如此成績的原因有很多。 AI 系統通常會提供更長的回答,語氣更積極,並且在回答中使用更多的名詞和形容詞,這些特點使得其反應顯得更加詳細和富有同理心。然而,研究還發現,受試者在認為自己正在閱讀AI 生成的反應時,往往會對其評分較低,而當他們錯誤地認為AI 的回答來自人類治療師時,這些AI 的反應會獲得更高的評價。
研究者指出,雖然這項研究的發現令人振奮,但也有重要的局限性。他們使用的都是簡短的假設性治療場景,而非真實的治療過程。此外,他們也質疑這一結果是否適用於個體諮詢。
儘管如此,隨著對AI 在治療領域潛力的進一步證據積累,研究人員強調,心理健康專業人士需要了解這些系統。他們呼籲,臨床工作者必須小心地訓練和監控AI 模型,以確保提供高標準的護理。
目前,關於AI 在諮詢角色中的能力,已有多項研究得出相似的結論。一項來自墨爾本大學和西澳大學的研究顯示,ChatGPT 在社交困境中的建議比人類專欄作家更具平衡性、全面性和同理心。
不過,儘管AI 的表現優於人類,大多數參與者仍傾向於選擇人類顧問。在澳大利亞的研究中,有77% 的受訪者表示,他們更願意接受人類的建議。雖然AI 在醫療診斷中的回應同樣被認為更具同理心和質量,但斯坦福大學和德克薩斯大學的研究者提醒,在心理治療中使用ChatGPT 時要保持謹慎,他們認為大語言模型缺乏真正的“心智理論”,無法體驗真正的同理心,並呼籲建立國際研究項目,以製定AI 在心理學中安全整合的指導方針。