Midjourney近期與紐約大學合作,發布了一項關於訓練文本生成大語言模型(LLMs)的研究成果。該研究旨在提升LLM在創意寫作方面的能力,使其能夠生成更具創造性的文本。 Midjourney提出了兩種新技術:“多樣化直接偏好優化”(DDPO)和“多樣化賠率比偏好優化”(DORPO),以擴大AI模型生成文本的範圍,使其在保持連貫性和可讀性的前提下,呈現出更加豐富多樣的內容。
研究人員指出,儘管當前的LLM在事實性問答或代碼輔助等領域表現出色,但在創意寫作領域,由於其開放性,對同一個提示本應存在多種有效的回應。然而,經過指令調優的LLM往往會收斂於相似的故事線和主題。為了解決這一問題,Midjourney的研究團隊對現有的偏好優化方法進行了改進,引入了DDPO和DORPO。這兩項創新的核心在於利用“偏差”(deviation)——即一個回應與其他回應的差異程度——來指導模型訓練。
實驗結果顯示,DDPO在保持輸出質量的同時,顯著優於標準的DPO。搭載DDPO的Llama-3.1-8B在質量和多樣性之間取得了最佳平衡,其生成的回應比GPT-4o更加多樣化,同時保持了良好的連貫性。即使在數據集規模縮小的情況下,DDPO模型仍然能夠保持一定的多樣性。
這項研究對於需要使用AI生成創意文本的企業而言,具有重要的實際意義。例如,在營銷文案、企業故事講述以及影視遊戲劇本創作等領域,提升AI生成內容的多樣性和質量至關重要。 Midjourney的研究為解決這一難題提供了一種新的思路。
未來,將基於偏差的學習方法集成到企業AI模型中,以增強面向客戶的應用中的響應多樣性,探索這些方法在詩歌、劇本創作或遊戲故事等其他生成任務中的應用,以及開發平衡多樣性和指令遵循能力的混合訓練方法,都將是值得期待的研究方向。
Midjourney的研究團隊計劃公開其代碼,這無疑將為那些希望應用這些技術的開發者提供寶貴的資源。通過採納這些創新技術,AI團隊有望突破僵化、公式化的輸出模式,構建出不僅智能,而且真正富有想像力的AI系統。
論文:https://huggingface.co/papers/2503.17126