中文(繁體)

目前位置: 首頁> AI 資訊

PhotoDoodle AI:用少量提示將照片變為藝術作品

作者: LoRA 時間: 2025年02月26日 826

字節跳動攜手中國和新加坡大學研究團隊推出的新型AI圖像編輯系統PhotoDoodle,正在重新定義我們對圖像創作的理解。這款基於Flux.1模型的創新技術,能夠從少量樣本中學習藝術風格,並精準執行特定編輯指令,為創意表達開闢了全新可能。

以Flux.1為基礎

PhotoDoodle的核心是研究團隊首先開發的OmniEditor系統,它巧妙地利用LoRA(低秩自適應)技術對德國初創公司Black Forest Labs的Flux.1圖像生成模型進行了改良。這種方法不需要徹底重塑原始模型的權重,而是通過添加專用小型矩陣實現從微小概念調整到完整風格轉換的能力。

隨後,研究人員採用名為EditLoRA的變體訓練OmniEditor,使其能夠複製獨特的藝術風格。通過與藝術家合作創建的精選圖像對,系統得以掌握每種藝術風格的精妙之處。

QQ20250226-092429.png

PhotoDoodle 在保留原始圖像構圖的同時添加了怪物、魔法效果和裝飾插圖等有趣元素。 | 圖片:Huang 等人

"位置編碼克隆":保持畫面和諧統一

PhotoDoodle最引人注目的創新是"位置編碼克隆"技術。這項技術使AI能夠記住原始圖像中每個像素的確切位置,從而在添加新元素時保持畫面構圖的完整性,並確保新添加的元素自然融入背景。

這解決了傳統圖像編輯AI的關鍵痛點:要么改變整個圖像風格,要么只能編輯局部區域,難以在保持原有視角和背景的同時融入新的裝飾元素。而PhotoDoodle無需額外參數訓練就能實現這一突破,大大提高了處理效率。

QQ20250226-092411.png

PhotoDoodle 使用各種藝術風格轉換日常照片- 從可愛的卡通怪物到手繪線條和色彩效果。 | 圖片:Huang 等人

展望單圖像訓練

在實際測試中,PhotoDoodle輕鬆應對從"讓貓變白一點"到"添加一隻爬上建築物的粉紅色怪物"等各種複雜指令。與現有技術相比,它在圖像與文本描述相似度等基準測試中表現卓越,無論是針對性編輯還是全局圖像更改,都遠超同類產品。

QQ20250226-092421.png

PhotoDoodle 與現有的AI 圖像編輯系統的比較可以明顯看出特定提示的執行質量存在差異。 | 圖片:Huang 等人

目前,PhotoDoodle需要數十對圖像和數千個訓練步驟才能掌握新風格。研究團隊已將目光投向更高效的單圖像訓練方法,並發布了一個包含六種不同藝術風格和300多對圖像的數據集,相關代碼也已在GitHub上開源,為未來研究提供了堅實基礎。

地址:https://github.com/showlab/PhotoDoodle