OpenAI推出全新圖像生成模型，挑戰Google一句話P圖

作者: LoRA 時間: 2025年03月26日 635

在科技界的最新動態中，OpenAI 剛剛宣布，他們在最新的GPT-4o 模型中集成了迄今為止最先進的圖像生成器。 OpenAI 的首席執行官薩姆・奧特曼（Sam Altman）在社交媒體平台X 上興奮地分享了他第一次看到模型生成的圖像時的震驚，認為這簡直難以置信，並期待用戶們充分發揮他們的創造力。

新功能的亮點包括:

- 能夠精確渲染文本內容，提供高質量的圖像效果。

- 支持多種輸入輸出方式，涵蓋文本、圖像和音頻等多種形式。

- 理解複雜指令並結合上下文，創造出具有真實感的第一人稱視角圖像。

與之前的圖像生成模型DALL・E 不同，GPT-4o 採用了一種自回歸模型，原生嵌入在ChatGPT 中。這意味著，它能夠處理多達10至20個不同物體的複雜指令，而競爭對手通常只能處理5至8個，展現出更強的能力。

用戶只需簡潔地描述需求，比如指定縱橫比、顏色或透明背景，模型便可以快速生成圖像。雖然渲染較複雜的細節可能需要稍等一會兒，但最終的效果是值得的。

在一次發布會上，演示者展示了多個具體案例。比如，他將一張合影轉化為動漫風格的圖像，模型不僅成功保留了人物的特徵，還完美融合了動漫視覺效果。此外，演示者要求生成一頁關於相對論的幽默漫畫，結果生成的漫畫不僅結構完整，還生動有趣。

OpenAI 對此功能的安全性也非常重視，所有生成的圖像都帶有C2PA 元數據標識，確保內容的來源可追溯，並有效阻止不當請求的生成。

當然，OpenAI 的圖像生成工具並非沒有缺點，比如在裁剪、上下文理解和非拉丁文本渲染等方面仍存在不足。不過，OpenAI 表示他們會在未來不斷優化這些問題。

與此同時，Google 也在同一時間發布了自家的強大AI 模型Gemini2.5Pro Experimental，展現出在推理和編程能力上的顯著提升。這一系列的動態顯示出，AI 領域的競爭愈發激烈，各大科技巨頭都在不斷推出更先進的技術，力爭在這場“AI 爭霸戰” 中佔據領先地位。