Google DeepMind發布DolphinGemma模型
特斯拉宣布推出通用AI全自動駕駛方案
Hugging Face收購Pollen Robotics,進軍開源機器人硬件領域
GPT-4.1模型亮相! Cursor與Windsurf助力開發者更高效編碼
Flux.1是由Black Forest Labs開發的一款開源AI圖像生成模型, Grok利用這一模型來實現其圖像生成功能。
Flux.1是一個強大的文本到圖像生成模型,擁有120億參數,是目前最大的開源文生圖模型之一。它有三種變體:
Flux.1 [pro]:閉源版本,性能最佳,適合商業用途,通過API訪問。
Flux.1 [dev]:開源版本,適用於非商業用途,適合開發者或個人用戶。
Flux.1 [schnell]:開源且可商用,速度最快,適合本地開發和個人使用。
Grok的圖像生成功能主要基於Flux.1模型(具體版本可能因Grok的實現而異,但通常會使用開源的[dev]或[schnell]版本)。根據X平台上的用戶反饋,Grok的圖像生成效果非常出色,尤其是在細節處理和提示詞遵循方面。
Grok作為一個聊天機器人,集成了Flux.1的圖像生成功能,你可以直接通過對話生成圖像。以下是具體步驟:
打開Grok的聊天界面(例如在X平台上)。
確保你有權限使用圖像生成功能。根據X平台用戶反饋,免費用戶每2小時可以發送10條消息,其中包括圖像生成請求。
直接向Grok輸入你的圖像生成需求,使用自然語言描述。例如:
“Generate a post-apocalyptic wasteland painting with robots, humans, desolation, ruin, and technology, from a bird's-eye view.”
中文提示詞也可以,但建議使用英文,因為Flux.1對英文提示詞的理解更精準。例如:“生成一幅後末日廢土風格的畫作,包含機器人、人類、荒涼、廢墟和技術,採用鳥瞰視角。”
提示詞建議:
盡量具體,描述場景、風格、視角、顏色等細節。
如果需要特定藝術風格,可以加上“in the style of [風格]”,例如“in the style of a cyberpunk painting”。
如果生成結果不符合預期,可以調整提示詞或補充更多細節。
Grok會調用Flux.1模型生成圖像,通常需要幾秒到幾十秒(具體時間取決於服務器負載和提示詞複雜性)。
生成完成後,Grok會直接返回圖像,你可以查看並下載。
如果對生成結果不滿意,可以通過對話進一步調整。例如:
“Make the scene darker and add more robots.”
“Change the perspective to a ground-level view.”
Grok會根據你的反饋重新生成圖像。
使用限制
免費用戶有消息限制(每2小時10條),如果需要更多生成次數,可以考慮升級到付費賬戶。
Flux.1 [dev]版本不可商用,如果你計劃將生成的圖像用於商業用途,需確認Grok使用的具體Flux.1版本([schnell]版本是可商用的)。
如果你想更深入地使用Flux.1,或者Grok的生成次數限制影響了你的體驗,可以選擇在本地部署Flux.1模型,然後將生成的圖像提示詞從Grok遷移到本地工作流中。以下是本地部署的步驟:
硬件要求:
GPU:建議至少16GB顯存(例如NVIDIA RTX 3090),最低12GB(使用量化版本)。
內存:至少32GB系統RAM。
存儲:Flux.1模型文件較大(約23GB),量化版本約11GB,需預留足夠空間。
軟件要求:
操作系統:Windows、Linux或Mac均可。
Python 3.10+。
Git(用於克隆倉庫)。
ComfyUI(一個支持Flux.1的圖像生成界面)。
1. 安裝ComfyUI : comfyui安裝指南
2. 下載Flux.1模型:
訪問Hugging Face上的Flux.1模型倉庫:
Flux.1 [dev]:https://huggingface.co/black-forest-labs/FLUX.1-dev
Flux.1 [schnell]:https://huggingface.co/black-forest-labs/FLUX.1-schnell
下載模型文件(例如flux1-dev.safetensors或flux1-schnell.safetensors)。
如果顯存不足,可以下載量化版本(FP8),如flux1-dev-fp8.safetensors。
將下載的模型文件放入ComfyUI/models/unet目錄。
3. 下載CLIP和VAE模型:
Flux.1需要額外的CLIP和VAE模型來處理文本和圖像生成。
從Hugging Face下載:
CLIP:https://huggingface.co/comfyanonymous/flux_text_encoders
文件包括clip_l.safetensors和t5xxl_fp16.safetensors(或FP8版本)。
將文件放入ComfyUI/models/clip和ComfyUI/models/vae目錄。
1. 啟動ComfyUI :
2.瀏覽器會自動打開ComfyUI界面(通常是http://localhost:8188)。
3.在ComfyUI中加載一個Flux.1工作流:
可以從網上下載現成的工作流(JSON文件),或手動搭建。
4.基本工作流包括:
加載Flux.1模型(Load Diffusion Model節點)。
輸入提示詞(CLIP Text Encode節點)。
設置生成參數(分辨率、採樣步數等)。
輸出圖像(Save Image節點)。
在ComfyUI界面中,將Grok生成的提示詞(或你自己的提示詞)輸入到工作流中。
點擊“Queue Prompt”按鈕,等待生成完成。
生成速度取決於硬件性能,例如RTX 3090上生成一張圖約20秒,RTX 3060(12GB顯存)可能需要幾分鐘。
如果本地生成的結果需要進一步調整,可以將圖像上傳到Grok,並請求進一步編輯。例如:
“I generated this image [上傳圖像],can you make the sky darker and add more ruins?”
如果你的硬件不足以支持本地部署,可以通過在線平台體驗Flux.1,並結合Grok的提示詞生成圖像。以下是推薦平台:
Replicate:
訪問https://replicate.com/black-forest-labs/flux-pro。
新用戶有免費試用額度,支持Flux.1 [pro]、[dev]和[schnell]。
輸入提示詞,點擊“Run”生成圖像。
fal.ai:
註冊後可獲得1美元免費積分,支持生成多張圖像。
價格:Flux.1 [pro]每張約0.055美元,[schnell]每張約0.003美元。
Hugging Face:
訪問https://huggingface.co/black-forest-labs/FLUX.1-dev。
直接在網頁上輸入提示詞並生成(可能需要登錄)。
為了讓Flux.1生成更符合預期的圖像,提示詞的編寫非常重要。以下是一些技巧:
明確風格:指定藝術風格,例如“cyberpunk style”、“oil painting style”。
描述細節:包括顏色、光線、視角等,例如“a bird's-eye view, muted colors, dramatic lighting”。
避免模糊:不要使用過於抽象的描述,如“something cool”,而是具體化,如“a futuristic city with neon lights and flying cars”。
負面提示詞:在某些平台(如ComfyUI)可以設置負面提示詞,避免不需要的元素,例如“no blurry details, no extra limbs”。
通過Grok直接使用Flux.1生成圖像是最簡單的方式,只需輸入提示詞即可。對於進階用戶,可以通過本地部署ComfyUI或使用在線平台(如Replicate)來更靈活地使用Flux.1。無論哪種方式,Flux.1都能生成高質量、細節豐富的圖像。