CFG Scale,即分類器自由引導比例,是Stable Diffusion 和其他擴散模型中的一個關鍵參數,它控制模型對你提供的提示詞的遵循程度。它本質上是在文字提示的影響和模型固有的圖像先驗知識之間取得平衡。
以下是詳細的解釋:
分類器自由引導(Classifier-Free Guidance):這是底層的技術。傳統上,擴散模型使用分類器來引導去雜訊過程,使其產生與提示詞相符的影像。分類器自由引導簡化了這個過程,它訓練模型同時預測有提示詞和無提示詞的情況。
工作原理:在影像生成過程中,模型會進行兩次預測:
然後,將最終預測計算為這兩個預測的加權組合。
一次預測是受文本提示詞引導的。
另一次預測是無引導的(沒有提示詞)。
CFG Scale 的作用: CFG Scale 值決定了賦予引導預測和無引導預測之間差異的權重。
低CFG Scale(例如,1-3):模型更依賴其自身的內部圖像知識。生成的圖像會更加多樣化和富有創造力,但它們可能與提示詞不太相似。你經常會看到更具藝術性的詮釋和意想不到的元素。
中等CFG Scale(例如,5-10):這通常被認為是最佳值。模型在遵循提示詞和創造自由之間取得了平衡。生成的圖像通常會很好地匹配提示詞,同時仍然保留一些藝術氣息。
高CFG Scale(例如,12-20 或更高):模型會強烈優先遵循提示詞。生成的圖像將非常接近對提示詞的字面解釋,但它們有時看起來會過度處理、缺乏創造力,並且可能存在偽影。非常高的值也可能導致影像品質下降。
類比:
想像一下,你請一位畫家畫一幅「桌子上的紅蘋果」的畫。
低CFG Scale:畫家可能會在表面上畫一個模糊的、略帶紅色的圓形物體,但它可能看起來不太像蘋果,桌子也可能是抽象的。
中等CFG Scale:畫家會在清晰的桌子上畫一個可辨認的紅蘋果。
高CFG Scale:畫家會一絲不苟地在完美渲染的桌子上再現一個逼真的紅蘋果,甚至可能根據他們對「桌子」的刻板印象添加不必要的細節。
總結:
CFG Scale 是控制Stable Diffusion 中提示詞遵循程度和創造自由之間平衡的關鍵參數。嘗試不同的值對於找到所需結果的最佳設定至關重要。通常,從7 左右開始,然後根據結果向上或向下調整是一個不錯的方法。
一些補充說明和技巧:
提示詞的品質:即使CFG Scale 設定得很高,如果你的提示詞很模糊或不清晰,結果仍然可能不盡人意。清晰、具體的提示詞是獲得好結果的基礎。
採樣方法:不同的採樣方法可能對CFG Scale 的反應有所不同。有些採樣器可能在高CFG Scale 下表現較好,而有些則可能在低CFG Scale 下產生更好的結果。
負面提示詞:結合使用負面提示詞(即描述你不希望在圖像中看到的內容的提示詞),可以進一步提高圖像品質和對提示詞的遵循程度。
動態CFG:一些高級的Stable Diffusion 實作提供了「動態CFG」的選項,它會在生成過程中自動調整CFG Scale,以獲得更好的效果。
實驗與觀察:理解CFG Scale 的最佳方法是進行大量的實驗,並觀察不同值對生成影像的影響。透過實踐,你將更能掌握如何使用這個參數來獲得你想要的結果。
希望以上資訊對你有幫助!
AI課程適合對人工智能技術感興趣的人,包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。
課程內容從基礎到高級不等,初學者可以選擇基礎課程,逐步深入到更複雜的算法和應用。
學習AI需要一定的數學基礎(如線性代數、概率論、微積分等),以及編程知識(Python是最常用的編程語言)。
將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術,掌握使用AI工具和框架進行實際開發。
您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。