擴散模型
機器學習中,擴散模型或擴散概率模型是一類潛變量模型,是用變分估計訓練的馬爾可夫鏈。[1]擴散模型的目標是通過對數據點在潛空間中的擴散方式進行建模,來學習數據集的潛結構。計算機視覺中,這意味着通過學習逆擴散過程訓練神經網絡,使其能對疊加了高斯噪聲的圖像進行去噪。[2][3]計算機視覺中使用通用擴散模型框架的3個例子是去噪擴散概率模型、噪聲條件得分網絡和隨機微分方程。[4]
擴散模型是在2015年提出的,其動機來自非平衡態熱力學。[5]
擴散模型可以應用於各種任務,如圖像去噪、圖像修復、超解像度成像、圖像生成等等。例如,一個圖像生成模型,經過對自然圖像的擴散過程的反轉訓練之後,可從一張完全隨機的噪聲圖像開始逐步生成新的自然圖像。比較近的例子有2022年4月13日OpenAI公佈的文生圖模型DALL-E。它將擴散模型用於模型的先驗解釋器和產生最終圖像的解碼器。[6]
數學原理
於所有圖像的空間中生成一張圖像
考慮圖像生成問題。令 代表一張圖,令 為在所有可能圖像上的概率分佈。若有 本身,便可以肯定地說給定的一張圖的概率有多大。但這在一般情況下是難以解決的。
大多數時候,我們並不想知道某個圖像的絕對概率,相反,我們通常只想知道某個圖像與它的周圍相比,概率有多大:一張貓的圖像與它的小變體相比,概率哪個大?如果圖像里有一根、兩根或三根鬍鬚,或者加入了一些高斯噪聲,概率會更大嗎?
因此,我們實際上對 本身不感興趣,而對 感興趣。這有兩個效果:
- 其一,我們不再需要標準化 ,而是可以用任何 ,其中 是任意常數,我們不需要去關心它。
- 其二,我們正在比較 的鄰居 ,通過
令分數函數為 ,然後考慮我們能對 做什麼。
實際上, 允許我們用隨機梯度朗之萬動力學從 中取樣,這本質上是馬爾可夫鏈蒙特卡洛的無限小版本。[2]
學習分數函數
分數函數可通過加噪-去噪學習。[1]
主要變體
分類指導器
假設我們希望不是從整個圖像的分佈中取樣,而是以圖像描述為條件取樣。我們不想從一般的圖像中取樣,而是從符合描述「紅眼睛的黑貓」的圖片中取樣。一般來說,我們想從分佈 中取樣,其中 的範圍是圖像, 的範圍是圖像的類別(對y而言,「紅眼黑貓」的描述過於精細,「貓」又過於模糊)。
從噪聲信道模型的角度來看,我們可以將這一過程理解如下:為生成可描述為 的圖像 ,我們設想請求者腦海中真有一張圖像 ,但它經過多次加噪,出來的是毫無意義可言的亂碼,也就是 。這樣一來圖像生成只不過是推斷出請求者心中的 是什麼。
換句話說,有條件的圖像生成只是「從文本語言翻譯成圖像語言」。之後,像在噪聲信道模型中一樣,我們可以用貝葉斯定理得到 也就是說,如果我們有一個包含所有圖像空間的好模型,以及一個圖像到類別的好翻譯器,我們就能「免費」得到一個類別到圖像的翻譯器,也就是文本到圖像生成模型。
SGLD使用 其中 是分數函數,如上所述進行訓練,用可微圖像分類器便可以找到 。
溫度
分類器引導的擴散模型會從 中取樣,它集中在最大後驗概率 周圍。如果我們想迫使模型向最大似然估計 的方向移動,可以用 其中 可解釋為逆溫度,在擴散模型研究中常稱其為制導尺度(guidance scale)。較高的 會迫使模型在更靠近 的分佈中採樣。這通常會提高生成圖像的品質。[7]
這可以簡單地通過SGLD實現,即
無分類指導器
如果我們沒有分類器 ,我們仍可以從圖像模型本身提取一個:[8] 這樣的模型通常要在訓練時提供 和 ,這樣才能讓它同時為 和 建模。
另見
閱讀更多
- Guidance: a cheat code for diffusion models (頁面存檔備份,存於互聯網檔案館). Good overview up to 2022.
參考文獻
- ^ 1.0 1.1 Ho, Jonathan; Jain, Ajay; Abbeel, Pieter. Denoising Diffusion Probabilistic Models. 2020-06-19. arXiv:2006.11239 .
- ^ 2.0 2.1 Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben. Score-Based Generative Modeling through Stochastic Differential Equations. 2021-02-10. arXiv:2011.13456 [cs.LG].
- ^ Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining. Vector Quantized Diffusion Model for Text-to-Image Synthesis. 2021. arXiv:2111.14822 [cs.CV].
- ^ Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak. Diffusion models in vision: A survey. 2022. arXiv:2209.04747 [cs.CV].
- ^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya. Deep Unsupervised Learning using Nonequilibrium Thermodynamics (PDF). Proceedings of the 32nd International Conference on Machine Learning (PMLR). 2015-06-01, 37: 2256–2265 [2023-02-24]. (原始內容存檔 (PDF)於2023-04-05) (英語).
- ^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022. arXiv:2204.06125 [cs.CV].
- ^ Dhariwal, Prafulla; Nichol, Alex. Diffusion Models Beat GANs on Image Synthesis. 2021-06-01. arXiv:2105.05233 [cs.LG].
- ^ Ho, Jonathan; Salimans, Tim. Classifier-Free Diffusion Guidance. 2022-07-25. arXiv:2207.12598 [cs.LG].
- ^ Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. 2022-03-08. arXiv:2112.10741 [cs.CV].
- ^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022-04-12. arXiv:2204.06125 [cs.CV].
- ^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim; Ho, Jonathan; Fleet, David J.; Norouzi, Mohammad. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. 2022-05-23. arXiv:2205.11487 [cs.CV].