多模態學習

多模態學習是一種深度學習方法。它整合和處理多種類型的數據，例如文本、音頻、圖像或視頻。這些不同類型的數據叫做模態。這種整合能夠更全面地理解複雜數據，從而提高模型在視覺問答、跨模態檢索^[1]、文本到圖像生成^[2]、美學排名^[3]和圖像字幕^[4]等任務中的性能。

2023年以來，多模態大語言模型（例如Google Gemini和GPT-4o）越來越受歡迎。它們能夠提高多功能性並更廣泛地理解現實世界中的現象^[5]。

動機

數據通常具有不同的模態，這些模態攜帶着不同的信息。例如，一張圖像可能有說明文字，這些說明文字可以傳達圖像本身未呈現的信息。同樣，有時用圖像來描述文本中可能不明顯的信息會更加直觀。因此，如果相似的圖像中出現了不同的文字，那麼這些文字很可能描述的是同一事物。反之，如果一個單詞被用來描述看似不同的圖像，那麼這些圖像可能代表的是同一個對象。

因此，在處理多模態數據的情況下，為了從這些模態中捕捉到綜合的信息，讓模型具有能夠處理不同模態信息的能力是非常重要的。

多模態Transformer模型

Transformer模型除了被用於經典的自然語言處理外，還可以被用於除去文本以外的其他模態（輸入或輸出）。為了達到這一目的，需要對這些除去文本以外的模態進行標記化。

多模態模型可以從零開始訓練，也可以通過微調現有模型實現。一項2022年的研究指出，僅在自然語言上預訓練的Transformer模型，通過微調僅0.03%的參數，就可以在多種邏輯和視覺任務上與長短期記憶模型競爭，展現出遷移學習的能力^[6]。例如，LLaVA是一個視覺-語言模型，由一個語言模型（Vicuna-13B）和一個視覺模型（ViT-L/14）組成，兩者通過一個線性層連接。微調只針對這個線性層進行^[7]。

視覺Transformer模型通過將輸入圖像分解為一系列圖像塊，將其轉化為向量，並像處理標準Transformer中的標記一樣對待，從而適配計算機視覺任務。

Conformer和後來的Whisper模型在語音識別中遵循類似的模式，首先將語音信號轉換為頻譜圖，然後將其視為圖像，分解為一系列圖像塊，轉化為向量，並像處理標準Transformer模型中的標記一樣對待。

在圖像生成領域，著名的的Transformer架構包括：DALL-E、Parti、Phenaki和Muse。其中，DALL-E 不是擴散模型（這與後來別的圖像生成模型不同），而是使用一個僅包含解碼器的Transformer模型，通過自回歸方式生成文本，隨後生成圖像的標記表示，最後通過變分自編碼器將標記表示轉化為圖像。Parti 是一個既有編碼器又有解碼器的Transformer模型，編碼器處理文本提示，解碼器生成圖像的標記表示。Muse 是一個僅包含編碼器的Transformer，訓練目標是從未遮掩的圖像標記中預測被遮掩的圖像標記。在生成圖像過程中，所有輸入標記都被遮掩，每次迭代中加入置信度最高的預測值，直到所有標記都被預測完成。Phenaki 是一個文本生成視頻模型，它是一個雙向遮掩的Transformer，以預先計算的文本標記為條件進行生成。生成的標記隨後被解碼為視頻。

多模態大語言模型

一種將大語言模型用於多模態模型的常見方法是對訓練好的編碼器的輸出進行「標記化」。具體來說，可以構建一個能夠理解圖像的大語言模型，方法如下：使用一個訓練好的大語言模型，並引入一個訓練好的圖像編碼器 $E$ 。再使用一個小型多層感知機 $f$ ，使得對於任意圖像 $y$ ，經過後處理的向量 $f(E(y))$ 具有與編碼標記相同的維度，成為一個「圖像標記」。隨後，可以交替插入文本標記和圖像標記。這個組合模型然後在圖像-文本數據集上進行微調。此基礎構造可以通過更複雜的方式進一步改進模型。在微調模型時，可以凍結圖像編碼器的參數以提高穩定性^[8]。

應用

多模態機器學習在各個領域有着廣泛的應用：

跨模態檢索

跨模態檢索允許用戶跨不同模態搜索數據（例如，根據文本描述檢索圖像），從而改進多媒體搜尋引擎和內容推薦系統。 CLIP（對比性語言-圖像預訓練）等模型通過將數據嵌入一個共享空間來實現高效、準確的檢索，即使在零樣本設置下也表現出強大的性能。 ^[9]

圖像生成

像 DALL-E 這樣的模型可以根據文本描述生成圖像，而跨模態檢索則可以實現動態多媒體搜索。 ^[10]

參見

參考資料

^ Hendriksen, Mariya; Bleeker, Maurits. Extending CLIP for Category-to-image Retrieval in E-commerce. 2021. arXiv:2112.11294  [cs.CV].
^ Stable Diffusion Repository on GitHub. CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022 [17 September 2022]. （原始內容存檔於January 18, 2023）.
^ LAION-AI/aesthetic-predictor, LAION AI, 2024-09-06 [2024-09-08], （原始內容存檔於2024-11-25）
^ Mokady, Ron; Hertz, Amir. ClipCap: CLIP Prefix for Image Captioning. 2021. arXiv:2111.09734  [cs.CV].
^ Zia, Tehseen. Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024. Unite.ai. January 8, 2024 [2024-06-01]. （原始內容存檔於2024-12-04）.
^ Lu, Kevin; Grover, Aditya; Abbeel, Pieter; Mordatch, Igor. Frozen Pretrained Transformers as Universal Computation Engines. Proceedings of the AAAI Conference on Artificial Intelligence. 2022-06-28, 36 (7): 7628–7636 [2024-12-07]. ISSN 2374-3468. doi:10.1609/aaai.v36i7.20729  . （原始內容存檔於2024-12-02）（英語）.
^ Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae. Visual Instruction Tuning. Advances in Neural Information Processing Systems. 2023-12-15, 36: 34892–34916 [2024-12-07]. （原始內容存檔於2024-09-26）（英語）.
^ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. 2023-01-01. arXiv:2301.12597  [cs.CV].
^ Hendriksen, Mariya; Vakulenko, Svitlana. Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study. 2023. arXiv:2301.05174  [cs.CV].
^ Shi, Yuge; Siddharth, N. Variational Mixture-of-Experts Autoencoders for Multi-Modal Deep Generative Models. 2019. arXiv:1911.03393  [cs.LG].

[1] Hendriksen, Mariya; Bleeker, Maurits. Extending CLIP for Category-to-image Retrieval in E-commerce. 2021. arXiv:2112.11294  [cs.CV].

[stable-diffusion-github-2] Stable Diffusion Repository on GitHub. CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022 [17 September 2022]. （原始內容存檔於January 18, 2023）.

[3] LAION-AI/aesthetic-predictor, LAION AI, 2024-09-06 [2024-09-08], （原始內容存檔於2024-11-25）

[4] Mokady, Ron; Hertz, Amir. ClipCap: CLIP Prefix for Image Captioning. 2021. arXiv:2111.09734  [cs.CV].

[5] Zia, Tehseen. Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024. Unite.ai. January 8, 2024 [2024-06-01]. （原始內容存檔於2024-12-04）.

[6] Lu, Kevin; Grover, Aditya; Abbeel, Pieter; Mordatch, Igor. Frozen Pretrained Transformers as Universal Computation Engines. Proceedings of the AAAI Conference on Artificial Intelligence. 2022-06-28, 36 (7): 7628–7636 [2024-12-07]. ISSN 2374-3468. doi:10.1609/aaai.v36i7.20729  . （原始內容存檔於2024-12-02）（英語）.

[7] Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae. Visual Instruction Tuning. Advances in Neural Information Processing Systems. 2023-12-15, 36: 34892–34916 [2024-12-07]. （原始內容存檔於2024-09-26）（英語）.

[8] Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. 2023-01-01. arXiv:2301.12597  [cs.CV].

[9] Hendriksen, Mariya; Vakulenko, Svitlana. Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study. 2023. arXiv:2301.05174  [cs.CV].

[10] Shi, Yuge; Siddharth, N. Variational Mixture-of-Experts Autoencoders for Multi-Modal Deep Generative Models. 2019. arXiv:1911.03393  [cs.LG].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]