U-Net弗賴堡大學計算機科學係為生物醫學圖像分割開發的卷積神經網絡[1]其基於完全卷積網絡[2],並在結構上加以修改與擴展,使得它可以用更少的訓練圖像產生更精確的分割。在現代GPU上,分割一張512×512的圖像需要的時間不到一秒。

U-Net架構已經在擴散模型中採用,用於迭代式圖像去噪音[3]。這種技術位於很多現代圖像生成模型的底層,比如DALL-EMidjourneyStable Diffusion

描述

U-Net的結構源於Long、Shelhamer和Darrell提出的所謂「全卷積網絡」。[2]

其主要思想是通過連續的層來補充通常的收縮網絡,其中的匯集作業(Pooling Operation)代為升採樣操作。這些層成功增加了輸出的解析度。接著,一個連續的卷積層可以根據這些信息,組合成一個精確的輸出。[1]

U-Net的一個重要改變是,升採樣部分有大量特徵通道,這使得網絡可以將上下文信息傳播到更高的解析度層。因此,擴展路徑或多或少地同收縮部分對稱,並產生一個U形結構。該網絡只使用每個卷積的有效部分,沒有任何全連接層。[2]缺失的環境可通過鏡像翻轉輸入圖像來預測圖像邊界區域的像素,這種平鋪策略在網絡應用於大圖像時非常重要,否則解析度將受到GPU內存的限制。

歷史

U-Net首先由Olaf Ronneberger、Philipp Fischer、Thomas Brox於2015年在論文《U-Net:應用於生物醫學圖像分割的卷積網絡》中提出。 [1]U-Net是Evan Shelhamer、Jonathan Long、Trevor Darrell (2014)提出的FCN(Fully Convolutional Networks完全卷積網絡)的演進。[2]

網絡架構

U-Net網絡由一個收縮路徑(contracting path)和一個擴展路徑(expansive path)組成,使其具有U形結構。收縮路徑是一張典型的卷積網絡,包括卷積的重複應用,每個卷積之後都有一個線性整流函數單元(ReLU)和一個最大匯集作業(max pooling operation)。在收縮過程中,空間與特徵信息一減一增。擴張路徑通過連續的上卷積和與來自收縮路徑的高解析度特徵相連接來組合特徵與空間信息。[4]

 
U-Net結構示例,用於為256×256的RGB圖像產生k個256×256遮罩。

應用

U-Net在生物醫學圖像分割中有大量應用,如腦圖像分割(''BRATS''[5])、肝圖像分割("siliver07"[6])和蛋白質結合點預測等等。[7]U-Net的變體也被應用於醫學圖像重建。[8]下面是U-Net的部分變體及其應用:

  1. 基於U-Net的像素回歸及其在泛銳化上的應用:;[9]
  2. 3D U-Net:從稀疏標註學習密集體積分割;[10]
  3. TernausNet:在ImageNet上預先訓練的用於圖像分割的帶VGG11編碼器U-Net;[11]
  4. 估計螢光染色的圖到圖翻譯; [12]
  5. 蛋白質結構活性位點預測。[7]

參考文獻

  1. ^ 1.0 1.1 1.2 Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. 2015. arXiv:1505.04597  [cs.CV]. 
  2. ^ 2.0 2.1 2.2 2.3 Shelhamer E, Long J, Darrell T. Fully Convolutional Networks for Semantic Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017-04, 39 (4): 640–651. PMID 27244717. S2CID 1629541. arXiv:1411.4038 . doi:10.1109/TPAMI.2016.2572683. 
  3. ^ Ho, Jonathan. Denoising Diffusion Probabilistic Models. 2020. arXiv:2006.11239 . 
  4. ^ U-Net code. [2023-02-26]. (原始內容存檔於2015-06-20). 
  5. ^ MICCAI BraTS 2017: Scope | Section for Biomedical Image Analysis (SBIA) | Perelman School of Medicine at the University of Pennsylvania. www.med.upenn.edu. [2018-12-24]. (原始內容存檔於2017-05-25). 
  6. ^ SLIVER07 : Home. www.sliver07.org. [2018-12-24]. (原始內容存檔於2008-05-29). 
  7. ^ 7.0 7.1 Nazem F, Ghasemi F, Fassihi A, Dehnavi AM. 3D U-Net: A voxel-based method in binding site prediction of protein structure. Journal of Bioinformatics and Computational Biology. 2021-04, 19 (2): 2150006. PMID 33866960. doi:10.1142/S0219720021500062. 
  8. ^ Andersson J, Ahlström H, Kullberg J. Separation of water and fat signal in whole-body gradient echo scans using convolutional neural networks. Magnetic Resonance in Medicine. 2019-09, 82 (3): 1177–1186. PMC 6618066 . PMID 31033022. doi:10.1002/mrm.27786. 
  9. ^ Yao W, Zeng Z, Lian C, Tang H. Pixel-wise regression using U-Net and its application on pansharpening. Neurocomputing. 2018-10-27, 312: 364–371. ISSN 0925-2312. S2CID 207119255. doi:10.1016/j.neucom.2018.05.103. 
  10. ^ Çiçek Ö, Abdulkadir A, Lienkamp SS, Brox T, Ronneberger O. 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation. 2016. arXiv:1606.06650  [cs.CV]. 
  11. ^ Iglovikov V, Shvets A. TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation. 2018. arXiv:1801.05746  [cs.CV]. 
  12. ^ Kandel ME, He YR, Lee YJ, Chen TH, Sullivan KM, Aydin O, et al. Phase imaging with computational specificity (PICS) for measuring dry mass changes in sub-cellular compartments. Nature Communications. December 2020, 11 (1): 6256. PMC 7721808 . PMID 33288761. arXiv:2002.08361 . doi:10.1038/s41467-020-20062-x.