ComfyUI 名稱解析

Unet

U-Net 是一種深度學習模型，主要用於圖像分割任務。它最初是在醫學影像處理領域提出的，但現在已廣泛應用於各種圖像處理任務。

U 形結構: U-Net 的名稱來自其網絡的 U 形結構。它由編碼器（降採樣部分）和解碼器（升採樣部分）組成。
編碼器: 編碼器的角色是逐步從圖像中提取特徵。它通過一系列卷積和池化層來減小圖像的大小，同時增加特徵的深度（即特徵圖的數量）。這個過程有助於模型捕捉圖像的高級特徵。
解碼器: 解碼器的角色是將編碼器提取的特徵重建成與輸入圖像相同大小的分割圖。它通過升採樣（例如，轉置卷積）逐步恢復圖像的大小，同時結合來自編碼器的特徵，以保持細節信息。
跳躍連接: U-Net 的一個關鍵特徵是使用跳躍連接，這些連接直接將編碼器中某些層的特徵圖與解碼器中相應的層連接。這有助於保持空間信息，從而提高分割準確性。

擴散模型是生成模型，主要用於生成圖像、音頻和其他數據。它們的工作原理可以分為兩個主要階段：前向擴散和反向擴散。

前向擴散過程：這個過程類似於逐漸向圖像添加噪聲。想像一下你有一張清晰的圖片，比如一隻貓。我們逐漸向這張圖片添加噪聲，直到它變得完全模糊和隨機。在多次添加噪聲之後，原始圖像幾乎無法辨認，只剩下一堆隨機噪聲。示例：你可以想像把一張清晰的貓的照片放進打印機，不斷地在上面潑墨。經過多次潑墨後，你最終看到的只是模糊的黑色混亂。
反向擴散過程：這個過程涉及從噪音中恢復原始圖像。模型學會如何逐步去除噪聲以恢復清晰圖像。這個過程是通過訓練模型學習如何在每一步進行去噪來實現的。示例：想像你有一杯牛奶，裡面添加了一些巧克力粉。攪拌後，牛奶完全混合，無法看到其原始狀態。反向過程就像逐漸將牛奶和巧克力分開，直到它們再次明顯，恢復到原始狀態。

擴散模型的基本思想是通過逐步添加噪聲和去噪來生成高品質的數據。它們在圖像生成、修復和其他創意應用中顯示出越來越高的效果。通過這種方法，我們可以創建許多以前難以想象的圖像和藝術作品。

CLIP 模型用於將文本轉換為 U-Net 可以理解的格式（即嵌入），使 U-Net 能夠根據輸入的文本提示生成相應的圖像。

U-Net 通常與變分自編碼器（VAE）一起使用，後者負責將潛在空間中的圖像轉換為可視像素空間，以便最終顯示生成的圖像。