Penjelasan Nama ComfyUI
Unet
U-Net adalah model pembelajaran mendalam yang terutama digunakan untuk tugas segmentasi gambar. Model ini awalnya diusulkan di bidang pemrosesan gambar medis tetapi kini telah diterapkan secara luas untuk berbagai tugas pemrosesan gambar.
- Struktur Bentuk U:
Nama U-Net berasal dari struktur berbentuk U dari jaringan ini. Jaringan ini terdiri dari encoder (bagian downsampling) dan decoder (bagian upsampling).
- Encoder:
Peran encoder adalah secara bertahap mengekstrak fitur dari gambar. Ia mengurangi ukuran gambar melalui serangkaian lapisan konvolusi dan pooling sambil meningkatkan kedalaman fitur (yaitu, jumlah peta fitur). Proses ini membantu model menangkap fitur tingkat tinggi dari gambar.
- Decoder:
Peran decoder adalah merekonstruksi fitur yang diambil oleh encoder menjadi peta segmentasi dengan ukuran yang sama dengan gambar input. Ia secara bertahap mengembalikan ukuran gambar melalui upsampling (misalnya, konvolusi transpos) sambil menggabungkan fitur dari encoder untuk mempertahankan informasi detail.
- Koneksi Skip:
Fitur kunci dari U-Net adalah penggunaan koneksi skip, yang menghubungkan langsung peta fitur dari lapisan tertentu di encoder ke lapisan yang sesuai di decoder. Ini membantu mempertahankan informasi spasial, sehingga meningkatkan akurasi segmentasi.
Aplikasi U-Net
- Segmentasi Gambar Medis: Misalnya, segmentasi organ atau tumor dalam gambar CT atau MRI.
- Analisis Gambar Satelit: Seperti klasifikasi penggunaan lahan.
- Mengemudi Otomatis: Mengidentifikasi jalan, kendaraan, dan pejalan kaki.
Ringkasan
- U-Net adalah model segmentasi gambar yang kuat yang secara efektif mengekstrak dan merekonstruksi fitur gambar melalui struktur berbentuk U yang unik dan koneksi skip, membuatnya sangat berguna dalam tugas yang memerlukan segmentasi yang tepat.
- U-Net adalah arsitektur jaringan saraf konvolusional (CNN).
- Dalam banyak implementasi model difusi, U-Net digunakan sebagai jaringan denoising. Dalam proses balik model difusi, yang merupakan fase denoising, U-Net secara efektif belajar bagaimana memulihkan gambar yang jelas dari gambar yang berisik.
Model Difusi
Model difusi adalah model generatif yang terutama digunakan untuk menghasilkan gambar, audio, dan data lainnya. Prinsip kerjanya dapat dibagi menjadi dua fase utama: proses difusi maju dan proses difusi balik.
- Proses Difusi Maju: Proses ini mirip dengan menambahkan kebisingan secara bertahap ke gambar. Bayangkan Anda memiliki gambar yang jelas, seperti kucing. Kami secara bertahap menambahkan kebisingan ke gambar ini sampai menjadi benar-benar kabur dan acak. Setelah beberapa penambahan kebisingan, gambar asli hampir tidak dapat dikenali, hanya menyisakan tumpukan kebisingan acak.
Contoh: Anda dapat membayangkan menempatkan foto jelas kucing ke dalam printer dan terus-menerus menyemprotkan tinta padanya. Setelah beberapa semprotan tinta, Anda akhirnya melihat hanya kekacauan hitam yang kabur.
- Proses Difusi Balik: Proses ini melibatkan pemulihan gambar asli dari kebisingan. Model belajar bagaimana secara progresif menghapus kebisingan untuk mengembalikan gambar yang jelas. Proses ini dilakukan dengan melatih model untuk belajar bagaimana mendenoise di setiap langkah.
Contoh: Bayangkan Anda memiliki segelas susu dengan sedikit bubuk cokelat ditambahkan. Setelah diaduk, susu menjadi sepenuhnya campur, dan tidak mungkin melihat keadaan aslinya. Proses balik adalah seperti secara bertahap memisahkan susu dan cokelat hingga mereka berbeda lagi, kembali ke keadaan aslinya.
Aplikasi Praktis Model Difusi
- Generasi Gambar: Menggunakan model difusi untuk membuat gambar baru, seperti menghasilkan lukisan gaya artistik atau mensintesis gambar karakter baru. Misalnya, model dapat menghasilkan wajah seseorang yang tidak ada atau membuat lukisan lanskap baru.
- Pemulihan Gambar: Model difusi dapat digunakan untuk memperbaiki bagian gambar yang rusak atau hilang. Misalnya, jika Anda memiliki foto lama dengan area yang pudar, model difusi dapat membantu mengisi celah tersebut, mengembalikan penampilan yang lebih utuh.
- Generasi Teks-ke-Gambar: Beberapa model difusi dapat menghasilkan gambar berdasarkan deskripsi teks. Misalnya, jika Anda memasukkan "anjing bermain di pantai," model akan menghasilkan gambar yang sesuai dengan deskripsi ini.
Ringkasan
Ide dasar model difusi adalah untuk menghasilkan data berkualitas tinggi dengan secara bertahap menambahkan kebisingan dan mendenoise. Mereka telah menunjukkan efektivitas yang meningkat dalam generasi gambar, pemulihan, dan aplikasi kreatif lainnya. Melalui metode ini, kita dapat menciptakan banyak gambar dan karya seni yang sebelumnya tidak dapat dibayangkan.
Model Clip
Model CLIP digunakan untuk mengonversi teks menjadi format (yaitu, embedding) yang dapat dipahami oleh U-Net, memungkinkan U-Net untuk menghasilkan gambar yang sesuai berdasarkan prompt teks input.
VAE
U-Net sering digunakan bersama dengan Variational Autoencoders (VAE), yang bertanggung jawab untuk mengonversi gambar dalam ruang laten menjadi ruang pixel visual untuk tampilan akhir gambar yang dihasilkan.
Sumber