Penjelasan Nama ComfyUI
Unet
U-Net adalah model pembelajaran mendalam yang terutama digunakan untuk tugas segmentasi gambar. Awalnya diusulkan di bidang pemrosesan gambar medis tetapi kini telah banyak diterapkan pada berbagai tugas pemrosesan gambar.
- Struktur Bentuk U:
Nama U-Net berasal dari arsitektur berbentuk U dari jaringannya. Ini terdiri dari encoder (bagian pengurangan ukuran) dan decoder (bagian peningkatan ukuran).
- Encoder:
Peran encoder adalah secara bertahap mengekstrak fitur dari gambar. Ia mengurangi ukuran gambar langkah demi langkah melalui serangkaian lapisan konvolusi dan lapisan pooling sambil meningkatkan kedalaman fitur (yaitu, jumlah peta fitur). Proses ini membantu model menangkap fitur tingkat tinggi dari gambar.
- Decoder:
Fungsi decoder adalah mengembalikan fitur yang diekstrak oleh encoder kembali ke ukuran yang sama dengan gambar input untuk segmentasi. Ia secara progresif mengembalikan ukuran gambar melalui peningkatan ukuran (misalnya, konvolusi transpose) sambil menggabungkan fitur dari encoder untuk mempertahankan informasi detail.
- Koneksi Lompatan:
Fitur kunci dari U-Net adalah penggunaan koneksi lompatan, yang menghubungkan langsung peta fitur dari lapisan tertentu di encoder ke input lapisan yang sesuai di decoder. Ini membantu mempertahankan informasi spasial, sehingga meningkatkan akurasi segmentasi.
Aplikasi U-Net
- Segmentasi gambar medis: Misalnya, segmentasi organ atau tumor dalam gambar CT atau MRI.
- Analisis gambar satelit: Seperti klasifikasi penggunaan lahan.
- Mengemudi otonom: Mengidentifikasi jalan, kendaraan, dan pejalan kaki.
Ringkasan
- U-Net adalah model segmentasi gambar yang kuat yang secara efektif mengekstrak dan mengembalikan fitur gambar melalui struktur berbentuk U yang unik dan koneksi lompatan, banyak diterapkan dalam berbagai tugas yang memerlukan segmentasi yang tepat.
- U-Net adalah arsitektur jaringan saraf konvolusional (CNN).
- Dalam banyak implementasi model difusi, U-Net digunakan sebagai jaringan penghilang noise. Dalam proses balik model difusi, yaitu, fase penghilangan noise, U-Net dapat secara efektif belajar bagaimana memulihkan gambar jelas dari gambar yang berisik.
Model Difusi
Model difusi adalah model generatif yang terutama digunakan untuk menghasilkan gambar, audio, dan data lainnya. Prinsip kerjanya dapat dibagi menjadi dua tahap utama: difusi maju dan difusi balik.
- Proses Difusi Maju: Proses ini mirip dengan menambahkan noise secara bertahap ke sebuah gambar. Bayangkan Anda memiliki gambar yang jelas, seperti kucing. Kami secara bertahap menambahkan noise ke gambar ini hingga menjadi sepenuhnya kabur dan acak. Setelah beberapa kali penambahan noise, gambar asli hampir tidak terlihat, hanya menyisakan tumpukan noise acak.
Contoh: Anda dapat membayangkan memasukkan foto jelas seekor kucing ke dalam printer dan terus-menerus menumpahkan tinta di atasnya. Setelah banyak tumpahan, yang Anda lihat hanyalah massa hitam yang kabur.
- Proses Difusi Balik: Proses ini adalah tentang memulihkan gambar asli dari noise. Model belajar bagaimana secara bertahap menghilangkan noise untuk memulihkan gambar yang jelas. Proses ini dicapai dengan melatih model untuk belajar bagaimana menghilangkan noise di setiap langkah.
Contoh: Bayangkan Anda memiliki secangkir susu dengan beberapa bubuk cokelat yang ditambahkan. Setelah diaduk, susu menjadi sepenuhnya tercampur, dan Anda tidak dapat melihat bentuk aslinya. Proses balik adalah seperti secara bertahap memisahkan susu dan cokelat hingga kembali ke keadaan semula.
Aplikasi Praktis Model Difusi
- Generasi Gambar: Menggunakan model difusi untuk menghasilkan gambar baru, seperti menciptakan karya seni dalam gaya tertentu atau mensintesis gambar karakter baru. Misalnya, model dapat menghasilkan wajah orang yang tidak ada atau menciptakan lukisan pemandangan baru.
- Pemulihan Gambar: Model difusi dapat digunakan untuk memperbaiki bagian gambar yang rusak atau hilang. Misalnya, jika Anda memiliki foto lama dengan beberapa bagian yang memudar, model difusi dapat membantu mengisi kekosongan tersebut, mengembalikannya ke penampilan yang lebih lengkap.
- Generasi Gambar dari Teks: Beberapa model difusi dapat menghasilkan gambar berdasarkan deskripsi teks. Misalnya, jika Anda memasukkan "anjing bermain di pantai," model akan menghasilkan gambar yang sesuai dengan deskripsi ini.
Ringkasan
Ide dasar model difusi adalah untuk menghasilkan data berkualitas tinggi dengan secara progresif menambahkan dan menghilangkan noise. Mereka semakin baik dalam generasi gambar, pemulihan, dan aplikasi kreatif lainnya. Melalui metode ini, kita dapat menciptakan banyak gambar dan karya seni yang sebelumnya tidak terbayangkan.
Model Clip
Model CLIP digunakan untuk mengubah teks menjadi format yang dapat dipahami oleh UNet (yaitu, embedding), memungkinkan UNet untuk menghasilkan gambar yang sesuai berdasarkan prompt teks yang diberikan.
VAE
UNet sering digunakan bersamaan dengan Variational Autoencoders (VAE), yang bertanggung jawab untuk mengubah gambar dari ruang laten ke ruang piksel visual untuk presentasi akhir dari gambar yang dihasilkan.