Penjelasan Nama ComfyUI
Unet
U-Net adalah model pembelajaran mendalam yang terutama digunakan untuk tugas segmentasi gambar. Awalnya diusulkan di bidang pemrosesan gambar medis tetapi kini telah diterapkan secara luas dalam berbagai tugas pemrosesan gambar.
- Struktur Bentuk U:
Nama U-Net berasal dari arsitektur berbentuk U dari jaringannya. Ini terdiri dari encoder (bagian penurunan ukuran) dan decoder (bagian peningkatan ukuran).
- Encoder:
Peran encoder adalah secara bertahap mengekstrak fitur dari gambar. Ini mengurangi ukuran gambar langkah demi langkah melalui serangkaian lapisan konvolusi dan lapisan pooling sambil meningkatkan kedalaman fitur (yaitu, jumlah peta fitur). Proses ini membantu model menangkap fitur tingkat tinggi dari gambar.
- Decoder:
Fungsi decoder adalah mengembalikan fitur yang diekstrak oleh encoder kembali ke ukuran yang sama dengan gambar input untuk segmentasi. Ini secara progresif mengembalikan ukuran gambar melalui peningkatan ukuran (misalnya, konvolusi terbalik) sambil menggabungkan fitur dari encoder untuk mempertahankan informasi detail.
- Koneksi Langsung:
Fitur kunci dari U-Net adalah penggunaan koneksi langsung, yang menghubungkan secara langsung peta fitur dari lapisan tertentu di encoder ke input lapisan yang sesuai di decoder. Ini membantu mempertahankan informasi spasial, sehingga meningkatkan akurasi segmentasi.
Aplikasi U-Net
- Segmentasi gambar medis: Misalnya, segmentasi organ atau tumor dalam gambar CT atau MRI.
- Analisis gambar satelit: Seperti klasifikasi penggunaan lahan.
- Mengemudi otonom: Mengidentifikasi jalan, kendaraan, dan pejalan kaki.
Ringkasan
- U-Net adalah model segmentasi gambar yang kuat yang secara efektif mengekstrak dan mengembalikan fitur gambar melalui struktur berbentuk U yang unik dan koneksi langsung, diterapkan secara luas dalam berbagai tugas yang memerlukan segmentasi yang tepat.
- U-Net adalah arsitektur jaringan saraf konvolusional (CNN).
- Dalam banyak implementasi model difusi, U-Net digunakan sebagai jaringan penghilangan noise. Dalam proses kebalikan model difusi, yaitu, fase penghilangan noise, U-Net dapat secara efektif belajar bagaimana memulihkan gambar yang jelas dari gambar yang berisik.
Model Difusi
Model difusi adalah model generatif yang terutama digunakan untuk menghasilkan gambar, audio, dan data lainnya. Prinsip kerjanya dapat dibagi menjadi dua tahap utama: difusi maju dan difusi balik.
- Proses Difusi Maju: Proses ini mirip dengan menambahkan noise secara bertahap pada sebuah gambar. Bayangkan Anda memiliki gambar yang jelas, seperti kucing. Kami secara bertahap menambahkan noise ke gambar ini hingga menjadi sepenuhnya buram dan acak. Setelah beberapa penambahan noise, gambar aslinya hampir tidak terlihat, meninggalkan hanya tumpukan noise acak.
Contoh: Anda dapat membayangkan menempatkan foto kucing yang jelas ke dalam printer dan terus-menerus menumpahkan tinta di atasnya. Setelah banyak tumpahan, yang Anda lihat hanyalah massa hitam yang buram.
- Proses Difusi Balik: Proses ini berkaitan dengan memulihkan gambar asli dari noise. Model belajar bagaimana secara bertahap menghilangkan noise untuk mengembalikan gambar yang jelas. Proses ini dilakukan dengan melatih model untuk belajar bagaimana menghilangkan noise di setiap langkah.
Contoh: Bayangkan Anda memiliki secangkir susu dengan sedikit bubuk cokelat yang ditambahkan. Setelah diaduk, susu menjadi sepenuhnya tercampur, dan Anda tidak dapat melihat bentuk aslinya. Proses balik adalah seperti secara bertahap memisahkan susu dan cokelat hingga kembali ke keadaan semula.
Aplikasi Praktis Model Difusi
- Generasi Gambar: Menggunakan model difusi untuk menghasilkan gambar baru, seperti menciptakan karya seni dalam gaya tertentu atau mensintesis gambar karakter baru. Misalnya, model dapat menghasilkan wajah orang yang tidak ada atau menciptakan lukisan pemandangan baru.
- Restorasi Gambar: Model difusi dapat digunakan untuk memperbaiki bagian gambar yang rusak atau hilang. Misalnya, jika Anda memiliki foto lama dengan beberapa bagian yang pudar, model difusi dapat membantu mengisi kekosongan tersebut, mengembalikannya menjadi tampak lebih utuh.
- Generasi Gambar dari Teks: Beberapa model difusi dapat menghasilkan gambar berdasarkan deskripsi teks. Misalnya, jika Anda memasukkan "anjing bermain di pantai," model akan menghasilkan gambar yang sesuai dengan deskripsi ini.
Ringkasan
Ide dasar dari model difusi adalah untuk menghasilkan data berkualitas tinggi dengan secara bertahap menambahkan dan menghilangkan noise. Mereka semakin baik dalam generasi gambar, restorasi, dan aplikasi kreatif lainnya. Melalui metode ini, kita dapat menciptakan banyak gambar dan karya seni yang sebelumnya tidak terbayangkan.
Model Clip
Model CLIP digunakan untuk mengubah teks menjadi format yang dapat dipahami oleh UNet (yaitu, embeddings), memungkinkan UNet untuk menghasilkan gambar yang sesuai berdasarkan petunjuk teks yang dimasukkan.
VAE
UNet sering digunakan bersamaan dengan Variational Autoencoders (VAE), yang bertanggung jawab untuk mengubah gambar dari ruang laten ke ruang piksel visual untuk presentasi akhir dari gambar yang dihasilkan.