Explicació dels noms de ComfyUI

Unet

U-Net és un model d'aprenentatge profund principalment utilitzat per a tasques de segmentació d'imatges. Va ser proposat originalment en el camp del processament d'imatges mèdiques, però ara s'ha aplicat àmpliament a diverses tasques de processament d'imatges.

  • Estructura en forma de U: El nom U-Net prové de l'arquitectura en forma de U de la seva xarxa. Consisteix en un codificador (part de reducció de dimensions) i un decodificador (part d'augment de dimensions).
  • Codificador: El paper del codificador és extreure gradualment característiques de la imatge. Redueix la mida de la imatge pas a pas a través d'una sèrie de capes de convolució i capes de pooling mentre augmenta la profunditat de les característiques (és a dir, el nombre de mapes de característiques). Aquest procés ajuda el model a capturar característiques d'alt nivell de la imatge.
  • Decodificador: La funció del decodificador és restaurar les característiques extretes pel codificador de nou a la mateixa mida que la imatge d'entrada per a la segmentació. Restaura progressivament la mida de la imatge a través d'augment de dimensions (per exemple, convolució transposada) mentre combina característiques del codificador per mantenir la informació de detall.
  • Connexions de salt: Una característica clau de U-Net és l'ús de connexions de salt, que connecten directament mapes de característiques de certes capes del codificador amb les entrades de les capes corresponents del decodificador. Això ajuda a preservar la informació espacial, millorant així l'exactitud de la segmentació.

Aplicacions de U-Net

  • Segmentació d'imatges mèdiques: Per exemple, segmentar òrgans o tumors en imatges de TAC o Ressonància Magnètica.
  • Anàlisi d'imatges satèl·lit: Com la classificació d'ús del sòl.
  • Conducció autònoma: Identificació de carreteres, vehicles i vianants.

Resum

  • U-Net és un poderós model de segmentació d'imatges que extreu i restaura eficaçment característiques d'imatge a través de la seva única estructura en forma de U i connexions de salt, àmpliament aplicat en diverses tasques que requereixen una segmentació precisa.
  • U-Net és una arquitectura de xarxa neuronal convolucional (CNN).
  • En moltes implementacions de models de difusió, U-Net s'utilitza com a xarxa de desinfecció. En el procés invers del model de difusió, és a dir, la fase de desinfecció, U-Net pot aprendre eficaçment com recuperar imatges clares a partir d'imatges sorolloses.

Model de difusió

El model de difusió és un model generatiu principalment utilitzat per a generar imatges, àudio i altres dades. El seu principi de funcionament es pot dividir en dues etapes principals: difusió avançada i difusió inversa.

  • Procés de difusió avançada: Aquest procés és com afegir soroll progressivament a una imatge. Imagina que tens una imatge clara, com un gat. Afegim gradualment soroll a aquesta imatge fins que es torna completament borrosa i aleatòria. Després de múltiples afegits de soroll, la imatge original és gairebé invisible, deixant només un munt de soroll aleatori. Exemple: Pots imaginar que poses una foto clara d'un gat en una impressora i vesses contínuament tinta sobre ella. Després de molts vessaments, tot el que veus és una massa negra borrosa.
  • Procés de difusió inversa: Aquest procés tracta de recuperar la imatge original a partir del soroll. El model aprèn com eliminar gradualment el soroll per restaurar una imatge clara. Aquest procés s'aconsegueix entrenant el model per aprendre com eliminar el soroll en cada pas. Exemple: Imagina que tens una tassa de llet amb una mica de pols de xocolata afegida. Després de remenar, la llet es barreja completament i no pots veure la seva forma original. El procés invers és com separar gradualment la llet i la xocolata fins que tornin a l'estat original.

Aplicacions pràctiques dels models de difusió

  • Generació d'imatges: Utilitzant models de difusió per generar noves imatges, com crear obres d'art en un estil específic o sintetitzar noves imatges de personatges. Per exemple, el model pot generar la cara d'una persona que no existeix o crear pintures de paisatges noves.
  • Restauració d'imatges: Els models de difusió es poden utilitzar per reparar parts d'imatges danyades o mancants. Per exemple, si tens una foto antiga amb algunes parts esvaïdes, un model de difusió pot ajudar a omplir aquests buits, restaurant-la a una aparença més completa.
  • Generació de text a imatge: Alguns models de difusió poden generar imatges basades en descripcions de text. Per exemple, si introdueixes "un gos jugant a la platja", el model generarà una imatge que coincideix amb aquesta descripció.

Resum

La idea bàsica dels models de difusió és generar dades d'alta qualitat afegint i eliminant soroll de manera progressiva. Estan aconseguint resultats cada cop millors en generació d'imatges, restauració i altres aplicacions creatives. A través d'aquest mètode, podem crear moltes imatges i obres d'art que abans eren inimaginables.

Model Clip

El model CLIP s'utilitza per convertir text en un format que U-Net pugui entendre (és a dir, incorporacions), permetent que U-Net generi imatges corresponents basades en indicacions de text d'entrada.

VAE

U-Net s'utilitza sovint conjuntament amb Autoencoders Variacionals (VAE), que són responsables de convertir imatges de l'espai latent en l'espai visual de píxels per a la presentació final d'imatges generades.