Explicació dels noms de ComfyUI

Unet

U-Net és un model d'aprenentatge profund que s'utilitza principalment per a tasques de segmentació d'imatges. Originalment es va proposar en el camp del processament d'imatges mèdiques, però ara s'aplica àmpliament a diverses tasques de processament d'imatges.

  • Estructura en forma de U: El nom U-Net prové de l'estructura en forma de U de la seva xarxa. Consisteix en un codificador (part de reducció de dimensions) i un decodificador (part d'augment de dimensions).
  • Codificador: El rol del codificador és extreure progressivament característiques de la imatge. Redueix la mida de la imatge mitjançant una sèrie de capes de convolució i agrupament, mentre augmenta la profunditat de les característiques (és a dir, el nombre de mapes de característiques). Aquest procés ajuda al model a capturar característiques de nivell superior de la imatge.
  • Decodificador: El rol del decodificador és reconstruir les característiques extretes pel codificador en un mapa de segmentació de la mateixa mida que la imatge d'entrada. Restaura progressivament la mida de la imatge mitjançant l'augment de dimensions (per exemple, convolució transposada) mentre combina les característiques del codificador per mantenir la informació de detall.
  • Connexions de salt: Una característica clau de U-Net és l'ús de connexions de salt, que connecten directament els mapes de característiques de certes capes del codificador amb les capes corresponents del decodificador. Això ajuda a mantenir la informació espacial, millorant així la precisió de la segmentació.

Aplicacions de U-Net

  • Segmentació d'imatges mèdiques: Per exemple, segmentar òrgans o tumors en imatges de TAC o RM.
  • Anàlisi d'imatges de satèl·lit: Com la classificació de l'ús del sòl.
  • Conducció autònoma: Identificació de carreteres, vehicles i vianants.

Resum

  • U-Net és un model de segmentació d'imatges potent que extreu i reconstrueix eficaçment les característiques de les imatges a través de la seva estructura única en forma de U i connexions de salt, fent-lo àmpliament aplicable en tasques que requereixen una segmentació precisa.
  • U-Net és una arquitectura de xarxa neuronal convolucional (CNN).
  • En moltes implementacions de models de difusió, U-Net s'utilitza com una xarxa de reducció de soroll. En el procés invers dels models de difusió, que és la fase de reducció de soroll, U-Net aprèn eficaçment com recuperar imatges clares a partir d'imatges sorolloses.

Models de difusió

Els models de difusió són models generatius que s'utilitzen principalment per generar imatges, àudio i altres dades. El seu principi de funcionament es pot dividir en dues fases principals: difusió avançada i difusió inversa.

  • Procés de difusió avançada: Aquest procés és similar a afegir progressivament soroll a una imatge. Imagina que tens una imatge clara, com un gat. Afegim progressivament soroll a aquesta imatge fins que es torna completament borrosa i aleatòria. Després de múltiples afegits de soroll, la imatge original és gairebé irreconegible, deixant només un munt de soroll aleatori. Exemple: Pots imaginar-te posar una foto clara d'un gat en una impressora i continuar esquitxant tinta sobre ella. Després de múltiples esquitxades d' tinta, acabes veient només un borrós negre.
  • Procés de difusió inversa: Aquest procés implica recuperar la imatge original a partir del soroll. El model aprèn com eliminar progressivament el soroll per restaurar una imatge clara. Aquest procés es realitza entrenant el model per aprendre a reduir el soroll en cada pas. Exemple: Imagina que tens un got de llet amb una mica de pols de xocolata afegida. Després de remenar, la llet es barreja completament, i és impossible veure el seu estat original. El procés invers és com separar progressivament la llet i la xocolata fins que tornin a ser distintes, retornant a l'estat original.

Aplicacions pràctiques dels models de difusió

  • Generació d'imatges: Utilitzant models de difusió per crear noves imatges, com ara generar pintures d'estil artístic o sintetitzar noves imatges de personatges. Per exemple, el model pot generar la cara d'una persona que no existeix o crear noves pintures de paisatges.
  • Restauració d'imatges: Els models de difusió es poden utilitzar per reparar parts d'imatges danyades o perdudes. Per exemple, si tens una foto antiga amb àrees descolorides, el model de difusió pot ajudar a omplir aquests buits, restaurant un aspecte més complet.
  • Generació de text a imatge: Alguns models de difusió poden generar imatges basades en descripcions textuals. Per exemple, si introdueixes "un gos jugant a la platja", el model generarà una imatge que coincideixi amb aquesta descripció.

Resum

La idea fonamental dels models de difusió és generar dades d'alta qualitat afegint soroll progressivament i reduint-lo. Han demostrat una efectivitat creixent en la generació d'imatges, restauració i altres aplicacions creatives. A través d'aquest mètode, podem crear moltes imatges i obres d'art que anteriorment eren inimaginables.

Models CLIP

El model CLIP s'utilitza per convertir text en un format (és a dir, embeddings) que U-Net pot entendre, permetent a U-Net generar imatges corresponents basades en les indicacions de text d'entrada.

VAE

U-Net s'utilitza sovint juntament amb Autoencoders Variacionals (VAE), que són responsables de convertir imatges en l'espai latent en l'espai de píxels visuals per a la visualització final de les imatges generades.

Recursos