شرح أسماء ComfyUI

Unet

U-Net هو نموذج تعلم عميق يستخدم بشكل أساسي لمهام تجزئة الصور. تم اقتراحه في الأصل في مجال معالجة الصور الطبية ولكنه تم تطبيقه الآن على نطاق واسع في مهام معالجة الصور المختلفة.

  • الهيكل على شكل حرف U: اسم U-Net يأتي من الهيكل على شكل حرف U لشبكته. يتكون من مشفر (جزء تقليل الحجم) ومفكك (جزء زيادة الحجم).
  • المشفر: دور المشفر هو استخراج الميزات من الصورة تدريجياً. يقلل من حجم الصورة من خلال سلسلة من الطبقات التلافيفية وطبقات التجميع مع زيادة عمق الميزات (أي، عدد خرائط الميزات). تساعد هذه العملية النموذج في التقاط الميزات عالية المستوى للصورة.
  • المفكك: دور المفكك هو إعادة بناء الميزات المستخرجة بواسطة المشفر إلى خريطة تجزئة بنفس حجم الصورة المدخلة. يستعيد حجم الصورة تدريجياً من خلال زيادة الحجم (مثل التلافيف المنقولة) بينما يجمع الميزات من المشفر للحفاظ على معلومات التفاصيل.
  • الاتصالات المتجاوزة: ميزة رئيسية من U-Net هي استخدام الاتصالات المتجاوزة، التي تربط مباشرة بين خرائط الميزات لبعض الطبقات في المشفر والطبقات المقابلة في المفكك. يساعد ذلك في الحفاظ على المعلومات المكانية، مما يحسن دقة التجزئة.

تطبيقات U-Net

  • تجزئة الصور الطبية: على سبيل المثال، تجزئة الأعضاء أو الأورام في صور CT أو MRI.
  • تحليل الصور الفضائية: مثل تصنيف استخدام الأراضي.
  • القيادة الذاتية: تحديد الطرق والمركبات والمشاة.

ملخص

  • U-Net هو نموذج قوي لتجزئة الصور يقوم بفعالية باستخراج وإعادة بناء ميزات الصور من خلال هيكله الفريد على شكل حرف U والاتصالات المتجاوزة، مما يجعله قابلاً للتطبيق على نطاق واسع في المهام التي تتطلب تجزئة دقيقة.
  • U-Net هو بنية شبكة عصبية تلافيفية (CNN).
  • في العديد من تطبيقات نماذج الانتشار، يتم استخدام U-Net كشبكة لإزالة الضوضاء. في العملية العكسية لنماذج الانتشار، وهي مرحلة إزالة الضوضاء، يتعلم U-Net بفعالية كيفية استعادة الصور الواضحة من الصور المليئة بالضوضاء.

نماذج الانتشار

نماذج الانتشار هي نماذج توليدية تُستخدم بشكل أساسي لتوليد الصور والصوت وبيانات أخرى. يمكن تقسيم مبدأ عملها إلى مرحلتين رئيسيتين: عملية الانتشار الأمامي وعملية الانتشار العكسي.

  • عملية الانتشار الأمامي: هذه العملية تشبه إضافة الضوضاء تدريجياً إلى صورة. تخيل أنك تمتلك صورة واضحة، مثل قطة. نقوم تدريجياً بإضافة الضوضاء إلى هذه الصورة حتى تصبح ضبابية وعشوائية تمامًا. بعد العديد من إضافات الضوضاء، تصبح الصورة الأصلية غير قابلة للتعرف تقريبًا، تاركة فقط كومة من الضوضاء العشوائية. مثال: يمكنك تخيل وضع صورة واضحة لقطة في طابعة ورقة ورش الحبر عليها باستمرار. بعد العديد من رشات الحبر، ينتهي بك الأمر برؤية مجرد فوضى سوداء ضبابية.
  • عملية الانتشار العكسي: هذه العملية تتضمن استعادة الصورة الأصلية من الضوضاء. يتعلم النموذج كيفية إزالة الضوضاء تدريجياً لاستعادة صورة واضحة. يتم تحقيق هذه العملية من خلال تدريب النموذج على تعلم كيفية إزالة الضوضاء في كل خطوة. مثال: تخيل أن لديك كوبًا من الحليب مع بعض مسحوق الشوكولاتة المضاف. بعد التحريك، يصبح الحليب مختلطًا تمامًا، ومن المستحيل رؤية حالته الأصلية. العملية العكسية تشبه فصل الحليب والشوكولاتة تدريجياً حتى يصبحا متميزين مرة أخرى، والعودة إلى حالتهما الأصلية.

التطبيقات العملية لنماذج الانتشار

  • توليد الصور: استخدام نماذج الانتشار لإنشاء صور جديدة، مثل توليد لوحات فنية بأسلوب فني أو توليد صور شخصيات جديدة. على سبيل المثال، يمكن للنموذج توليد وجه لشخص غير موجود أو إنشاء لوحات مناظر طبيعية جديدة.
  • استعادة الصور: يمكن استخدام نماذج الانتشار لإصلاح الأجزاء التالفة أو المفقودة من الصور. على سبيل المثال، إذا كان لديك صورة قديمة بها مناطق باهتة، يمكن لنموذج الانتشار ملء تلك الفجوات، واستعادة مظهر أكثر اكتمالًا.
  • توليد الصور من النص: يمكن لبعض نماذج الانتشار توليد صور بناءً على أوصاف نصية. على سبيل المثال، إذا قمت بإدخال "كلب يلعب على الشاطئ"، سيولد النموذج صورة تتطابق مع هذا الوصف.

ملخص

الفكرة الأساسية لنماذج الانتشار هي توليد بيانات عالية الجودة عن طريق إضافة الضوضاء تدريجياً وإزالة الضوضاء. لقد أظهرت فعالية متزايدة في توليد الصور، والاستعادة، وغيرها من التطبيقات الإبداعية. من خلال هذه الطريقة، يمكننا إنشاء العديد من الصور والأعمال الفنية التي كانت غير متخيلة سابقًا.

نماذج CLIP

نموذج CLIP يستخدم لتحويل النص إلى تنسيق (أي، تمثيلات) يمكن لـ U-Net فهمه، مما يمكّن U-Net من توليد الصور المقابلة بناءً على مطالبات النص المدخلة.

VAE

غالبًا ما يتم استخدام U-Net مع مشفرات تلقائية متغيرة (VAE)، التي تكون مسؤولة عن تحويل الصور في الفضاء الكامن إلى فضاء البكسل المرئي للعرض النهائي للصور المولدة.

الموارد