تفسير أسماء ComfyUI
Unet
U-Net هو نموذج تعلم عميق يستخدم بشكل أساسي لمهام تقسيم الصور. تم اقتراحه في الأصل في مجال معالجة الصور الطبية ولكنه الآن تم تطبيقه على نطاق واسع في مهام معالجة الصور المختلفة.
- هيكل على شكل U:
اسم U-Net يأتي من الهيكل على شكل U لشبكته. يتكون من مشفر (جزء تقليل الحجم) ومفكك (جزء زيادة الحجم).
- المشفر:
دور المشفر هو استخراج الميزات من الصورة تدريجياً. يقلل من حجم الصورة خطوة بخطوة من خلال سلسلة من الطبقات التلافيفية وطبقات التجميع بينما يزيد من عمق الميزات (أي عدد خرائط الميزات). تساعد هذه العملية النموذج على التقاط الميزات عالية المستوى للصورة.
- المفكك:
وظيفة المفكك هي استعادة الميزات التي تم استخراجها بواسطة المشفر إلى نفس حجم الصورة المدخلة للتقسيم. يستعيد تدريجياً حجم الصورة من خلال زيادة الحجم (على سبيل المثال، من خلال الطي العكسي) بينما يجمع الميزات من المشفر للحفاظ على معلومات التفاصيل.
- الاتصالات المتجاوزة:
ميزة رئيسية في U-Net هي استخدام الاتصالات المتجاوزة، التي تربط مباشرة خرائط الميزات من طبقات معينة من المشفر بمدخلات الطبقات المقابلة في المفكك. يساعد ذلك في الحفاظ على المعلومات المكانية، مما يحسن دقة التقسيم.
تطبيقات U-Net
- تقسيم الصور الطبية: على سبيل المثال، تقسيم الأعضاء أو الأورام في صور الأشعة المقطعية أو صور الرنين المغناطيسي.
- تحليل صور الأقمار الصناعية: مثل تصنيف استخدام الأراضي.
- القيادة الذاتية: تحديد الطرق والمركبات والمشاة.
ملخص
- U-Net هو نموذج قوي لتقسيم الصور يستخرج ويستعيد ميزات الصورة بفعالية من خلال هيكله الفريد على شكل U والاتصالات المتجاوزة، ويستخدم على نطاق واسع في مهام مختلفة تتطلب تقسيمًا دقيقًا.
- U-Net هو هيكل شبكة عصبية تلافيفية (CNN).
- في العديد من تطبيقات نماذج الانتشار، يتم استخدام U-Net كشبكة لإزالة الضوضاء. في العملية العكسية لنموذج الانتشار، أي المرحلة الخاصة بإزالة الضوضاء، يمكن لـ U-Net تعلم كيفية استعادة الصور الواضحة من الصور المشوشة.
نموذج الانتشار
نموذج الانتشار هو نموذج توليدي يستخدم بشكل رئيسي لتوليد الصور والصوت وبيانات أخرى. يمكن تقسيم مبدأ عمله إلى مرحلتين رئيسيتين: الانتشار الأمامي والانتشار العكسي.
- عملية الانتشار الأمامي: تشبه هذه العملية إضافة الضوضاء تدريجياً إلى صورة. تخيل أن لديك صورة واضحة، مثل قطة. نقوم بإضافة الضوضاء تدريجياً إلى هذه الصورة حتى تصبح ضبابية وعشوائية تمامًا. بعد عدة إضافات للضوضاء، تصبح الصورة الأصلية شبه غير مرئية، تاركةً فقط كومة من الضوضاء العشوائية.
مثال: يمكنك تخيل وضع صورة واضحة لقطة في طابعة وسكب الحبر عليها باستمرار. بعد العديد من الانسكابات، كل ما تراه هو كتلة سوداء ضبابية.
- عملية الانتشار العكسي: تتعلق هذه العملية باستعادة الصورة الأصلية من الضوضاء. يتعلم النموذج كيفية إزالة الضوضاء تدريجياً لاستعادة صورة واضحة. يتم تحقيق هذه العملية من خلال تدريب النموذج على تعلم كيفية إزالة الضوضاء في كل خطوة.
مثال: تخيل أن لديك كوبًا من الحليب مع بعض مسحوق الشوكولاتة المضاف. بعد التحريك، يصبح الحليب مختلطًا تمامًا، ولا يمكنك رؤية شكله الأصلي. تعتبر العملية العكسية مثل فصل الحليب والشوكولاتة تدريجياً حتى يعودا إلى حالتهما الأصلية.
التطبيقات العملية لنماذج الانتشار
- توليد الصور: استخدام نماذج الانتشار لتوليد صور جديدة، مثل إنشاء أعمال فنية بأسلوب معين أو تركيب صور شخصيات جديدة. على سبيل المثال، يمكن للنموذج توليد وجه شخص غير موجود أو إنشاء لوحات مناظر طبيعية جديدة.
- استعادة الصور: يمكن استخدام نماذج الانتشار لإصلاح أجزاء تالفة أو مفقودة من صورة. على سبيل المثال، إذا كان لديك صورة قديمة مع بعض الأجزاء الباهتة، يمكن لنموذج الانتشار مساعدتك في ملء تلك الفجوات، واستعادتها إلى مظهر أكثر اكتمالًا.
- توليد الصور من النص: يمكن لبعض نماذج الانتشار توليد صور بناءً على أوصاف نصية. على سبيل المثال، إذا أدخلت "كلب يلعب على الشاطئ"، سيقوم النموذج بتوليد صورة تتناسب مع هذا الوصف.
ملخص
الفكرة الأساسية لنماذج الانتشار هي توليد بيانات عالية الجودة من خلال إضافة وإزالة الضوضاء تدريجياً. إنها تحقق أداءً متزايدًا في توليد الصور واستعادتها وتطبيقات إبداعية أخرى. من خلال هذه الطريقة، يمكننا إنشاء العديد من الصور والأعمال الفنية التي كانت غير قابلة للتخيل سابقًا.
نموذج Clip
نموذج CLIP يستخدم لتحويل النص إلى تنسيق يمكن لـ UNet فهمه (أي، تضمينات)، مما يسمح لـ UNet بتوليد الصور المقابلة بناءً على مطالبات النص المدخلة.
VAE
غالبًا ما يتم استخدام UNet جنبًا إلى جنب مع المشفرات التلقائية المتغيرة (VAE)، المسؤولة عن تحويل الصور من الفضاء الكامن إلى الفضاء البصري البكسلي للعرض النهائي للصور المولدة.