(Stable Diffusion) انتشار پایدار: آموزش نصب و راه اندازی، هوش مصنوعی عکس رایگان

معرفی و آموزش نصب Stable Diffusion، یکی دیگر از ابزارهای هوش مصنوعی برای تبدیل متن به تصویر.

سعید کشاورز کرمانی (سردبیر)

لینک کپی شد!

باور کنید یا نه، امروزه یکی از شاخه‌های بزرگ در حال رشد فناوری، هوش مصنوعی است. پس ما به این موضوع برگشتیم تا یکی دیگر از نرم افزارهای هوش مصنوعی را به شما معرفی کنیم.

آرنولد شوارتزنگر، فیلم: The Expendables 2

انتشار پایدار (Stable Diffusion)

در سال 2022، Stability.ai یک مدل یادگیری عمیق به نام Stable Diffusion (انتشار پایدار) ساخت که می‌توانست کلمات را به تصویر تبدیل کند. علاوه بر تبدیل متن به تصویر، این هوش مصنوعی می‌تواند از روش تبدیل تصویر به تصویر نیز استفاده کند. Stable Diffusion این پتانسیل را دارد که دنیای هوش مصنوعی را متحول کند و افراد را قادر می‌سازد تا بدون دانش قبلی از برنامه‌نویسی یا ویرایش تصویر، به وسیله یک متن ساده تصاویری با ظاهر تولید کنند.

همانند Imagen گوگل، Stable Diffusion از یک رمزگذار متنی استاتیک CLIP ViT-L/14 برای آموزش مدل از طریق اعلان های متنی استفاده می کند.

به دنیای جذاب هوشمند سازی علاقه دارید؟! همچنین بخوانید:

Stable Diffusion فرآیند تولید تصویر را در زمان اجرا به یک فرآیند "Diffusion" یا "انتشار" تقسیم می کند. این روش یک عکس را از حالت اولیه و به هم ریخته و شلوغ می گیرد و شروع می‌کند به اصلاح آن تا جاییکه با توضیحات متنی مشخص شده مطابقت پیدا کند.

پاسخ انتشار پایدار به درخواست: اورا با موهای بلند تر جوان کن، با روش تصویر به تصویر.

سیستم مورد نیاز

سیستم عامل ویندوز 10/11
Nvidia GPU RTX با حداقل 12 گیگابایت VRAM
25 گیگابایت فضای دیسک محلی

توجه: یک GPU با حافظه بیشتر می‌تواند بدون نیاز به ارتقاء مقیاس، تصاویر بزرگتری تولید کند. این مدل همچنان می تواند حتی بر روی 8 گیگابایت VRAM اجرا شود، اما شما به وضوح 256x256 محدود خواهید شد.

می‌توانید از Stable Diffusion در رایانه شخصی خود و همچنین وب سایت Stability.ai استفاده کنید. با این حال، در رایانه شخصی، انتخاب‌های متعددی برای شخصی سازی تصویر خروجی وجود دارد.

می‌توانید آموزش نصب Stable Diffusion را در انتهای این پست مشاهده کنید.

تفاوت بین Stable Diffusion و Dall-E2 چیست؟

بسیاری از هوش مصنوعی‌های دیگر وجود دارند که تصاویر را از متن تولید می‌کنند. از معروفترین‌های آنها میتوان به Dall-E2 و midjourney اشاره کرد.

در 5 ژانویه 2021، OpenAI از Dall-E2، یک هوش مصنوعی برای تبدیل نوشته به تصویر، رونمایی کرد. Dall-E2 برای رمزگشایی ورودی‌های زبان انسان و تولید تصاویر بصری مرتبط، از یک نسخه آموزشی 12 میلیارد پارامتری از مدل ترانسفورماتور GPT-3 استفاده می‌کند.

همچنین بخوانید:

هر کدام از این دو هوش مصنوعی مزایا و معایب خاص خود را دارند. بنابراین، ما در اینجا به تعدادی از آنها اشاره می کنیم.

رایگان و متن باز (open source)

Stable Diffusion یک هوش مصنوعی کاملا رایگان است، در حالی که Dall-E2 رایگان نیست، که این خود یک تمایز قابل توجه است. متن باز بودن یکی دیگر از مزایای Stable Diffusion است.

متن باز بودن به این معنی است که کد منبع Stable Diffusion برای عموم در دسترس است که دقت و قابلیت اطمینان پلتفرم را تضمین می‌کند.

قدرت ایجاد تصاویر

هر دو برنامه فوق‌العاده قدرتمند هستند، اما Stable Diffusion تمایل به ایجاد تصاویری هنرمندانه‌تر و زیباتری دارد، در حالی که DALL-E2 گاهی اوقات ساده‌تر به نظر می‌رسد.

نتایج بین مناظر، افراد، آثار هنری، حیوانات و سایر پیام‌های متنی مانند روبات‌ها یا وسایل نقلیه آینده‌نگر متفاوت است، بنابراین بسیاری از موارد به نوع گرافیکی که ایجاد می‌کنید بستگی دارد. یکی از بهترین راه‌ها برای بهبود گرافیک، توجه به کلمات استفاده شده در این دو هوش مصنوعی است، مثل استفاده از کلماتی همچون «highly-detailed» یا «smooth» یا افزایش نسبت ابعاد تصاویر.

Dall e2 سمت چپ، Stable Diffusion راست: منظره، غروب آفتاب

وضوح تصاویر

اگرچه استیبل دیفیوژن در مورد تصاویر با وضوح بالاتر برتری دارد، ولی ما معتقدیم که هر یک از این فناوری‌های هوش مصنوعی فرصت‌های جالبی برای آزمایش طراحی و توسعه تصاویر ارائه می‌دهند. در مقایسه با DALL-E2 که حداکثر رزولوشن آن 1024 × 1024 است، استیبل دیفیوژن تصاویری با نسبت ابعاد تصویر مختلفی را می‌تواند ایجاد کند.

تصاویر چهره

از آنجایی که Dall-E2 دامنه وسیع تری دارد، ممکن است برای تولید تصاویر افراد واقعی (مانند افراد مشهور یا شخصیت‌های تاریخی) بهتر از استیبل دیفیوژن عمل کند.

Stable diffusion راست، چپDall-E 2، تصویر ایجاد شده: راجر فدرر در حال بازی تنیس

کاربردهای واقعی کدامند؟

جدای از لذت ایجاد برخی تصاویر با دقت در انتخاب کلمات، در اینجا سوال اصلی این وبلاگ مطرح می‌شود: "استفاده واقعی از Stable Diffusion AI چیست؟"

طراحی محصول و معماری

یکی از ویژگی‌های جذاب این هوش مصنوعی، مدل‌های تولید پیش طرح به طرح (اسکیس به طرح) و تصویر به تصویر است. معماران و طراحان محصولات می‌توانند از این ویژگی استفاده فراوانی داشته باشند.

بازاریابی

در Stable Diffusion، از آنجایی که شما حق کامل تصویر تولید شده را دارید، می توانید با اطمینان از آن در کمپین‌های تبلیغاتی خود استفاده کنید. با وجود سیستم، هوش مصنوعی و دستورات مناسب، ممکن است باعث صرفه جویی قابل توجهی در زمان پروژه نیز بشود.

بازی‌های ویدیویی

ایجاد پرتره برای بازی Age of Empires 3 edition mod
طراحی تصاویر به سبک کاشی کاری یا تایل

امنیت

برای استفاده در رسانه‌های اجتماعی و سایر پلتفرم‌های مبتنی بر تصویر، عکس‌های دارای افراد یا مکان‌های قابل تشخیص را می‌توان ویرایش کرد به طوری که آن فرد یا مکان را از تصویر حذف و ناشناس کنید. این فرآیند به عنوان ناشناس‌سازی (anonymization) شناخته می‌شود و هدف آن محافظت از حریم خصوصی افراد یا مکان‌ها است.

علوم

مدل Diffusion را می‌توان برای مجموعه داده‌های جعلی ام آر آی (Fake MRI Dataset) استفاده کرد. این فرآیندی است که در آن از مدل‌سازی انتشار برای تولید تصویربرداری از مغز استفاده می‌شود.