(Stable Diffusion) انتشار پایدار: آموزش نصب و راه اندازی، هوش مصنوعی عکس رایگان
سعید کشاورز کرمانی (سردبیر)
باور کنید یا نه، امروزه یکی از شاخههای بزرگ در حال رشد فناوری، هوش مصنوعی است. پس ما به این موضوع برگشتیم تا یکی دیگر از نرم افزارهای هوش مصنوعی را به شما معرفی کنیم.
انتشار پایدار (Stable Diffusion)
در سال 2022، Stability.ai یک مدل یادگیری عمیق به نام Stable Diffusion (انتشار پایدار) ساخت که میتوانست کلمات را به تصویر تبدیل کند. علاوه بر تبدیل متن به تصویر، این هوش مصنوعی میتواند از روش تبدیل تصویر به تصویر نیز استفاده کند. Stable Diffusion این پتانسیل را دارد که دنیای هوش مصنوعی را متحول کند و افراد را قادر میسازد تا بدون دانش قبلی از برنامهنویسی یا ویرایش تصویر، به وسیله یک متن ساده تصاویری با ظاهر تولید کنند.
همانند Imagen گوگل، Stable Diffusion از یک رمزگذار متنی استاتیک CLIP ViT-L/14 برای آموزش مدل از طریق اعلان های متنی استفاده می کند.
به دنیای جذاب هوشمند سازی علاقه دارید؟! همچنین بخوانید:
Stable Diffusion فرآیند تولید تصویر را در زمان اجرا به یک فرآیند "Diffusion" یا "انتشار" تقسیم می کند. این روش یک عکس را از حالت اولیه و به هم ریخته و شلوغ می گیرد و شروع میکند به اصلاح آن تا جاییکه با توضیحات متنی مشخص شده مطابقت پیدا کند.
سیستم مورد نیاز
- سیستم عامل ویندوز 10/11
- Nvidia GPU RTX با حداقل 12 گیگابایت VRAM
- 25 گیگابایت فضای دیسک محلی
توجه: یک GPU با حافظه بیشتر میتواند بدون نیاز به ارتقاء مقیاس، تصاویر بزرگتری تولید کند. این مدل همچنان می تواند حتی بر روی 8 گیگابایت VRAM اجرا شود، اما شما به وضوح 256x256 محدود خواهید شد.
میتوانید از Stable Diffusion در رایانه شخصی خود و همچنین وب سایت Stability.ai استفاده کنید. با این حال، در رایانه شخصی، انتخابهای متعددی برای شخصی سازی تصویر خروجی وجود دارد.
میتوانید آموزش نصب Stable Diffusion را در انتهای این پست مشاهده کنید.
تفاوت بین Stable Diffusion و Dall-E2 چیست؟
بسیاری از هوش مصنوعیهای دیگر وجود دارند که تصاویر را از متن تولید میکنند. از معروفترینهای آنها میتوان به Dall-E2 و midjourney اشاره کرد.
در 5 ژانویه 2021، OpenAI از Dall-E2، یک هوش مصنوعی برای تبدیل نوشته به تصویر، رونمایی کرد. Dall-E2 برای رمزگشایی ورودیهای زبان انسان و تولید تصاویر بصری مرتبط، از یک نسخه آموزشی 12 میلیارد پارامتری از مدل ترانسفورماتور GPT-3 استفاده میکند.
همچنین بخوانید:
هر کدام از این دو هوش مصنوعی مزایا و معایب خاص خود را دارند. بنابراین، ما در اینجا به تعدادی از آنها اشاره می کنیم.
رایگان و متن باز (open source)
Stable Diffusion یک هوش مصنوعی کاملا رایگان است، در حالی که Dall-E2 رایگان نیست، که این خود یک تمایز قابل توجه است. متن باز بودن یکی دیگر از مزایای Stable Diffusion است.
متن باز بودن به این معنی است که کد منبع Stable Diffusion برای عموم در دسترس است که دقت و قابلیت اطمینان پلتفرم را تضمین میکند.
قدرت ایجاد تصاویر
هر دو برنامه فوقالعاده قدرتمند هستند، اما Stable Diffusion تمایل به ایجاد تصاویری هنرمندانهتر و زیباتری دارد، در حالی که DALL-E2 گاهی اوقات سادهتر به نظر میرسد.
نتایج بین مناظر، افراد، آثار هنری، حیوانات و سایر پیامهای متنی مانند روباتها یا وسایل نقلیه آیندهنگر متفاوت است، بنابراین بسیاری از موارد به نوع گرافیکی که ایجاد میکنید بستگی دارد. یکی از بهترین راهها برای بهبود گرافیک، توجه به کلمات استفاده شده در این دو هوش مصنوعی است، مثل استفاده از کلماتی همچون «highly-detailed» یا «smooth» یا افزایش نسبت ابعاد تصاویر.
وضوح تصاویر
اگرچه استیبل دیفیوژن در مورد تصاویر با وضوح بالاتر برتری دارد، ولی ما معتقدیم که هر یک از این فناوریهای هوش مصنوعی فرصتهای جالبی برای آزمایش طراحی و توسعه تصاویر ارائه میدهند. در مقایسه با DALL-E2 که حداکثر رزولوشن آن 1024 × 1024 است، استیبل دیفیوژن تصاویری با نسبت ابعاد تصویر مختلفی را میتواند ایجاد کند.
تصاویر چهره
از آنجایی که Dall-E2 دامنه وسیع تری دارد، ممکن است برای تولید تصاویر افراد واقعی (مانند افراد مشهور یا شخصیتهای تاریخی) بهتر از استیبل دیفیوژن عمل کند.
کاربردهای واقعی کدامند؟
جدای از لذت ایجاد برخی تصاویر با دقت در انتخاب کلمات، در اینجا سوال اصلی این وبلاگ مطرح میشود: "استفاده واقعی از Stable Diffusion AI چیست؟"
طراحی محصول و معماری
یکی از ویژگیهای جذاب این هوش مصنوعی، مدلهای تولید پیش طرح به طرح (اسکیس به طرح) و تصویر به تصویر است. معماران و طراحان محصولات میتوانند از این ویژگی استفاده فراوانی داشته باشند.
بازاریابی
در Stable Diffusion، از آنجایی که شما حق کامل تصویر تولید شده را دارید، می توانید با اطمینان از آن در کمپینهای تبلیغاتی خود استفاده کنید. با وجود سیستم، هوش مصنوعی و دستورات مناسب، ممکن است باعث صرفه جویی قابل توجهی در زمان پروژه نیز بشود.
بازیهای ویدیویی
- ایجاد پرتره برای بازی Age of Empires 3 edition mod
- طراحی تصاویر به سبک کاشی کاری یا تایل
امنیت
برای استفاده در رسانههای اجتماعی و سایر پلتفرمهای مبتنی بر تصویر، عکسهای دارای افراد یا مکانهای قابل تشخیص را میتوان ویرایش کرد به طوری که آن فرد یا مکان را از تصویر حذف و ناشناس کنید. این فرآیند به عنوان ناشناسسازی (anonymization) شناخته میشود و هدف آن محافظت از حریم خصوصی افراد یا مکانها است.
علوم
مدل Diffusion را میتوان برای مجموعه دادههای جعلی ام آر آی (Fake MRI Dataset) استفاده کرد. این فرآیندی است که در آن از مدلسازی انتشار برای تولید تصویربرداری از مغز استفاده میشود.
در مقالات زیر می توانید اطلاعات بیشتری در مورد مدلهای انتشار در زمینه استفاده در علوم و عصبشناسی بخوانید.
نحوه نصب Stable Diffusion
ویدیوی نصب و استفاده از Stable Diffusion: