(Stable Diffusion) انتشار پایدار: آموزش نصب و راه اندازی، هوش مصنوعی عکس رایگان

معرفی و آموزش نصب Stable Diffusion، یکی دیگر از ابزارهای هوش مصنوعی برای تبدیل متن به تصویر.
هوش‌ مصنوعی
author

سعید کشاورز کرمانی (سردبیر)

لینک کپی شد!
لوگوی stability.ai
لوگوی stability.ai

باور کنید یا نه، امروزه یکی از شاخه‌های بزرگ در حال رشد فناوری، هوش مصنوعی است. پس ما به این موضوع برگشتیم تا یکی دیگر از نرم افزارهای هوش مصنوعی را به شما معرفی کنیم.

آرنولد شوارتزنگر، فیلم: The Expendables 2
آرنولد شوارتزنگر، فیلم: The Expendables 2

انتشار پایدار (Stable Diffusion)

در سال 2022، Stability.ai یک مدل یادگیری عمیق به نام Stable Diffusion (انتشار پایدار) ساخت که می‌توانست کلمات را به تصویر تبدیل کند. علاوه بر تبدیل متن به تصویر، این هوش مصنوعی می‌تواند از روش تبدیل تصویر به تصویر نیز استفاده کند. Stable Diffusion این پتانسیل را دارد که دنیای هوش مصنوعی را متحول کند و افراد را قادر می‌سازد تا بدون دانش قبلی از برنامه‌نویسی یا ویرایش تصویر، به وسیله یک متن ساده تصاویری با ظاهر تولید کنند.

همانند Imagen گوگل، Stable Diffusion از یک رمزگذار متنی استاتیک CLIP ViT-L/14 برای آموزش مدل از طریق اعلان های متنی استفاده می کند.

به دنیای جذاب هوشمند سازی علاقه دارید؟! همچنین بخوانید:

انقلاب صنعتی چهارم: هوشمند سازی صنایع و معادن
انقلاب صنعتی واژه‌ای است که امروزه طیف گسترده‌ای از مشاغل و کسب و کارها را درگیر خودش کرده. در این مقاله با ابعاد مختلف انقلاب صنعتی چهارم آشنا شوید.

Stable Diffusion فرآیند تولید تصویر را در زمان اجرا به یک فرآیند "Diffusion" یا "انتشار" تقسیم می کند. این روش یک عکس را از حالت اولیه و به هم ریخته و شلوغ می گیرد و شروع می‌کند به اصلاح آن تا جاییکه با توضیحات متنی مشخص شده مطابقت پیدا کند.


سیستم مورد نیاز

  • سیستم عامل ویندوز 10/11
  • Nvidia GPU RTX با حداقل 12 گیگابایت VRAM
  • 25 گیگابایت فضای دیسک محلی

توجه: یک GPU با حافظه بیشتر می‌تواند بدون نیاز به ارتقاء مقیاس، تصاویر بزرگتری تولید کند. این مدل همچنان می تواند حتی بر روی 8 گیگابایت VRAM اجرا شود، اما شما به وضوح 256x256 محدود خواهید شد.

می‌توانید از Stable Diffusion در رایانه شخصی خود و همچنین وب سایت Stability.ai استفاده کنید. با این حال، در رایانه شخصی، انتخاب‌های متعددی برای شخصی سازی تصویر خروجی وجود دارد.

می‌توانید آموزش نصب Stable Diffusion را در انتهای این پست مشاهده کنید.

تفاوت بین Stable Diffusion و Dall-E2 چیست؟

Stable Diffusion & Dall-E 2
Stable Diffusion & Dall-E 2

بسیاری از هوش مصنوعی‌های دیگر وجود دارند که تصاویر را از متن تولید می‌کنند. از معروفترین‌های آنها میتوان به Dall-E2 و midjourney اشاره کرد.

در 5 ژانویه 2021، OpenAI از Dall-E2، یک هوش مصنوعی برای تبدیل نوشته به تصویر، رونمایی کرد. Dall-E2 برای رمزگشایی ورودی‌های زبان انسان و تولید تصاویر بصری مرتبط، از یک نسخه آموزشی 12 میلیارد پارامتری از مدل ترانسفورماتور GPT-3 استفاده می‌کند.

همچنین بخوانید:

آموزش استفاده از Remini AI: تصویر بچه آینده خود را رایگان بسازید - یک تجربه سرگرم کننده!
اگر دوست دارید با هوش مصنوعی به آینده سرک بکشید با ما همراه باشید!!! آموزش نصب و استفاده از رمینی.

هر کدام از این دو هوش مصنوعی مزایا و معایب خاص خود را دارند. بنابراین، ما در اینجا به تعدادی از آنها اشاره می کنیم.

رایگان و متن باز (open source)

Stable Diffusion یک هوش مصنوعی کاملا رایگان است، در حالی که Dall-E2 رایگان نیست، که این خود یک تمایز قابل توجه است. متن باز بودن یکی دیگر از مزایای Stable Diffusion است.

متن باز بودن به این معنی است که کد منبع Stable Diffusion برای عموم در دسترس است که دقت و قابلیت اطمینان پلتفرم را تضمین می‌کند.

قدرت ایجاد تصاویر

هر دو برنامه فوق‌العاده قدرتمند هستند، اما Stable Diffusion تمایل به ایجاد تصاویری هنرمندانه‌تر و زیباتری دارد، در حالی که DALL-E2 گاهی اوقات ساده‌تر به نظر می‌رسد.

نتایج بین مناظر، افراد، آثار هنری، حیوانات و سایر پیام‌های متنی مانند روبات‌ها یا وسایل نقلیه آینده‌نگر متفاوت است، بنابراین بسیاری از موارد به نوع گرافیکی که ایجاد می‌کنید بستگی دارد. یکی از بهترین راه‌ها برای بهبود گرافیک، توجه به کلمات استفاده شده در این دو هوش مصنوعی است، مثل استفاده از کلماتی همچون «highly-detailed» یا «smooth» یا افزایش نسبت ابعاد تصاویر.

وضوح تصاویر

اگرچه استیبل دیفیوژن در مورد تصاویر با وضوح بالاتر برتری دارد، ولی ما معتقدیم که هر یک از این فناوری‌های هوش مصنوعی فرصت‌های جالبی برای آزمایش طراحی و توسعه تصاویر ارائه می‌دهند. در مقایسه با DALL-E2 که حداکثر رزولوشن آن 1024  × 1024 است، استیبل دیفیوژن تصاویری با نسبت ابعاد تصویر مختلفی را می‌تواند ایجاد کند.

تصاویر چهره

از آنجایی که Dall-E2 دامنه وسیع تری دارد، ممکن است برای تولید تصاویر افراد واقعی (مانند افراد مشهور یا شخصیت‌های تاریخی) بهتر از استیبل دیفیوژن عمل کند.

کاربردهای واقعی کدامند؟

جدای از لذت ایجاد برخی تصاویر با دقت در انتخاب کلمات، در اینجا سوال اصلی این وبلاگ مطرح می‌شود: "استفاده واقعی از Stable Diffusion AI چیست؟"

طراحی محصول و معماری

یکی از ویژگی‌های جذاب این هوش مصنوعی، مدل‌های تولید پیش طرح به طرح (اسکیس به طرح) و تصویر به تصویر است. معماران و طراحان محصولات می‌توانند از این ویژگی استفاده فراوانی داشته باشند.

بازاریابی


در Stable Diffusion، از آنجایی که شما حق کامل تصویر تولید شده را دارید، می توانید با اطمینان از آن در کمپین‌های تبلیغاتی خود استفاده کنید. با وجود سیستم، هوش مصنوعی و دستورات مناسب، ممکن است باعث صرفه جویی قابل توجهی در زمان پروژه نیز بشود.

بازی‌های ویدیویی

  • ایجاد پرتره برای بازی Age of Empires 3 edition mod
  • طراحی تصاویر به سبک کاشی کاری یا تایل

امنیت

برای استفاده در رسانه‌های اجتماعی و سایر پلتفرم‌های مبتنی بر تصویر، عکس‌های دارای افراد یا مکان‌های قابل تشخیص را می‌توان ویرایش کرد به طوری که آن فرد یا مکان را از تصویر حذف و ناشناس کنید. این فرآیند به عنوان ناشناس‌سازی (anonymization) شناخته می‌شود و هدف آن محافظت از حریم خصوصی افراد یا مکان‌ها است.

علوم

مدل Diffusion را می‌توان برای مجموعه داده‌های جعلی ام آر آی (Fake MRI Dataset) استفاده کرد. این فرآیندی است که در آن از مدل‌سازی انتشار برای تولید تصویربرداری از مغز استفاده می‌شود.

MRIجعلی ایجاد شده توسط stable diffusion
MRIجعلی ایجاد شده توسط stable diffusion

در مقالات زیر می توانید اطلاعات بیشتری در مورد مدل‌های انتشار در زمینه استفاده در علوم و عصب‌شناسی بخوانید.

Brain Imaging Generation with Latent Diffusion Models
Deep neural networks have brought remarkable breakthroughs in medical imageanalysis. However, due to their data-hungry nature, the modest dataset sizes inmedical imaging projects might be hindering their full potential. Generatingsynthetic data provides a promising alternative, allowing to comple…
LDM 100k Dataset
AI-generated high-resolution Brain MRI imaging data comprising of 100k subjects, with associated information such as age, sex, and brain size normalised by head size (surrogate of atrophy). The data was generated using a 3D Latent Diffusion Model. The model was trained on the Cambridge-1 Super Compu…

نحوه نصب Stable Diffusion

ویدیوی نصب و استفاده از Stable Diffusion:

مقالات مرتبط