جمینای (Gemini)، بزرگترین مدل زبانی هوش مصنوعی گوگل
سعید کشاورز کرمانی (سردبیر)
"اکنون آغاز عصر جمینای است. جمینای، بزرگترین و موفقترین مدل هوش مصنوعی ماست. این به این معناست که جمینای میتواند دنیای اطراف ما را با روشهایی شبیه به انسان درک کند. این مدل هر نوع ورودی را تحلیل کرده و انواع خروجی را ارائه میدهد، نه تنها متن، بلکه کد کامپیوتری، صدا، تصویر و ویدیو را هم تحلیل میکند. مسئله شگفتانگیز در مورد جمینای این است که در همه زمینهها فوق العاده عمل میکند. به عنوان مثال، در هر یک از ۵۰ حوزه مختلفی که آزمایش کردیم، عملکرد آن مانند بهترین افراد متخصص آن رشته بوده است."
این ادعای بزرگ دمیس هاسابیس، مدیر عامل دیپ میاند (DeepMind) گوگل است که نوید بخش ظهور بزرگترین و عجیبترین هوش مصنوعی با نام جمینای (Gemini) ساخته شرکت گوگل میباشد. درباره ویژگیهای فنی جمینای در آینده نزدیک و بعد از انتشار عمومی نسخه اصلی آن دقیقتر صحبت خواهیم کرد، اما در این پست قصد داریم قدرت حیرتانگیز این هوش منصوعی را بررسی کنیم.
با فوتولب، یکی از قویترین هوش مصنوعیهای تصویری آشنا شوید:
نام جمینای از کجا آمد؟
کلمه Gemini به معنی برج جوزا یا همان دوپیکر است. در برخی اسطورههای یونانی و رومی، این دو پیکر به صورت دو جوان وصف شدهاند، پولوکس که در واقع فناناپذیر است، به تناوب جایگاه آسمانی خود را با برادرش کاستور عوض میکند و زئوس به پاس عشق و محبت فراوان این دو برادر به هم، آنها را در آسمان کنار هم قرار میدهد. تصویر این صورت فلکی به صورت دو پسر یا دو مرد جوان یا دو اسبسوار در کنار هم بر سکههای یونان و روم باستان نقش بسته است. یونانیها این صورت فلکی را با نام Didymoi، به معنی دوقلوها میشناختند که بعدها به صورت Gemini، به همین معنی، به زبان لاتین راه یافت. شاید بتوانیم بگوییم که این دو برادر نماد هوش انسانی و هوش مصنوعی هستند که کم کم هوش مصنوعی در بسیاری زمینهها جانشین هوش انسانی خواهد شد، البته این تنها یک فرضیه است.
از طرف دیگر شاید حرف G اول Gemini و مشارکت آن با حرف G در برند گوگل هم بی تاثیر در انتخاب این اسم نبوده باشد.
اگر به دنیای هوش مصنوعی و شگفتیهای آن علاقهمند هستید سایر مقالات ما را از دست ندهید:
نوآوری جمینای در چیست؟
به احتمال زیاد قبلا با دنیای هیجانانگیز هوش مصنوعی آشنا شدهاید و از چند هوش مصنوعی برای کارهای روزانه خود یا صرفا از روی کنجکاوی استفاده کردهاید که قابلیت گفت گوی متنی یا تبدیل متن به عکس را داشتهاند. یا برخی از آنها را دیدهاید که چند قابلیت را با هم ارائه میدهند.
اما برگ برنده جمینای، مالتی مودال بودن آن است. مالتی مودال یعنی چی؟!
اصطلاح مالتی مودال یا چند مدیا بودن، به سیستمهای هوش مصنوعی اشاره دارد که میتوانند انواع مختلف دادهها مانند متن، تصویر، صدا، ویدیو و دادههای عددی را درک و پردازش کنند. در نتیجه ادغام همه این دادهها، افزایش دقت و شناخت عمیقتر و درک همزمان محتوا و زمینه در اینگونه هوش مصنوعیها محسوس است.
به این شکل که شما تصویری در مقابل آن قرار داده و پرامپت خود را به صورت متنی یا صوتی برای او توضیح دهید، سپس جمینای تصویر را تحلیل کرده و به سوال شما درباره آن جواب میدهد. این ویژگی محدود به تصویر نیست و حتی صدا و فیلم را نیز درک کرده و همه این اطلاعات را با هم ادغام میکند و نتیجهگیری هوشمند و نزدیک به واقعیت را ارائه میدهد. به همین دلیل ادعای مدیر عامل دیپ مایند در خصوص عملکرد برنامه شبیه به افراد متخصص در هر رشته، توجیه پذیر است.
ورژنهای جمینای
Gemini Nano
برای اولین بارگوگل در رویداد توسعهدهندگان 2023 از هوش مصنوعی جمینای نام برد. نسخه اولیه آن با نام Gemini Nano میتواند بهصورت آفلاین روی دستگاههای اندروید نیز اجرا شود. این نسخه از تواناییهای سرویس هوش مصنوعی گوگل، در چتبات بارد بهره میگیرد تا به شکل متنی و در قالب مکالمه به نیازهای کاربران پاسخ دهد. جمینای نانو در حال حاضر فقط میتواند ورودی و خروجی متنی ارائه دهد.
Gemini Pro
سرویس دوم که با نام Gemini Pro شناخته میشود از قدرت بیشتری برخوردار است و برای دستگاههای اندروید از جمله گوشیهای «پیکسل ۸ پرو» در نظر گرفته شده. به گفته گوگل این نسخه توانایی خلاصه کردن پیامهای ضبط شده در دستگاه تلفن همراه را دارد و در نتیجه تحلیل آنها میتواند پاسخهای خودکار ارائه دهد.
Gemini Ultra
قدرتمندترین نسخه آن یعنی Gemini Ultra، بزرگترین مدل زبانی است که تا به حال ساخته شده ولی هنوز در دسترس عموم قرار نگرفته. این نسخه قادر به ادغام انواع دادهها از جمله متن، تصویر، ویدیو، صدا و کد میباشد. به نظر میرسد که این نسخه بیشتر برای دیتاسنترها و کاربردهای سازمانی طراحی شده.
شگفتی جمینای!
همانطور که گفتیم جوابهای جمینای محدود به متن و نوشته نیست و میتواند پاسخ تصویری یا صوتی ارائه دهد. دیگر از یک هوش مصنوعی چه میخواهید تا شبیه به انسان باشد؟ قدرت جمینای در پاسخگویی شما را شگفتزده خواهد کرد تا حدی که باور نمیکنید با یک ربات در حال مکالمه هستید. ویدئو زیر یک نمونه از کار این هوش مصنوعی است که با دیدن آن قدرت جمینای را بهتر درک خواهید کرد:
درباره واقعی بودن این ویدئو حرف و حدیثهای بسیاری وجود دارد که در پست بعدی به طور کامل به آن پرداختهایم. آنرا در لینک زیر میتوانید مشاهده کنید.