کشف یک نقطه‌ضعف که قابلیت اعتماد مدل‌های زبانی بزرگ (LLMs) را کاهش می‌دهد

پژوهشگران MIT به یک آسیب‌پذیری بنیادین در مدل‌های زبانی بزرگ پی بردند: هوش مصنوعی گاهی صرفاً با تکیه بر ساختار گرامری جمله، پاسخ می‌دهد و معنای واقعی پرسش را نادیده می‌گیرد.
اخبار
author

عباس وزیری

لینک کپی شد!
کشف یک نقطه‌ضعف در LLMs
کشف یک نقطه‌ضعف در LLMs

مدل‌های زبانی بزرگی نظیر GPT-4 و Llama که زیربنای انقلاب هوش مصنوعی کنونی هستند، ممکن است به اندازه‌ای که انتظار می‌رود قابل اعتماد نباشند.

پژوهش جدیدی از مؤسسه فناوری ماساچوست (MIT) نشان می‌دهد که این مدل‌ها می‌توانند به‌طور ناخواسته، الگوهای تکراری و ساختارهای گرامری (نحوی) را با موضوعات خاصی پیوند بزنند و در نهایت، به‌جای استدلال و درک عمیق، صرفاً به تکرار الگوهای آموخته‌شده روی بیاورند.

این نقص، که اعتماد به عملکرد LLMها را به چالش می‌کشد، می‌تواند در زمان به‌کارگیری مدل در وظایف جدید، منجر به شکست‌های ناگهانی و غیرمنتظره شود.

مقالات هوش مصنوعی
مقالات هوش مصنوعی کنترل اعداد

چگونه LLMها فریب الگوهای گرامری را می‌خورند؟

مدل‌های زبان، علاوه بر معناشناسی (Semantics)، ساختار گرامری زبان (نحو) را نیز از حجم عظیم داده‌های آموزشی خود یاد می‌گیرند. محققان این الگوهای گرامری را «قالب‌های نحوی (Syntactic Templates)» نامیده‌اند.

نقص اصلی زمانی رخ می‌دهد که مدل این الگوهای نحوی را به‌اشتباه با یک حوزۀ موضوعی خاص مرتبط می‌سازد. در این شرایط، مدل به جای پردازش معنای کلمات، صرفاً قالب جمله را تشخیص می‌دهد و پاسخ از پیش تعیین شده برای آن قالب را ارائه می‌کند.

بهترین مثال برای توضیح این پدیده:

یک LLM ممکن است ساختار سؤالی مانند «پاریس کجاست؟» را به‌عنوان یک الگوی گرامری مربوط به جغرافیا ثبت کند. اگر همان مدل با سؤالی مواجه شود که ساختار گرامری مشابهی دارد اما کلمات آن کاملاً بی‌معنی هستند (مانند: «آیا پاریس سریعاً ابری نشست؟»)، باز هم به دلیل فعال شدن الگوی نحوی جغرافیا، پاسخ می‌دهد: «فرانسه».

هوش مصنوعی به راحتی فریب الگوی گرامری را میخورد
هوش مصنوعی به راحتی فریب الگوی گرامری را میخورد

این یک نوع پیوند است که اغلب نادیده گرفته شده و مدل برای پاسخگویی صحیح آن را یاد می‌گیرد. ما باید توجه بیشتری به نحو داده‌هایی که برای آموزش مدل‌های خود استفاده می‌کنیم، داشته باشیم، نه فقط معناشناسی.

خطرات امنیتی و عملکردی: آسیب‌پذیری جدید GPT-4 و Llama

این نقص صرفاً یک کنجکاوی علمی نیست، بلکه پیامدهای جدی در حوزه‌های کاربردی و امنیتی دارد:

  1. کاهش قابلیت اطمینان در حوزه‌های حساس: عملکرد مدل‌هایی که در وظایف حیاتی مانند خلاصه‌سازی یادداشت‌های بالینی، تولید گزارش‌های مالی یا پاسخگویی به مشتریان سازمانی استفاده می‌شوند، با اتکای کورکورانه به الگوها، به‌شدت تحت تأثیر قرار می‌گیرد.
  2. خطر امنیتی (Bypassing Safeguards): محققان نشان دادند که می‌توان از این آسیب‌پذیری سوءاستفاده کرد. با عبارت‌بندی یک درخواست مضر (که مدل معمولاً آن را رد می‌کند) در قالب یک الگوی نحوی که مدل آن را با یک مجموعه‌داده «ایمن» مرتبط می‌داند، می‌توان مکانیزم‌های محافظتی مدل را فریب داد و آن را وادار به تولید محتوای خطرناک کرد. این، یک آسیب‌پذیری جدید در ساختار یادگیری مدل‌ها محسوب می‌شود.

آزمایش‌ها روی قوی‌ترین LLMهای از پیش آموزش‌دیده مانند GPT-4 و Llama انجام شده و نشان داد که این رفتار آموخته‌شده، عملکرد آن‌ها را به طور قابل توجهی کاهش می‌دهد.

شکاف های امنیتی در هوش مصنوعی ها
شکاف های امنیتی در هوش مصنوعی ها

راه‌حل‌های MIT برای افزایش اعتماد به هوش مصنوعی

پژوهشگران MIT گام‌هایی را برای رسیدگی به این مشکل برداشته‌اند:

  1. توسعه ابزار استانداردسازی: یک تکنیک ارزیابی خودکار (Benchmarking) توسعه داده شده است که می‌تواند میزان اتکای یک LLM به این همبستگی نادرست نحو و حوزه را بسنجد. این ابزار به توسعه‌دهندگان کمک می‌کند تا پیش از عرضه، نقص‌های مدل خود را برطرف سازند.
  2. پیشنهاد برای آموزش مدل‌ها: در آینده، استراتژی‌های کاهش مشکل بر روی غنی‌سازی داده‌های آموزشی متمرکز خواهد بود. با افزودن تنوع بیشتری از قالب‌های نحوی، مدل یاد می‌گیرد که یک ساختار گرامری خاص را به یک موضوع واحد گره نزند و در نتیجه، مجبور به استدلال عمیق‌تر می‌شود.

این کار اهمیت حیاتی دانش و تحلیل زبان‌شناسی را در تحقیقات ایمنی هوش مصنوعی برجسته می‌کند؛ موضوعی که تاکنون به اندازه کافی در مرکز توجه نبوده‌ است.

اگر به دنیای هوش مصنوعی علاقه دارید، دیگر بلاگ های کنترل اعداد را از دست ندهید:

مقالات کنترل اعداد
تحقیقات ما همه زمینه‌ها را پوشش می‌دهد از جمله هوشمند سازی، تجارت الکترونیک، هوش مصنوعی، مدیریت و سازمان، طراحی و برنامه نویسی و … .

مقالات مرتبط