کشف یک نقطهضعف که قابلیت اعتماد مدلهای زبانی بزرگ (LLMs) را کاهش میدهد

عباس وزیری

مدلهای زبانی بزرگی نظیر GPT-4 و Llama که زیربنای انقلاب هوش مصنوعی کنونی هستند، ممکن است به اندازهای که انتظار میرود قابل اعتماد نباشند.
پژوهش جدیدی از مؤسسه فناوری ماساچوست (MIT) نشان میدهد که این مدلها میتوانند بهطور ناخواسته، الگوهای تکراری و ساختارهای گرامری (نحوی) را با موضوعات خاصی پیوند بزنند و در نهایت، بهجای استدلال و درک عمیق، صرفاً به تکرار الگوهای آموختهشده روی بیاورند.
این نقص، که اعتماد به عملکرد LLMها را به چالش میکشد، میتواند در زمان بهکارگیری مدل در وظایف جدید، منجر به شکستهای ناگهانی و غیرمنتظره شود.

چگونه LLMها فریب الگوهای گرامری را میخورند؟
مدلهای زبان، علاوه بر معناشناسی (Semantics)، ساختار گرامری زبان (نحو) را نیز از حجم عظیم دادههای آموزشی خود یاد میگیرند. محققان این الگوهای گرامری را «قالبهای نحوی (Syntactic Templates)» نامیدهاند.
نقص اصلی زمانی رخ میدهد که مدل این الگوهای نحوی را بهاشتباه با یک حوزۀ موضوعی خاص مرتبط میسازد. در این شرایط، مدل به جای پردازش معنای کلمات، صرفاً قالب جمله را تشخیص میدهد و پاسخ از پیش تعیین شده برای آن قالب را ارائه میکند.
بهترین مثال برای توضیح این پدیده:
یک LLM ممکن است ساختار سؤالی مانند «پاریس کجاست؟» را بهعنوان یک الگوی گرامری مربوط به جغرافیا ثبت کند. اگر همان مدل با سؤالی مواجه شود که ساختار گرامری مشابهی دارد اما کلمات آن کاملاً بیمعنی هستند (مانند: «آیا پاریس سریعاً ابری نشست؟»)، باز هم به دلیل فعال شدن الگوی نحوی جغرافیا، پاسخ میدهد: «فرانسه».

این یک نوع پیوند است که اغلب نادیده گرفته شده و مدل برای پاسخگویی صحیح آن را یاد میگیرد. ما باید توجه بیشتری به نحو دادههایی که برای آموزش مدلهای خود استفاده میکنیم، داشته باشیم، نه فقط معناشناسی.
خطرات امنیتی و عملکردی: آسیبپذیری جدید GPT-4 و Llama
این نقص صرفاً یک کنجکاوی علمی نیست، بلکه پیامدهای جدی در حوزههای کاربردی و امنیتی دارد:
- کاهش قابلیت اطمینان در حوزههای حساس: عملکرد مدلهایی که در وظایف حیاتی مانند خلاصهسازی یادداشتهای بالینی، تولید گزارشهای مالی یا پاسخگویی به مشتریان سازمانی استفاده میشوند، با اتکای کورکورانه به الگوها، بهشدت تحت تأثیر قرار میگیرد.
- خطر امنیتی (Bypassing Safeguards): محققان نشان دادند که میتوان از این آسیبپذیری سوءاستفاده کرد. با عبارتبندی یک درخواست مضر (که مدل معمولاً آن را رد میکند) در قالب یک الگوی نحوی که مدل آن را با یک مجموعهداده «ایمن» مرتبط میداند، میتوان مکانیزمهای محافظتی مدل را فریب داد و آن را وادار به تولید محتوای خطرناک کرد. این، یک آسیبپذیری جدید در ساختار یادگیری مدلها محسوب میشود.
آزمایشها روی قویترین LLMهای از پیش آموزشدیده مانند GPT-4 و Llama انجام شده و نشان داد که این رفتار آموختهشده، عملکرد آنها را به طور قابل توجهی کاهش میدهد.

راهحلهای MIT برای افزایش اعتماد به هوش مصنوعی
پژوهشگران MIT گامهایی را برای رسیدگی به این مشکل برداشتهاند:
- توسعه ابزار استانداردسازی: یک تکنیک ارزیابی خودکار (Benchmarking) توسعه داده شده است که میتواند میزان اتکای یک LLM به این همبستگی نادرست نحو و حوزه را بسنجد. این ابزار به توسعهدهندگان کمک میکند تا پیش از عرضه، نقصهای مدل خود را برطرف سازند.
- پیشنهاد برای آموزش مدلها: در آینده، استراتژیهای کاهش مشکل بر روی غنیسازی دادههای آموزشی متمرکز خواهد بود. با افزودن تنوع بیشتری از قالبهای نحوی، مدل یاد میگیرد که یک ساختار گرامری خاص را به یک موضوع واحد گره نزند و در نتیجه، مجبور به استدلال عمیقتر میشود.
این کار اهمیت حیاتی دانش و تحلیل زبانشناسی را در تحقیقات ایمنی هوش مصنوعی برجسته میکند؛ موضوعی که تاکنون به اندازه کافی در مرکز توجه نبوده است.
اگر به دنیای هوش مصنوعی علاقه دارید، دیگر بلاگ های کنترل اعداد را از دست ندهید:


