مدل‌های زبانی را می‌توان با ۲۵۰ سند آلوده فریب داد

تحقیقی تازه که توسط «انستیتو امنیت هوش مصنوعی بریتانیا»، «انستیتو آلن تورینگ» و شرکت Anthropic انجام شده نشان می‌دهد مدل‌های بزرگ زبانی مانند ChatGPT و Gemini در برابر نوعی حمله موسوم به «مسموم‌سازی داده» (data poisoning) آسیب‌پذیرند.

به گزارش سیما صنعت ،پژوهشگران می‌گویند فقط با وارد کردن حدود ۲۵۰ سند آلوده به مجموعه‌داده‌های آموزشی یا به منابعی که مدل از آن‌ها یاد می‌گیرد، مهاجمان می‌توانند درِ پشتی‌‌ای در مدل باز کنند که با یک عبارت یا پرامپت خاص، خروجی‌های عجیب، بی‌معنی یا حتی فاش‌کننده اطلاعات حساس تولید کند.

در این روش، مهاجم به‌جای تلاش برای نفوذ مستقیم به سرور یا دزدی داده‌ها، با «آلوده‌سازی» منابع آموزشی یا محتوای قابل‌دسترس برای مدل (مثلاً صفحات وب، مقالات یا اسناد منتشرشده) رفتار مدل را به‌نفع خود تغییر می‌دهد. نتیجه می‌تواند تولید پاسخ‌هایی باشد که رفتار مدل را تحت کنترل مهاجم قرار می‌دهد — از ارائه اطلاعات نادرست تا افشای الگوها یا داده‌هایی که در حالت عادی مدل نباید آن‌ها را بازتولید کند.

محققان تأکید می‌کنند که این آسیب‌پذیری جدا از اندازه یا پیچیدگی مدل است؛ حتی مدل‌های غول‌پیکر هم می‌توانند تحت این نوع دستکاری قرار بگیرند. در گزارش آمده که حجم نسبتا کمِ محتوا (یعنی ~۲۵۰ سند) برای ایجاد تأثیر کافی است، که نشان می‌دهد مقابله با این خطر نیازمند راهکارهای دقیق‌تری در سطح چرخه‌ی آموزش و منابع داده است.

پیامدها گسترده‌اند: برای شرکت‌های توسعه‌دهنده مدل، این یافته یعنی ضرورت بازنگری در روش‌های گزینش و پاک‌سازی داده‌ها، اعتبارسنجی منابع آموزشی و توسعه‌ی مکانیزم‌های کشف و حذف محتوای آلوده. برای کاربران و مشتریان سازمانی هم هشدار داده شده که اعتماد کامل به خروجی مدل‌ها بدون مکانیزم‌های تأیید لایه‌ای مخاطره‌آمیز است.

در عین حال، پژوهشگران راهکارهایی مقدماتی پیشنهاد کرده‌اند: تقویت روش‌های پایش کیفیت داده، استفاده از فیلترها و الگوریتم‌های تشخیص محتوای ناسازگار یا مخرب، اعتبارسنجی مستقلِ داده‌های آموزشی و پیاده‌سازی تست‌های نفوذ (red-teaming) مبتنی بر مسموم‌سازی برای ارزیابی مقاومت مدل‌ها پیش از عرضه. نهادهای ناظر و توسعه‌دهندگان امنیتی نیز باید استانداردها و پروتکل‌هایی برای شناسایی و گزارش حملات مسموم‌سازی تدوین کنند.

کارشناسان امنیت هوش مصنوعی هشدار می‌دهند که این مشکل فقط یک خطر نظری نیست؛ بلکه نشانه‌ای است از اینکه «زنجیره‌ی تأمین داده» (data supply chain) به‌همان اندازه‌ی معماری مدل و آموزش، برای تضمین ایمنی و اعتمادپذیری حیاتی است.

انتهای پیام