به گزارش سیما صنعت ،پژوهشگران میگویند فقط با وارد کردن حدود ۲۵۰ سند آلوده به مجموعهدادههای آموزشی یا به منابعی که مدل از آنها یاد میگیرد، مهاجمان میتوانند درِ پشتیای در مدل باز کنند که با یک عبارت یا پرامپت خاص، خروجیهای عجیب، بیمعنی یا حتی فاشکننده اطلاعات حساس تولید کند.
در این روش، مهاجم بهجای تلاش برای نفوذ مستقیم به سرور یا دزدی دادهها، با «آلودهسازی» منابع آموزشی یا محتوای قابلدسترس برای مدل (مثلاً صفحات وب، مقالات یا اسناد منتشرشده) رفتار مدل را بهنفع خود تغییر میدهد. نتیجه میتواند تولید پاسخهایی باشد که رفتار مدل را تحت کنترل مهاجم قرار میدهد — از ارائه اطلاعات نادرست تا افشای الگوها یا دادههایی که در حالت عادی مدل نباید آنها را بازتولید کند.
محققان تأکید میکنند که این آسیبپذیری جدا از اندازه یا پیچیدگی مدل است؛ حتی مدلهای غولپیکر هم میتوانند تحت این نوع دستکاری قرار بگیرند. در گزارش آمده که حجم نسبتا کمِ محتوا (یعنی ~۲۵۰ سند) برای ایجاد تأثیر کافی است، که نشان میدهد مقابله با این خطر نیازمند راهکارهای دقیقتری در سطح چرخهی آموزش و منابع داده است.
پیامدها گستردهاند: برای شرکتهای توسعهدهنده مدل، این یافته یعنی ضرورت بازنگری در روشهای گزینش و پاکسازی دادهها، اعتبارسنجی منابع آموزشی و توسعهی مکانیزمهای کشف و حذف محتوای آلوده. برای کاربران و مشتریان سازمانی هم هشدار داده شده که اعتماد کامل به خروجی مدلها بدون مکانیزمهای تأیید لایهای مخاطرهآمیز است.
در عین حال، پژوهشگران راهکارهایی مقدماتی پیشنهاد کردهاند: تقویت روشهای پایش کیفیت داده، استفاده از فیلترها و الگوریتمهای تشخیص محتوای ناسازگار یا مخرب، اعتبارسنجی مستقلِ دادههای آموزشی و پیادهسازی تستهای نفوذ (red-teaming) مبتنی بر مسمومسازی برای ارزیابی مقاومت مدلها پیش از عرضه. نهادهای ناظر و توسعهدهندگان امنیتی نیز باید استانداردها و پروتکلهایی برای شناسایی و گزارش حملات مسمومسازی تدوین کنند.
کارشناسان امنیت هوش مصنوعی هشدار میدهند که این مشکل فقط یک خطر نظری نیست؛ بلکه نشانهای است از اینکه «زنجیرهی تأمین داده» (data supply chain) بههمان اندازهی معماری مدل و آموزش، برای تضمین ایمنی و اعتمادپذیری حیاتی است.
انتهای پیام