رتبه‌بندی مدل‌های هوش مصنوعی تا الان دستکاری میشدن

طبق یک مقاله پژوهشی جدید با عنوان «توهم جدول رتبه‌بندی» (The Leaderboard Illusion) که در آوریل ۲۰۲۵ منتشر شده است، برخی از شرکت‌های بزرگ فناوری مانند Meta، OpenAI، Google و Amazon از پلتفرم Chatbot Arena برای تست خصوصی مدل‌های خود استفاده کرده‌اند و تنها نتایج مطلوب را به‌صورت عمومی منتشر کرده‌اند. 

به گزارش سیما صنعت ،این مقاله نشان می‌دهد که شرکت‌هایی مانند Meta تا ۲۷ نسخه مختلف از مدل‌های زبانی خود را به‌صورت خصوصی در Chatbot Arena آزمایش کرده‌اند، اما تنها نتایج مربوط به مدل‌هایی که عملکرد خوبی داشته‌اند را منتشر کرده‌اند. این اقدام به آن‌ها امکان داده است تا مدل‌های خود را به‌صورت انتخابی در جدول رتبه‌بندی قرار دهند، در حالی که سایر شرکت‌ها چنین دسترسی یا امکانی نداشته‌اند.

علاوه بر این، داده‌های جمع‌آوری‌شده در Chatbot Arena به‌طور نامتوازن بین شرکت‌ها توزیع شده است. به‌عنوان مثال، Google و OpenAI به ترتیب حدود ۱۹.۲٪ و ۲۰.۴٪ از کل داده‌های این پلتفرم را دریافت کرده‌اند، در حالی که ۸۳ مدل با وزن‌های باز (open-weight) تنها ۲۹.۷٪ از داده‌ها را به خود اختصاص داده‌اند. این عدم توازن در دسترسی به داده‌ها می‌تواند به مزیت ناعادلانه برای شرکت‌های بزرگ منجر شود.

همچنین، مطالعات دیگری نشان داده‌اند که رتبه‌بندی مدل‌ها در Chatbot Arena می‌تواند با دستکاری رأی‌ها تغییر کند. به‌عنوان مثال، با استفاده از استراتژی‌های خاص، می‌توان رتبه یک مدل خاص را با تعداد محدودی رأی جدید بهبود بخشید.

این یافته‌ها سوالاتی را درباره بی‌طرفی و شفافیت Chatbot Arena به‌عنوان یک مرجع مقایسه چت‌بات‌ها مطرح کرده‌اند. اگرچه این پلتفرم به‌عنوان یک ابزار باز و جامعه‌محور برای ارزیابی مدل‌های زبانی بزرگ شناخته می‌شود، اما این تحقیقات نشان می‌دهند که ممکن است نیاز به بازنگری در روش‌های ارزیابی و رتبه‌بندی آن وجود داشته باشد.

انتهای پیام