به گزارش سیما صنعت ،این مقاله نشان میدهد که شرکتهایی مانند Meta تا ۲۷ نسخه مختلف از مدلهای زبانی خود را بهصورت خصوصی در Chatbot Arena آزمایش کردهاند، اما تنها نتایج مربوط به مدلهایی که عملکرد خوبی داشتهاند را منتشر کردهاند. این اقدام به آنها امکان داده است تا مدلهای خود را بهصورت انتخابی در جدول رتبهبندی قرار دهند، در حالی که سایر شرکتها چنین دسترسی یا امکانی نداشتهاند.
علاوه بر این، دادههای جمعآوریشده در Chatbot Arena بهطور نامتوازن بین شرکتها توزیع شده است. بهعنوان مثال، Google و OpenAI به ترتیب حدود ۱۹.۲٪ و ۲۰.۴٪ از کل دادههای این پلتفرم را دریافت کردهاند، در حالی که ۸۳ مدل با وزنهای باز (open-weight) تنها ۲۹.۷٪ از دادهها را به خود اختصاص دادهاند. این عدم توازن در دسترسی به دادهها میتواند به مزیت ناعادلانه برای شرکتهای بزرگ منجر شود.
همچنین، مطالعات دیگری نشان دادهاند که رتبهبندی مدلها در Chatbot Arena میتواند با دستکاری رأیها تغییر کند. بهعنوان مثال، با استفاده از استراتژیهای خاص، میتوان رتبه یک مدل خاص را با تعداد محدودی رأی جدید بهبود بخشید.
این یافتهها سوالاتی را درباره بیطرفی و شفافیت Chatbot Arena بهعنوان یک مرجع مقایسه چتباتها مطرح کردهاند. اگرچه این پلتفرم بهعنوان یک ابزار باز و جامعهمحور برای ارزیابی مدلهای زبانی بزرگ شناخته میشود، اما این تحقیقات نشان میدهند که ممکن است نیاز به بازنگری در روشهای ارزیابی و رتبهبندی آن وجود داشته باشد.
انتهای پیام