The Leaderboard Illusion

Mots clés générés par l'IA : Progress measurement Chatbot Arena biased scores data access benchmarking

Points clés générés par l'IA

  • La mesure des progrès est essentielle pour l'avancement scientifique
  • Chatbot Arena est un classement de référence pour les systèmes d'IA performants
  • Des problèmes systématiques ont faussé le terrain de jeu de l'Arena
  • Les pratiques de test privées non divulguées favorisent certains fournisseurs
  • Les modèles fermés propriétaires sont avantagés par rapport aux alternatives open-weight et open-source
  • L'accès aux données du Chatbot Arena offre des avantages significatifs en termes de performance
  • Des recommandations sont proposées pour réformer le cadre d'évaluation du Chatbot Arena
  • Ces points clés résument les principaux aspects abordés dans le texte.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker

68 pages, 18 figures, 9 tables
Licence : CC BY-SA 4.0

Résumé : Measuring progress is fundamental to the advancement of any scientific field. As benchmarks play an increasingly central role, they also grow more susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard for ranking the most capable AI systems. Yet, in this work we identify systematic issues that have resulted in a distorted playing field. We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired. We establish that the ability of these providers to choose the best score leads to biased Arena scores due to selective disclosure of performance results. At an extreme, we identify 27 private LLM variants tested by Meta in the lead-up to the Llama-4 release. We also establish that proprietary closed models are sampled at higher rates (number of battles) and have fewer models removed from the arena than open-weight and open-source alternatives. Both these policies lead to large data access asymmetries over time. Providers like Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the arena, respectively. In contrast, a combined 83 open-weight models have only received an estimated 29.7% of the total data. We show that access to Chatbot Arena data yields substantial benefits; even limited additional data can result in relative performance gains of up to 112% on the arena distribution, based on our conservative estimates. Together, these dynamics result in overfitting to Arena-specific dynamics rather than general model quality. The Arena builds on the substantial efforts of both the organizers and an open community that maintains this valuable evaluation platform. We offer actionable recommendations to reform the Chatbot Arena's evaluation framework and promote fairer, more transparent benchmarking for the field

Soumis à arXiv le 29 Avr. 2025

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2504.20879v1

La mesure des progrès est fondamentale pour l'avancement de tout domaine scientifique. Alors que les repères jouent un rôle de plus en plus central, ils deviennent également plus susceptibles de distorsion. Chatbot Arena s'est imposé comme le classement de référence pour évaluer les systèmes d'IA les plus performants. Cependant, dans ce travail, nous identifions des problèmes systématiques qui ont abouti à un terrain de jeu faussé. Nous constatons que des pratiques de test privées non divulguées bénéficient à quelques fournisseurs capables de tester plusieurs variantes avant leur publication publique et de retirer les scores si nécessaire. Nous établissons que la capacité de ces fournisseurs à choisir le meilleur score conduit à des scores biaisés dans l'Arena en raison de la divulgation sélective des résultats de performance. Dans une situation extrême, nous identifions 27 variantes LLM privées testées par Meta avant la sortie du Llama-4. Nous établissons également que les modèles fermés propriétaires sont échantillonnés à des taux plus élevés (nombre de combats) et ont moins de modèles retirés de l'arène que les alternatives open-weight et open-source. Ces politiques entraînent toutes deux des asymétries d'accès aux données importantes au fil du temps. En outre, nous montrons que l'accès aux données du Chatbot Arena procure d'importants avantages ; même une quantité limitée supplémentaire peut entraîner des gains relatifs en performance allant jusqu'à 112 % sur la distribution arena, selon nos estimations conservatrices. Ensemble, ces dynamiques conduisent à un surajustement aux spécificités propres à l'Arena plutôt qu'à la qualité générale du modèle. L'Arena s'appuie sur les efforts substantiels tant des organisateurs que d'une communauté ouverte qui maintient cette précieuse plateforme d'évaluation. Nous proposons des recommandations concrètes pour réformer le cadre d'évaluation du Chatbot Arena et promouvoir un classement plus juste et transparent pour le domaine. Notre travail s'inscrit dans un ensemble plus large d'études examinant le rôle des benchmarks dans la détermination des progrès en apprentissage automatique. Les benchmarks ont joué un rôle central dans la définition des priorités et incitations à la recherche au sein de la communauté deep learning. La création d'un benchmark significatif et fiable est difficile, et il existe un travail critique identifiant les principales désidérata en matière de benchmarking ainsi que les défis ouverts. La propension au surajustement est une préoccupation majeure lorsqu'il s'agit d'évaluations statiques basées sur des tâches telles que celles proposées par Hugging Face's Open LLM Leaderboard ou OpenCompass ; elles sont souvent sujettes à la contamination des données et au surajustement implicite. Enfin, le manque de standardisation entre les benchmarks complique les comparaisons significatives en raison notamment de métriques incohérentes et définitions variables. Il y a aussi une question concernant la qualité des données utilisées pour ces benchmarks qui peuvent affecter leur reproductibilité.
Créé le 05 Mai. 2025

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.