The Leaderboard Illusion

Mots clés générés par l'IA : Progress measurement Chatbot Arena biased scores data access benchmarking

Points clés générés par l'IA

La mesure des progrès est essentielle pour l'avancement scientifique
Chatbot Arena est un classement de référence pour les systèmes d'IA performants
Des problèmes systématiques ont faussé le terrain de jeu de l'Arena
Les pratiques de test privées non divulguées favorisent certains fournisseurs
Les modèles fermés propriétaires sont avantagés par rapport aux alternatives open-weight et open-source
L'accès aux données du Chatbot Arena offre des avantages significatifs en termes de performance
Des recommandations sont proposées pour réformer le cadre d'évaluation du Chatbot Arena
Ces points clés résument les principaux aspects abordés dans le texte.

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker

arXiv: 2504.20879v1 - DOI (cs.AI)

68 pages, 18 figures, 9 tables

Licence : CC BY-SA 4.0

Résumé : Measuring progress is fundamental to the advancement of any scientific field. As benchmarks play an increasingly central role, they also grow more susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard for ranking the most capable AI systems. Yet, in this work we identify systematic issues that have resulted in a distorted playing field. We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired. We establish that the ability of these providers to choose the best score leads to biased Arena scores due to selective disclosure of performance results. At an extreme, we identify 27 private LLM variants tested by Meta in the lead-up to the Llama-4 release. We also establish that proprietary closed models are sampled at higher rates (number of battles) and have fewer models removed from the arena than open-weight and open-source alternatives. Both these policies lead to large data access asymmetries over time. Providers like Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the arena, respectively. In contrast, a combined 83 open-weight models have only received an estimated 29.7% of the total data. We show that access to Chatbot Arena data yields substantial benefits; even limited additional data can result in relative performance gains of up to 112% on the arena distribution, based on our conservative estimates. Together, these dynamics result in overfitting to Arena-specific dynamics rather than general model quality. The Arena builds on the substantial efforts of both the organizers and an open community that maintains this valuable evaluation platform. We offer actionable recommendations to reform the Chatbot Arena's evaluation framework and promote fairer, more transparent benchmarking for the field

Soumis à arXiv le 29 Avr. 2025

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2504.20879v1

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

La mesure des progrès est fondamentale pour l'avancement de tout domaine scientifique. Alors que les repères jouent un rôle de plus en plus central, ils deviennent également plus susceptibles de distorsion. Chatbot Arena s'est imposé comme le classement de référence pour évaluer les systèmes d'IA les plus performants. Cependant, dans ce travail, nous identifions des problèmes systématiques qui ont abouti à un terrain de jeu faussé. Nous constatons que des pratiques de test privées non divulguées bénéficient à quelques fournisseurs capables de tester plusieurs variantes avant leur publication publique et de retirer les scores si nécessaire. Nous établissons que la capacité de ces fournisseurs à choisir le meilleur score conduit à des scores biaisés dans l'Arena en raison de la divulgation sélective des résultats de performance. Dans une situation extrême, nous identifions 27 variantes LLM privées testées par Meta avant la sortie du Llama-4. Nous établissons également que les modèles fermés propriétaires sont échantillonnés à des taux plus élevés (nombre de combats) et ont moins de modèles retirés de l'arène que les alternatives open-weight et open-source. Ces politiques entraînent toutes deux des asymétries d'accès aux données importantes au fil du temps. En outre, nous montrons que l'accès aux données du Chatbot Arena procure d'importants avantages ; même une quantité limitée supplémentaire peut entraîner des gains relatifs en performance allant jusqu'à 112 % sur la distribution arena, selon nos estimations conservatrices. Ensemble, ces dynamiques conduisent à un surajustement aux spécificités propres à l'Arena plutôt qu'à la qualité générale du modèle. L'Arena s'appuie sur les efforts substantiels tant des organisateurs que d'une communauté ouverte qui maintient cette précieuse plateforme d'évaluation. Nous proposons des recommandations concrètes pour réformer le cadre d'évaluation du Chatbot Arena et promouvoir un classement plus juste et transparent pour le domaine. Notre travail s'inscrit dans un ensemble plus large d'études examinant le rôle des benchmarks dans la détermination des progrès en apprentissage automatique. Les benchmarks ont joué un rôle central dans la définition des priorités et incitations à la recherche au sein de la communauté deep learning. La création d'un benchmark significatif et fiable est difficile, et il existe un travail critique identifiant les principales désidérata en matière de benchmarking ainsi que les défis ouverts. La propension au surajustement est une préoccupation majeure lorsqu'il s'agit d'évaluations statiques basées sur des tâches telles que celles proposées par Hugging Face's Open LLM Leaderboard ou OpenCompass ; elles sont souvent sujettes à la contamination des données et au surajustement implicite. Enfin, le manque de standardisation entre les benchmarks complique les comparaisons significatives en raison notamment de métriques incohérentes et définitions variables. Il y a aussi une question concernant la qualité des données utilisées pour ces benchmarks qui peuvent affecter leur reproductibilité.

- La mesure des progrès est essentielle pour l'avancement scientifique
- Chatbot Arena est un classement de référence pour les systèmes d'IA performants
- Des problèmes systématiques ont faussé le terrain de jeu de l'Arena
- Les pratiques de test privées non divulguées favorisent certains fournisseurs
- Les modèles fermés propriétaires sont avantagés par rapport aux alternatives open-weight et open-source
- L'accès aux données du Chatbot Arena offre des avantages significatifs en termes de performance
- Des recommandations sont proposées pour réformer le cadre d'évaluation du Chatbot Arena
Ces points clés résument les principaux aspects abordés dans le texte.

Summary- Measurement of progress is important for scientific advancement: Knowing how well we are doing helps us improve in science. - Chatbot Arena ranks high-performing AI systems: It shows which AI systems are the best. - Systematic problems have affected the fairness of the Arena: Some issues have made it unfair. - Undisclosed private testing practices benefit certain providers: Keeping tests secret helps some providers unfairly. - Closed proprietary models have advantages over open-weight and open-source alternatives: Certain types of models are favored over others. Definitions1. Progress: Moving forward or improving. 2. Scientific advancement: Making progress in science and discovering new things. 3. High-performing: Doing very well or being successful. 4. Unfairness: Not treating everyone equally or not being just. 5. Proprietary: Something that is owned by a specific person or company and not shared with others. French TranslationRésumé - La mesure des progrès est importante pour l'avancement scientifique : Savoir comment nous nous en sortons nous aide à progresser en science. - Chatbot Arena classe les systèmes d'IA performants : Il montre quels sont les meilleurs systèmes d'IA. - Des problèmes systématiques ont affecté l'équité de l'Arena : Certains problèmes l'ont rendu injuste. - Les pratiques de test privées non divulguées bénéficient à certains fournisseurs : Gard

La mesure des progrès est fondamentale pour l'avancement de tout domaine scientifique. Cela permet d'évaluer les avancées réalisées et de déterminer les axes à améliorer. Dans le domaine de l'intelligence artificielle (IA), les repères jouent un rôle de plus en plus central, car ils permettent d'évaluer la performance des systèmes d'IA. Cependant, dans ce travail, nous identifions des problèmes systématiques qui ont abouti à un terrain de jeu faussé dans le Chatbot Arena, le classement de référence pour évaluer les systèmes d'IA les plus performants. Nous constatons que certaines pratiques privées non divulguées bénéficient à quelques fournisseurs capables de tester plusieurs variantes avant leur publication publique et de retirer les scores si nécessaire. Cela conduit à une divulgation sélective des résultats de performance et biaise ainsi les scores dans l'Arena. Nous avons également remarqué que les modèles fermés propriétaires sont favorisés par rapport aux alternatives open-weight et open-source. En effet, ils sont échantillonnés à des taux plus élevés (nombre de combats) et ont moins de modèles retirés du classement au fil du temps. Ces politiques créent donc une asymétrie d'accès aux données importantes entre ces différents types de modèles. De plus, notre étude montre que même une petite quantité supplémentaire d'accès aux données du Chatbot Arena peut entraîner des gains significatifs en performance allant jusqu'à 112%. Cela souligne l'importance cruciale qu'a cet accès aux données sur la qualité globale du modèle. Face à ces constats, nous proposons des recommandations concrètes pour réformer le cadre d'évaluation du Chatbot Arena et promouvoir un classement plus juste et transparent pour le domaine. En effet, l'Arena repose sur les efforts conjoints des organisateurs et de la communauté ouverte qui maintient cette plateforme d'évaluation précieuse. Notre travail s'inscrit dans un ensemble plus large d'études examinant le rôle des benchmarks dans la détermination des progrès en apprentissage automatique. Les benchmarks ont joué un rôle central dans la définition des priorités et incitations à la recherche au sein de la communauté deep learning. Cependant, leur création est complexe et il existe encore de nombreux défis à relever pour garantir leur fiabilité. La propension au surajustement est une préoccupation majeure lorsqu'il s'agit d'évaluations statiques basées sur des tâches telles que celles proposées par Hugging Face's Open LLM Leaderboard ou OpenCompass ; elles sont souvent sujettes à la contamination des données et au surajustement implicite. De plus, le manque de standardisation entre les différents benchmarks complique les comparaisons significatives en raison notamment de métriques incohérentes et de définitions variables. Il est également important de prendre en compte la qualité des données utilisées pour ces benchmarks afin d'assurer leur reproductibilité. En conclusion, notre étude met en lumière l'importance cruciale du choix du benchmark dans l'évaluation des systèmes d'IA ainsi que les biais potentiels qui peuvent affecter les résultats. Nous espérons que nos recommandations contribueront à améliorer le cadre d'évaluation du Chatbot Arena et à promouvoir un classement plus juste et transparent pour le domaine de l'IA.

Créé le 05 Mai. 2025

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

The Leaderboard Illusion

Points clés générés par l'IA

Posez des questions sur cet article à notre assistant IA

Résultats du processus de synthèse de l'article arXiv : 2504.20879v1

Articles similaires résumés avec nos outils d'IA