La mesure des progrès est fondamentale pour l'avancement de tout domaine scientifique. Alors que les repères jouent un rôle de plus en plus central, ils deviennent également plus susceptibles de distorsion. Chatbot Arena s'est imposé comme le classement de référence pour évaluer les systèmes d'IA les plus performants. Cependant, dans ce travail, nous identifions des problèmes systématiques qui ont abouti à un terrain de jeu faussé. Nous constatons que des pratiques de test privées non divulguées bénéficient à quelques fournisseurs capables de tester plusieurs variantes avant leur publication publique et de retirer les scores si nécessaire. Nous établissons que la capacité de ces fournisseurs à choisir le meilleur score conduit à des scores biaisés dans l'Arena en raison de la divulgation sélective des résultats de performance. Dans une situation extrême, nous identifions 27 variantes LLM privées testées par Meta avant la sortie du Llama-4. Nous établissons également que les modèles fermés propriétaires sont échantillonnés à des taux plus élevés (nombre de combats) et ont moins de modèles retirés de l'arène que les alternatives open-weight et open-source. Ces politiques entraînent toutes deux des asymétries d'accès aux données importantes au fil du temps. En outre, nous montrons que l'accès aux données du Chatbot Arena procure d'importants avantages ; même une quantité limitée supplémentaire peut entraîner des gains relatifs en performance allant jusqu'à 112 % sur la distribution arena, selon nos estimations conservatrices. Ensemble, ces dynamiques conduisent à un surajustement aux spécificités propres à l'Arena plutôt qu'à la qualité générale du modèle. L'Arena s'appuie sur les efforts substantiels tant des organisateurs que d'une communauté ouverte qui maintient cette précieuse plateforme d'évaluation. Nous proposons des recommandations concrètes pour réformer le cadre d'évaluation du Chatbot Arena et promouvoir un classement plus juste et transparent pour le domaine. Notre travail s'inscrit dans un ensemble plus large d'études examinant le rôle des benchmarks dans la détermination des progrès en apprentissage automatique. Les benchmarks ont joué un rôle central dans la définition des priorités et incitations à la recherche au sein de la communauté deep learning. La création d'un benchmark significatif et fiable est difficile, et il existe un travail critique identifiant les principales désidérata en matière de benchmarking ainsi que les défis ouverts. La propension au surajustement est une préoccupation majeure lorsqu'il s'agit d'évaluations statiques basées sur des tâches telles que celles proposées par Hugging Face's Open LLM Leaderboard ou OpenCompass ; elles sont souvent sujettes à la contamination des données et au surajustement implicite. Enfin, le manque de standardisation entre les benchmarks complique les comparaisons significatives en raison notamment de métriques incohérentes et définitions variables. Il y a aussi une question concernant la qualité des données utilisées pour ces benchmarks qui peuvent affecter leur reproductibilité.
- - La mesure des progrès est essentielle pour l'avancement scientifique
- - Chatbot Arena est un classement de référence pour les systèmes d'IA performants
- - Des problèmes systématiques ont faussé le terrain de jeu de l'Arena
- - Les pratiques de test privées non divulguées favorisent certains fournisseurs
- - Les modèles fermés propriétaires sont avantagés par rapport aux alternatives open-weight et open-source
- - L'accès aux données du Chatbot Arena offre des avantages significatifs en termes de performance
- - Des recommandations sont proposées pour réformer le cadre d'évaluation du Chatbot Arena
- Ces points clés résument les principaux aspects abordés dans le texte.
Summary- Measurement of progress is important for scientific advancement: Knowing how well we are doing helps us improve in science.
- Chatbot Arena ranks high-performing AI systems: It shows which AI systems are the best.
- Systematic problems have affected the fairness of the Arena: Some issues have made it unfair.
- Undisclosed private testing practices benefit certain providers: Keeping tests secret helps some providers unfairly.
- Closed proprietary models have advantages over open-weight and open-source alternatives: Certain types of models are favored over others.
Definitions1. Progress: Moving forward or improving.
2. Scientific advancement: Making progress in science and discovering new things.
3. High-performing: Doing very well or being successful.
4. Unfairness: Not treating everyone equally or not being just.
5. Proprietary: Something that is owned by a specific person or company and not shared with others.
French TranslationRésumé - La mesure des progrès est importante pour l'avancement scientifique : Savoir comment nous nous en sortons nous aide à progresser en science.
- Chatbot Arena classe les systèmes d'IA performants : Il montre quels sont les meilleurs systèmes d'IA.
- Des problèmes systématiques ont affecté l'équité de l'Arena : Certains problèmes l'ont rendu injuste.
- Les pratiques de test privées non divulguées bénéficient à certains fournisseurs : Gard
La mesure des progrès est fondamentale pour l'avancement de tout domaine scientifique. Cela permet d'évaluer les avancées réalisées et de déterminer les axes à améliorer. Dans le domaine de l'intelligence artificielle (IA), les repères jouent un rôle de plus en plus central, car ils permettent d'évaluer la performance des systèmes d'IA.
Cependant, dans ce travail, nous identifions des problèmes systématiques qui ont abouti à un terrain de jeu faussé dans le Chatbot Arena, le classement de référence pour évaluer les systèmes d'IA les plus performants. Nous constatons que certaines pratiques privées non divulguées bénéficient à quelques fournisseurs capables de tester plusieurs variantes avant leur publication publique et de retirer les scores si nécessaire. Cela conduit à une divulgation sélective des résultats de performance et biaise ainsi les scores dans l'Arena.
Nous avons également remarqué que les modèles fermés propriétaires sont favorisés par rapport aux alternatives open-weight et open-source. En effet, ils sont échantillonnés à des taux plus élevés (nombre de combats) et ont moins de modèles retirés du classement au fil du temps. Ces politiques créent donc une asymétrie d'accès aux données importantes entre ces différents types de modèles.
De plus, notre étude montre que même une petite quantité supplémentaire d'accès aux données du Chatbot Arena peut entraîner des gains significatifs en performance allant jusqu'à 112%. Cela souligne l'importance cruciale qu'a cet accès aux données sur la qualité globale du modèle.
Face à ces constats, nous proposons des recommandations concrètes pour réformer le cadre d'évaluation du Chatbot Arena et promouvoir un classement plus juste et transparent pour le domaine. En effet, l'Arena repose sur les efforts conjoints des organisateurs et de la communauté ouverte qui maintient cette plateforme d'évaluation précieuse.
Notre travail s'inscrit dans un ensemble plus large d'études examinant le rôle des benchmarks dans la détermination des progrès en apprentissage automatique. Les benchmarks ont joué un rôle central dans la définition des priorités et incitations à la recherche au sein de la communauté deep learning. Cependant, leur création est complexe et il existe encore de nombreux défis à relever pour garantir leur fiabilité.
La propension au surajustement est une préoccupation majeure lorsqu'il s'agit d'évaluations statiques basées sur des tâches telles que celles proposées par Hugging Face's Open LLM Leaderboard ou OpenCompass ; elles sont souvent sujettes à la contamination des données et au surajustement implicite. De plus, le manque de standardisation entre les différents benchmarks complique les comparaisons significatives en raison notamment de métriques incohérentes et de définitions variables. Il est également important de prendre en compte la qualité des données utilisées pour ces benchmarks afin d'assurer leur reproductibilité.
En conclusion, notre étude met en lumière l'importance cruciale du choix du benchmark dans l'évaluation des systèmes d'IA ainsi que les biais potentiels qui peuvent affecter les résultats. Nous espérons que nos recommandations contribueront à améliorer le cadre d'évaluation du Chatbot Arena et à promouvoir un classement plus juste et transparent pour le domaine de l'IA.