UI-TARS: Pioneering Automated GUI Interaction with Native Agents

Mots clés générés par l'IA : UI-TARS modèle d'agent GUI natif captures d'écran interactions humaines performances SOTA

Points clés générés par l'IA

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

UI-TARS est un modèle d'agent GUI natif utilisant des captures d'écran comme entrée
Surpasse les cadres d'agents existants en performances, atteignant les meilleures performances dans plus de 10 benchmarks d'agents GUI
Intègre plusieurs innovations clés : Perception améliorée, Modélisation d'action unifiée, Raisonnement du système-2 et Entraînement itératif avec traces en ligne réfléchies
Apprend continuellement de ses erreurs et s'adapte aux situations imprévues avec une intervention humaine minimale
Résumé en français :
UI-TARS est un modèle d'agent GUI natif qui surpasse les autres modèles en performance.
Il intègre des innovations clés telles que la perception améliorée et le raisonnement délibéré.
UI-TARS apprend de ses erreurs et s'adapte aux situations imprévues avec peu d'intervention humaine.

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Yujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang, Shizuo Tian, Junda Zhang, Jiahao Li, Yunxin Li, Shijue Huang, Wanjun Zhong, Kuanye Li, Jiale Yang, Yu Miao, Woyu Lin, Longxiang Liu, Xu Jiang, Qianli Ma, Jingyu Li, Xiaojun Xiao, Kai Cai, Chuang Li, Yaowei Zheng, Chaolin Jin, Chen Li, Xiao Zhou, Minchao Wang, Haoli Chen, Zhaojian Li, Haihua Yang, Haifeng Liu, Feng Lin, Tao Peng, Xin Liu, Guang Shi

arXiv: 2501.12326v1 - DOI (cs.AI)

Licence : NONEXCLUSIVE-DISTRIB 1.0

Résumé : This paper introduces UI-TARS, a native GUI agent model that solely perceives the screenshots as input and performs human-like interactions (e.g., keyboard and mouse operations). Unlike prevailing agent frameworks that depend on heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts and workflows, UI-TARS is an end-to-end model that outperforms these sophisticated frameworks. Experiments demonstrate its superior performance: UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating perception, grounding, and GUI task execution. Notably, in the OSWorld benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15 steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld, UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for context-aware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines. Through iterative training and reflection tuning, UI-TARS continuously learns from its mistakes and adapts to unforeseen situations with minimal human intervention. We also analyze the evolution path of GUI agents to guide the further development of this domain.

Soumis à arXiv le 21 Jan. 2025

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2501.12326v1

⚠La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Ce document présente UI-TARS, un modèle d'agent GUI natif qui utilise uniquement des captures d'écran comme entrée et effectue des interactions humaines telles que des opérations au clavier et à la souris. Contrairement aux cadres d'agents prédominants qui dépendent fortement de modèles commerciaux hautement enveloppés tels que GPT-4o avec des invites et des flux de travail conçus par des experts, UI-TARS est un modèle de bout en bout qui surpasse ces cadres sophistiqués. Les expériences démontrent ses performances supérieures : UI-TARS atteint les meilleures performances dans plus de 10 benchmarks d'agents GUI évaluant la perception, l'ancrage et l'exécution de tâches GUI. Notamment, dans le benchmark OSWorld, UI-TARS obtient des scores de 24.6 avec 50 étapes et 22.7 avec 15 étapes, surpassant Claude (22.0 et 14.9 respectivement). Dans AndroidWorld, UI-TARS atteint 46.6, dépassant GPT-4o (34.5). UI-TARS intègre plusieurs innovations clés : (1) Perception améliorée : en exploitant un ensemble de données à grande échelle de captures d'écran GUI pour une compréhension contextuelle des éléments d'interface utilisateur et une légende précise ; (2) Modélisation d'action unifiée : normalisation des actions dans un espace commun entre plateformes pour une mise à la terre précise et une interaction grâce à des traces d'action à grande échelle ; (3) Raisonnement du système-2 : intégration d'un raisonnement délibéré dans la prise de décision multi-étapes, impliquant plusieurs schémas de raisonnement tels que la décomposition des tâches, la réflexion analytique, la reconnaissance des jalons, etc. ; (4) Entraînement itératif avec traces en ligne réfléchies : résolution du problème de manque de données en collectant automatiquement, filtrant et affinant les nouvelles traces d'interaction sur des centaines de machines virtuelles. Grâce à l'entraînement itératif et au réglage réfléchi, UI-TARS apprend continuellement de ses erreurs et s'adapte aux situations imprévues avec une intervention humaine minimale. Nous analysons également le chemin évolutif des agents GUI pour guider le développement ultérieur de ce domaine.

- UI-TARS est un modèle d'agent GUI natif utilisant des captures d'écran comme entrée
- Surpasse les cadres d'agents existants en performances, atteignant les meilleures performances dans plus de 10 benchmarks d'agents GUI
- Intègre plusieurs innovations clés : Perception améliorée, Modélisation d'action unifiée, Raisonnement du système-2 et Entraînement itératif avec traces en ligne réfléchies
- Apprend continuellement de ses erreurs et s'adapte aux situations imprévues avec une intervention humaine minimale
Résumé en français :
- UI-TARS est un modèle d'agent GUI natif qui surpasse les autres modèles en performance.
- Il intègre des innovations clés telles que la perception améliorée et le raisonnement délibéré.
- UI-TARS apprend de ses erreurs et s'adapte aux situations imprévues avec peu d'intervention humaine.

SummaryUI-TARS is a special kind of computer program that helps with looking at pictures on the screen and doing tasks. It is really good at doing its job and does better than other similar programs in many tests. UI-TARS has some new ideas to help it work better, like improved understanding, unified action planning, advanced thinking, and learning from mistakes with little human help. Definitions- Agent: A computer program that can do things on the computer. - GUI: Graphical User Interface, which means using pictures and buttons to interact with the computer. - Performance: How well something works or how fast it can do its job. - Innovations: New and creative ideas or improvements. - Perception: Understanding or seeing things clearly. - Reasoning: Thinking carefully about things to make decisions. - Iterative training: Learning by practicing over and over again. - Adaptation: Changing to fit new situations.

Perception améliorée

En exploitant un ensemble de données à grande échelle de captures d'écran GUI pour une compréhension contextuelle des éléments d'interface utilisateur et une légende précise.

Modélisation d'action unifiée

UI-TARS normalise les actions dans un espace commun entre plateformes pour une mise à la terre précise et une interaction grâce à des traces d'action à grande échelle.

Raisonnement du système-2

UI-TARS intègre un raisonnement délibéré dans la prise de décision multi-étapes, impliquant plusieurs schémas de raisonnement tels que la décomposition des tâches, la réflexion analytique, la reconnaissance des jalons, etc.

Entraînement itératif avec traces en ligne réfléchies

Pour résoudre le problème de manque de données, UI-TARS utilise un entraînement itératif et un réglage réfléchi. Il collecte automatiquement, filtre et affine les nouvelles traces d'interaction sur des centaines de machines virtuelles. Grâce à cela, UI-TARS apprend continuellement de ses erreurs et s'adapte aux situations imprévues avec une intervention humaine minimale. En analysant le chemin évolutif des agents GUI, les développeurs peuvent utiliser ces informations pour guider le développement ultérieur dans ce domaine. Cela permettra d'améliorer encore plus les performances et l'efficacité des agents GUI pour une utilisation future. Avec son approche novatrice et ses performances supérieures prouvées par les benchmarks, UI-TARS est sans aucun doute un modèle prometteur pour l'avenir des agents GUI natifs.

Créé le 24 Avr. 2025

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0