Combining Spatial and Temporal Abstraction in Planning for Better Generalization

Mots clés générés par l'IA : Apprentissage par renforcement modèle basé sur la planification consciente abstractions spatiales et temporelles généralisation sans apprentissage préalable méthodes hiérarchiques

Points clés générés par l'IA

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

  • Skipper est un agent d'apprentissage par renforcement basé sur un modèle qui s'inspire de la planification consciente humaine.
  • Il utilise des abstractions spatiales et temporelles pour généraliser les compétences apprises dans des situations nouvelles.
  • Skipper décompose automatiquement la tâche en sous-tâches plus petites et gérables, ce qui permet une prise de décision parcimonieuse et concentre ses calculs sur les parties pertinentes de l'environnement.
  • L'approche repose sur la définition d'un problème proxy de haut niveau représenté par un graphe dirigé, dont les sommets et les arêtes sont appris de bout en bout en utilisant le recul.
  • Des analyses théoriques fournissent des garanties de performance sous des hypothèses appropriées et établissent où notre approche est censée être utile.
  • Des expériences axées sur la généralisation valident l'avantage significatif de Skipper en termes de généralisation sans apprentissage préalable, par rapport aux méthodes hiérarchiques actuelles d'état de l'art.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Mingde Zhao, Safa Alver, Harm van Seijen, Romain Laroche, Doina Precup, Yoshua Bengio

Résumé : Inspired by human conscious planning, we propose Skipper, a model-based reinforcement learning agent that utilizes spatial and temporal abstractions to generalize learned skills in novel situations. It automatically decomposes the task at hand into smaller-scale, more manageable subtasks and hence enables sparse decision-making and focuses its computation on the relevant parts of the environment. This relies on the definition of a high-level proxy problem represented as a directed graph, in which vertices and edges are learned end-to-end using hindsight. Our theoretical analyses provide performance guarantees under appropriate assumptions and establish where our approach is expected to be helpful. Generalization-focused experiments validate Skipper's significant advantage in zero-shot generalization, compared to existing state-of-the-art hierarchical planning methods.

Soumis à arXiv le 30 Sep. 2023

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2310.00229v1

La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Nous proposons Skipper, un agent d'apprentissage par renforcement basé sur un modèle qui s'inspire de la planification consciente humaine. Il utilise des abstractions spatiales et temporelles pour généraliser les compétences apprises dans des situations nouvelles. Skipper décompose automatiquement la tâche en sous-tâches de plus petite échelle et plus gérables, ce qui permet une prise de décision parcimonieuse et concentre ses calculs sur les parties pertinentes de l'environnement. Cette approche repose sur la définition d'un problème proxy de haut niveau représenté par un graphe dirigé, dont les sommets et les arêtes sont appris de bout en bout en utilisant le recul. Nos analyses théoriques fournissent des garanties de performance sous des hypothèses appropriées et établissent où notre approche est censée être utile. Des expériences axées sur la généralisation valident l'avantage significatif de Skipper en termes de généralisation sans apprentissage préalable, par rapport aux méthodes hiérarchiques actuelles d'état de l'art. Dans cette étude, nous avons développé une méthode novatrice pour résoudre des problèmes complexes en utilisant des abstractions spatiales et temporelles. Notre agent d'apprentissage par renforcement, appelé Skipper, est capable de décomposer automatiquement une tâche complexe en sous-tâches plus simples grâce à l'utilisation d'un graphe dirigé. Les sommets du graphe représentent les étapes intermédiaires nécessaires pour accomplir la tâche globale, tandis que les arêtes représentent les transitions entre ces étapes. Une caractéristique clé de notre approche est l'utilisation d'un apprentissage par renforcement basé sur un modèle. Cela signifie que Skipper apprend à partir d'expériences passées et utilise ces connaissances pour généraliser ses compétences dans de nouvelles situations. En utilisant des abstractions spatiales et temporelles, Skipper peut se concentrer sur les parties pertinentes de l'environnement et prendre des décisions éclairées. Nous avons réalisé des expériences pour évaluer les performances de Skipper en termes de généralisation sans apprentissage préalable. Les résultats ont montré que notre approche offre un avantage significatif par rapport aux méthodes hiérarchiques actuelles d'état de l'art. Cela démontre la capacité de Skipper à généraliser ses compétences dans des situations inconnues, ce qui est essentiel pour résoudre efficacement des problèmes complexes du monde réel. En conclusion, notre étude présente une approche novatrice pour résoudre des problèmes complexes en utilisant des abstractions spatiales et temporelles. Notre agent d'apprentissage par renforcement, Skipper, a démontré sa capacité à généraliser ses compétences dans des situations inconnues, ce qui le distingue des méthodes hiérarchiques traditionnelles. Ces résultats ouvrent la voie à de nouvelles possibilités dans le domaine de la planification consciente inspirée par l'humain.
Créé le 05 Fév. 2024

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.