Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation
Points clés générés par l'IA
- Les algorithmes d'apprentissage par renforcement profond (RL) sans modèle sont préjudiciables à l'efficacité de l'échantillonnage lorsqu'ils utilisent des estimations de valeurs bruyantes pour superviser l'évaluation et l'optimisation des politiques.
- Le bruit étant hétéroscédastique, ses effets peuvent être atténués en utilisant des poids basés sur l'incertitude dans le processus d'optimisation.
- Les méthodes précédentes ne capturent pas tous les aspects de l'incertitude, donc les auteurs proposent IV-RL (Inverse Variance RL), un cadre bayésien qui combine des ensembles probabilistes et un pondération Batch Inverse Variance pour mieux atténuer les impacts négatifs de la supervision bruyante.
- Deux méthodes complémentaires d’estimation de l’incertitude tiennent compte à la fois de la valeur Q et de la stochasticité environnementale pour mieux atténuer les impacts négatifs de la supervision bruyante.
- Les résultats montrent une amélioration significative en termes d’efficacité d’apprentissage sur des tâches discrètes et continues.
- IV-RL est présenté comme un cadre pour le RL profond sans modèle qui utilise l'estimation d'incertitude pour améliorer l’efficacité du processus d’apprentissage et ses performances.
Auteurs : Vincent Mai, Kaustubh Mani, Liam Paull
Résumé : In model-free deep reinforcement learning (RL) algorithms, using noisy value estimates to supervise policy evaluation and optimization is detrimental to the sample efficiency. As this noise is heteroscedastic, its effects can be mitigated using uncertainty-based weights in the optimization process. Previous methods rely on sampled ensembles, which do not capture all aspects of uncertainty. We provide a systematic analysis of the sources of uncertainty in the noisy supervision that occurs in RL, and introduce inverse-variance RL, a Bayesian framework which combines probabilistic ensembles and Batch Inverse Variance weighting. We propose a method whereby two complementary uncertainty estimation methods account for both the Q-value and the environment stochasticity to better mitigate the negative impacts of noisy supervision. Our results show significant improvement in terms of sample efficiency on discrete and continuous control tasks.
Posez des questions sur cet article à notre assistant IA
Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.
Évaluez la qualité du contenu généré par l'IA en votant
Note : 0
Pourquoi avons-nous besoin de votes ?
Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.
Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.
Articles similaires résumés avec nos outils d'IA
Naviguez à travers encore plus d'articles similaires en utilisant une
représentation arborescenteRecherchez des articles similaires (en version bêta)
En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.
Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.