An Empirical Survey of Data Augmentation for Limited Data Learning in NLP

Mots clés générés par l'IA : Augmentation de données NLP classification des sujets/nouvelles inférence paraphrase

Points clés générés par l'IA

  • La NLP a connu une forte progression grâce à l'utilisation de modèles neuronaux et d'importants ensembles de données étiquetées.
  • La dépendance aux données abondantes limite l'application des modèles NLP dans des environnements à faibles ressources ou pour des tâches nouvelles qui nécessitent un temps, de l'argent ou une expertise considérables pour étiqueter d'importantes quantités de données textuelles.
  • Les méthodes d'augmentation de données sont récemment explorées comme moyen d'améliorer l'efficacité des données en NLP.
  • Il n’existe pas encore d’aperçu empirique systématique sur l’augmentation de donnée pour la NLP dans le cadre limitatif des donnée étiquetée, ce qui rend difficile la compréhension des méthodes qui fonctionne bien dans quelles situations.
  • L'article fournit une enquête empirique sur les progrès récents en matière d’augmentation de donnée pour la NLP avec un cadre limitatif aux donnée étiquetée.
  • Le paysage des méthodes est résumé (y compris les augmentations au niveau du jeton, au niveau phrase, adversaires et cachés) et 11 expériences sont effectuées sur différents types de tâches en NLP.
  • Plusieurs conclusions seront tirées afin d’aider les praticiens à choisir les augmentations appropriées selon différents contextes et discuterons également sur les défis actuels et orientations futures pour apprendre avec peu de donnée en NLP.
  • Les résultats incluront également une comparaison quantitative entre diffèrentes techniques telles que Synonym Replacement (SR), Language Modeling (LM), Random Insertion (RI), Random Deletion (RD), Random Swap (RS), Word Replacement (WR), Round-trip Translation (RT), Adversarial Training (ADV) and Mixup.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Jiaao Chen, Derek Tam, Colin Raffel, Mohit Bansal, Diyi Yang

Licence : CC BY 4.0

Résumé : NLP has achieved great progress in the past decade through the use of neural models and large labeled datasets. The dependence on abundant data prevents NLP models from being applied to low-resource settings or novel tasks where significant time, money, or expertise is required to label massive amounts of textual data. Recently, data augmentation methods have been explored as a means of improving data efficiency in NLP. To date, there has been no systematic empirical overview of data augmentation for NLP in the limited labeled data setting, making it difficult to understand which methods work in which settings. In this paper, we provide an empirical survey of recent progress on data augmentation for NLP in the limited labeled data setting, summarizing the landscape of methods (including token-level augmentations, sentence-level augmentations, adversarial augmentations, and hidden-space augmentations) and carrying out experiments on 11 datasets covering topics/news classification, inference tasks, paraphrasing tasks, and single-sentence tasks. Based on the results, we draw several conclusions to help practitioners choose appropriate augmentations in different settings and discuss the current challenges and future directions for limited data learning in NLP.

Soumis à arXiv le 14 Jui. 2021

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2106.07499v1

La NLP a connu une forte progression au cours de la dernière décennie grâce à l'utilisation de modèles neuronaux et d'importants ensembles de données étiquetées. Cependant, la dépendance aux données abondantes limite l'application des modèles NLP dans des environnements à faibles ressources ou pour des tâches nouvelles qui nécessitent un temps, de l'argent ou une expertise considérables pour étiqueter d'importantes quantités de données textuelles. Les méthodes d'augmentation de données sont récemment explorées comme moyen d'améliorer l'efficacité des données en NLP. Il n’existe pas encore d’aperçu empirique systématique sur l’augmentation de donnée pour la NLP dans le cadre limitatif des donnée étiquetée, ce qui rend difficile la compréhension des méthodes qui fonctionne bien dans quelles situations. Dans cet article, nous fournirons une enquête empirique sur les progrès récents en matière d’augmentation de donnée pour la NLP avec un cadre limitatif aux donnée étiquetée. Nous résumerons le paysage des méthodes (y compris les augmentations au niveau du jeton, au niveau phrase, adversaires et cachés) et effectuerons des expériences sur 11 ensembles de donnée couvrant la classification des sujets/news, les tâches inférables, les tâches paraphrasiques et les tâches à phrase unique. Sur base des résultats obtenus, plusieurs conclusions seront tirés afin d’aider les praticiens à choisir les augmentations appropriés selon différents contextes et discuterons également sur les défis actuels et orientations futures pour apprendre avec peu de donnée en NLP. Les résultats incluront également une comparaison quantitative entre diffèrent techniques tel que Synonym Replacement (SR), Language Modeling (LM), Random Insertion (RI), Random Deletion (RD), Random Swap (RS), Word Replacement (WR), Round-trip Translation (RT), Adversarial Training (ADV) and Mixup.
Créé le 11 Mar. 2023

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.