Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset

Mots clés générés par l'IA : NER modèle BERT contexte pertinent synthétique données d'entraînement analyse textuelle

Points clés générés par l'IA

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

Les modèles pré-entraînés basés sur des transformateurs sont précis pour la reconnaissance d'entités nommées (NER).
Cependant, ils ont une portée limitée pour les longs documents comme les romans entiers.
Les chercheurs proposent de résoudre ce problème en récupérant le contexte pertinent au niveau du document.
Cette tâche nécessite des approches non supervisées en raison du manque de supervision.
Pour surmonter cette limitation, ils utilisent Alpaca, un modèle linguistique large ajusté aux instructions, pour générer un ensemble de données d'entraînement synthétique.
En utilisant cet ensemble de données, ils entraînent un récupérateur de contexte neuronal basé sur un modèle BERT qui trouve le contexte pertinent pour la NER.

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Arthur Amalvy (LIA), Vincent Labatut (LIA), Richard Dufour (LS2N - équipe TALN)

The 2023 Conference on Empirical Methods in Natural Language Processing, Dec 2023, Singapore, Singapore

arXiv: 2310.10118v1 - DOI (cs.CL)

Licence : NONEXCLUSIVE-DISTRIB 1.0

Résumé : While recent pre-trained transformer-based models can perform named entity recognition (NER) with great accuracy, their limited range remains an issue when applied to long documents such as whole novels. To alleviate this issue, a solution is to retrieve relevant context at the document level. Unfortunately, the lack of supervision for such a task means one has to settle for unsupervised approaches. Instead, we propose to generate a synthetic context retrieval training dataset using Alpaca, an instructiontuned large language model (LLM). Using this dataset, we train a neural context retriever based on a BERT model that is able to find relevant context for NER. We show that our method outperforms several retrieval baselines for the NER task on an English literary dataset composed of the first chapter of 40 books.

Soumis à arXiv le 16 Oct. 2023

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2310.10118v1

⚠La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Dans cette étude, les chercheurs soulignent que bien que les modèles pré-entraînés basés sur des transformateurs puissent effectuer la reconnaissance d'entités nommées (NER) avec une grande précision, leur portée limitée pose problème lorsqu'ils sont appliqués à de longs documents tels que des romans entiers. Pour résoudre ce problème, ils proposent une solution consistant à récupérer le contexte pertinent au niveau du document. Cependant, le manque de supervision pour cette tâche signifie qu'il faut se contenter d'approches non supervisées. Pour surmonter cette limitation, les chercheurs proposent de générer un ensemble de données d'entraînement synthétique pour la récupération de contexte en utilisant Alpaca, un modèle linguistique large (LLM) ajusté aux instructions. À l'aide de cet ensemble de données, ils entraînent un récupérateur de contexte neuronal basé sur un modèle BERT qui est capable de trouver le contexte pertinent pour la NER.

- Les modèles pré-entraînés basés sur des transformateurs sont précis pour la reconnaissance d'entités nommées (NER).
- Cependant, ils ont une portée limitée pour les longs documents comme les romans entiers.
- Les chercheurs proposent de résoudre ce problème en récupérant le contexte pertinent au niveau du document.
- Cette tâche nécessite des approches non supervisées en raison du manque de supervision.
- Pour surmonter cette limitation, ils utilisent Alpaca, un modèle linguistique large ajusté aux instructions, pour générer un ensemble de données d'entraînement synthétique.
- En utilisant cet ensemble de données, ils entraînent un récupérateur de contexte neuronal basé sur un modèle BERT qui trouve le contexte pertinent pour la NER.

Résumé - Les modèles pré-entraînés basés sur des transformateurs sont précis pour reconnaître les noms de personnes ou d'objets. - Cependant, ils ne fonctionnent pas très bien pour de longs documents comme des romans entiers. - Les chercheurs proposent une solution en récupérant le contexte important dans tout le document. - Cette tâche nécessite des approches non supervisées car il n'y a pas assez de supervision. - Pour résoudre ce problème, ils utilisent Alpaca, un modèle linguistique spécial qui génère des données d'entraînement artificielles. Définitions - Modèles pré-entraînés : Des modèles informatiques qui ont déjà été entraînés sur beaucoup de données et peuvent être utilisés pour effectuer certaines tâches sans avoir besoin d'un nouvel entraînement complet. - Transformateurs : Une technique utilisée dans l'apprentissage automatique pour traiter et comprendre les séquences de mots ou de symboles. - Reconnaissance d'entités nommées (NER) : La capacité à identifier et à classer les noms de personnes, d'organisations, de lieux, etc. dans un texte. - Contexte pertinent : Les informations importantes ou utiles qui entourent une situation ou un évén

Reconnaissance d'entités nommées (NER) et récupération de contexte pertinent

Dans cette étude, les chercheurs ont souligné que bien que les modèles pré-entraînés basés sur des transformateurs puissent effectuer la reconnaissance d'entités nommées (NER) avec une grande précision, leur portée limitée pose problème lorsqu'ils sont appliqués à de longs documents tels que des romans entiers. Pour résoudre ce problème, ils proposent une solution consistant à récupérer le contexte pertinent au niveau du document. Cependant, le manque de supervision pour cette tâche signifie qu'il faut se contenter d'approches non supervisées.

Génération d’un ensemble de données d’entraînement synthétique

Pour surmonter cette limitation, les chercheurs proposent de générer un ensemble de données d'entraînement synthétique pour la récupération de contexte en utilisant Alpaca, un modèle linguistique large (LLM) ajustable aux instructions. À l'aide de cet ensemble de données, ils entraîneront un récupérateur neuronal basée sur un modèle BERT qui est capable trouver le contexte pertinent pour la NER.

Conclusion

En conclusion, cette recherche montre comment une approche non supervisée peut être utilisée pour amener les modèles pr-entrainés à mieux comprendre et traiter des documents plus longs comme des romans entiers grâce à la générartion automatique d’un jeu de données synthétiques et l’utilisation du modèle BERT pour trouver le contexte pertinent associ éà la reconnaissance des entit és nommé es (NER).

Créé le 17 Oct. 2023

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

⚠La licence de cet article spécifique ne nous permet pas de nous appuyer sur son contenu et les outils de synthèse seront exécutés en utilisant les métadonnées de l'article plutôt que l'article complet. Cependant, l'outil produira quand même un bon résultat, et vous pouvez également essayer nos outils sur des papiers avec des licences plus ouvertes.