Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset

Mots clés générés par l'IA : NER modèle BERT contexte pertinent synthétique données d'entraînement analyse textuelle

Points clés générés par l'IA

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

  • Les modèles pré-entraînés basés sur des transformateurs sont précis pour la reconnaissance d'entités nommées (NER).
  • Cependant, ils ont une portée limitée pour les longs documents comme les romans entiers.
  • Les chercheurs proposent de résoudre ce problème en récupérant le contexte pertinent au niveau du document.
  • Cette tâche nécessite des approches non supervisées en raison du manque de supervision.
  • Pour surmonter cette limitation, ils utilisent Alpaca, un modèle linguistique large ajusté aux instructions, pour générer un ensemble de données d'entraînement synthétique.
  • En utilisant cet ensemble de données, ils entraînent un récupérateur de contexte neuronal basé sur un modèle BERT qui trouve le contexte pertinent pour la NER.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Arthur Amalvy (LIA), Vincent Labatut (LIA), Richard Dufour (LS2N - équipe TALN)

The 2023 Conference on Empirical Methods in Natural Language Processing, Dec 2023, Singapore, Singapore

Résumé : While recent pre-trained transformer-based models can perform named entity recognition (NER) with great accuracy, their limited range remains an issue when applied to long documents such as whole novels. To alleviate this issue, a solution is to retrieve relevant context at the document level. Unfortunately, the lack of supervision for such a task means one has to settle for unsupervised approaches. Instead, we propose to generate a synthetic context retrieval training dataset using Alpaca, an instructiontuned large language model (LLM). Using this dataset, we train a neural context retriever based on a BERT model that is able to find relevant context for NER. We show that our method outperforms several retrieval baselines for the NER task on an English literary dataset composed of the first chapter of 40 books.

Soumis à arXiv le 16 Oct. 2023

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2310.10118v1

La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Dans cette étude, les chercheurs soulignent que bien que les modèles pré-entraînés basés sur des transformateurs puissent effectuer la reconnaissance d'entités nommées (NER) avec une grande précision, leur portée limitée pose problème lorsqu'ils sont appliqués à de longs documents tels que des romans entiers. Pour résoudre ce problème, ils proposent une solution consistant à récupérer le contexte pertinent au niveau du document. Cependant, le manque de supervision pour cette tâche signifie qu'il faut se contenter d'approches non supervisées. Pour surmonter cette limitation, les chercheurs proposent de générer un ensemble de données d'entraînement synthétique pour la récupération de contexte en utilisant Alpaca, un modèle linguistique large (LLM) ajusté aux instructions. À l'aide de cet ensemble de données, ils entraînent un récupérateur de contexte neuronal basé sur un modèle BERT qui est capable de trouver le contexte pertinent pour la NER.
Créé le 17 Oct. 2023

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

La licence de cet article spécifique ne nous permet pas de nous appuyer sur son contenu et les outils de synthèse seront exécutés en utilisant les métadonnées de l'article plutôt que l'article complet. Cependant, l'outil produira quand même un bon résultat, et vous pouvez également essayer nos outils sur des papiers avec des licences plus ouvertes.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.