Multilingual E5 Text Embeddings: A Technical Report

Mots clés générés par l'IA : Multilingual E5 Text Embeddings méthodologie de formation résultats d'évaluation modèles d'incorporation de texte E5 multilingues pipeline multi-étapes

Points clés générés par l'IA

  • Le rapport technique "Multilingual E5 Text Embeddings" présente la méthodologie de formation et les résultats d'évaluation des modèles d'incorporation de texte E5 multilingues open source.
  • Trois modèles d'incorporation de tailles différentes (petite / base / grande) sont fournis, offrant un équilibre entre l'efficacité de l'inférence et la qualité de l'incorporation.
  • La procédure de formation suit la recette du modèle E5 anglais, impliquant un pré-entraînement contrastif sur 1 milliard de paires de textes multilingues, suivi d'un ajustement fin sur une combinaison d'ensembles de données étiquetées.
  • Un nouveau modèle d'incorporation adapté aux instructions est introduit, avec des performances comparables à celles des modèles anglais uniquement similaires en taille.
  • Les modèles mE5 surpassent significativement mDPR dans le cadre du benchmark MIRACL en termes de nDCG@10 et dans les métriques recall.
  • Les modèles mE5 présentent des performances compétitives dans une large gamme de langues pour l'extraction bilingue, dépassant même LaBSE grâce à la couverture linguistique élargie offerte par les données synthétiques.
  • *Translation in French:*
  • Le rapport technique "Incorporations textuelles E5 multilingues" présente la méthodologie et les résultats des modèles E5 open source.
  • Trois tailles différentes de modèles sont proposées pour équilibrer efficacité et qualité.
  • La formation suit le modèle E5 anglais avec pré-entraînement contrastif puis ajustement fin sur données étiquetées.
  • Nouveau modèle adapté aux instructions avec performances comparables à ceux en anglais.
  • Modèles mE5 surpassent mDPR dans le benchmark MIRACL en nDCG@10 et recall.
  • Performances compétitives pour extraction bilingue, dépassant LaBSE grâce à couverture linguistique élargie.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei

6 pages
Licence : CC BY 4.0

Résumé : This technical report presents the training methodology and evaluation results of the open-source multilingual E5 text embedding models, released in mid-2023. Three embedding models of different sizes (small / base / large) are provided, offering a balance between the inference efficiency and embedding quality. The training procedure adheres to the English E5 model recipe, involving contrastive pre-training on 1 billion multilingual text pairs, followed by fine-tuning on a combination of labeled datasets. Additionally, we introduce a new instruction-tuned embedding model, whose performance is on par with state-of-the-art, English-only models of similar sizes. Information regarding the model release can be found at https://github.com/microsoft/unilm/tree/master/e5 .

Soumis à arXiv le 08 Fév. 2024

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2402.05672v1

Le rapport technique "Multilingual E5 Text Embeddings" présente la méthodologie de formation et les résultats d'évaluation des modèles d'incorporation de texte E5 multilingues open source, publiés à la mi-2023. Trois modèles d'incorporation de tailles différentes (petite / base / grande) sont fournis, offrant un équilibre entre l'efficacité de l'inférence et la qualité de l'incorporation. La procédure de formation suit la recette du modèle E5 anglais, impliquant un pré-entraînement contrastif sur 1 milliard de paires de textes multilingues, suivi d'un ajustement fin sur une combinaison d'ensembles de données étiquetées. De plus, nous introduisons un nouveau modèle d'incorporation adapté aux instructions dont les performances sont comparables à celles des modèles anglais uniquement similaires en taille. Les informations concernant la publication du modèle peuvent être trouvées sur https://github.com/microsoft/unilm/tree/master/e5. Dans le cadre du benchmark MIRACL (Zhang et al., 2023), les modèles mE5 surpassent significativement mDPR qui a été affiné sur l'ensemble d'entraînement MIRACL tant en termes de nDCG@10 que dans les métriques recall. Des résultats détaillés pour chaque langue sont fournis dans le Tableau 6 en annexe. En ce qui concerne l'extraction bilingue, tâche de recherche similaire interlinguale nécessitant la correspondance entre deux phrases avec peu de chevauchements lexicaux, les modèles mE5 présentent des performances compétitives dans une large gamme de langues, qu'il s'agisse de langues riches ou pauvres en ressources. Notamment, le modèle mE5large-instruct dépasse les performances de LaBSE, un modèle spécifiquement conçu pour l'extraction bilingue, grâce à la couverture linguistique élargie offerte par les données synthétiques (Wang et al., 2023). En conclusion, ce bref rapport technique présente des modèles d'incorporation textuelle multilingues E5 formés avec un pipeline multi-étapes. En mettant publiquement à disposition les poids du modèle, cela permet aux praticiens...
Créé le 01 Sep. 2024

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.