Multilingual E5 Text Embeddings: A Technical Report
Points clés générés par l'IA
- Le rapport technique "Multilingual E5 Text Embeddings" présente la méthodologie de formation et les résultats d'évaluation des modèles d'incorporation de texte E5 multilingues open source.
- Trois modèles d'incorporation de tailles différentes (petite / base / grande) sont fournis, offrant un équilibre entre l'efficacité de l'inférence et la qualité de l'incorporation.
- La procédure de formation suit la recette du modèle E5 anglais, impliquant un pré-entraînement contrastif sur 1 milliard de paires de textes multilingues, suivi d'un ajustement fin sur une combinaison d'ensembles de données étiquetées.
- Un nouveau modèle d'incorporation adapté aux instructions est introduit, avec des performances comparables à celles des modèles anglais uniquement similaires en taille.
- Les modèles mE5 surpassent significativement mDPR dans le cadre du benchmark MIRACL en termes de nDCG@10 et dans les métriques recall.
- Les modèles mE5 présentent des performances compétitives dans une large gamme de langues pour l'extraction bilingue, dépassant même LaBSE grâce à la couverture linguistique élargie offerte par les données synthétiques.
- *Translation in French:*
- Le rapport technique "Incorporations textuelles E5 multilingues" présente la méthodologie et les résultats des modèles E5 open source.
- Trois tailles différentes de modèles sont proposées pour équilibrer efficacité et qualité.
- La formation suit le modèle E5 anglais avec pré-entraînement contrastif puis ajustement fin sur données étiquetées.
- Nouveau modèle adapté aux instructions avec performances comparables à ceux en anglais.
- Modèles mE5 surpassent mDPR dans le benchmark MIRACL en nDCG@10 et recall.
- Performances compétitives pour extraction bilingue, dépassant LaBSE grâce à couverture linguistique élargie.
Auteurs : Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
Résumé : This technical report presents the training methodology and evaluation results of the open-source multilingual E5 text embedding models, released in mid-2023. Three embedding models of different sizes (small / base / large) are provided, offering a balance between the inference efficiency and embedding quality. The training procedure adheres to the English E5 model recipe, involving contrastive pre-training on 1 billion multilingual text pairs, followed by fine-tuning on a combination of labeled datasets. Additionally, we introduce a new instruction-tuned embedding model, whose performance is on par with state-of-the-art, English-only models of similar sizes. Information regarding the model release can be found at https://github.com/microsoft/unilm/tree/master/e5 .
Posez des questions sur cet article à notre assistant IA
Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.
Évaluez la qualité du contenu généré par l'IA en votant
Note : 0
Pourquoi avons-nous besoin de votes ?
Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.
Articles similaires résumés avec nos outils d'IA
Naviguez à travers encore plus d'articles similaires en utilisant une
représentation arborescenteRecherchez des articles similaires (en version bêta)
En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.
Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.