Multilingual E5 Text Embeddings: A Technical Report

Mots clés générés par l'IA : Multilingual E5 Text Embeddings méthodologie de formation résultats d'évaluation modèles d'incorporation de texte E5 multilingues pipeline multi-étapes

Points clés générés par l'IA

Le rapport technique "Multilingual E5 Text Embeddings" présente la méthodologie de formation et les résultats d'évaluation des modèles d'incorporation de texte E5 multilingues open source.
Trois modèles d'incorporation de tailles différentes (petite / base / grande) sont fournis, offrant un équilibre entre l'efficacité de l'inférence et la qualité de l'incorporation.
La procédure de formation suit la recette du modèle E5 anglais, impliquant un pré-entraînement contrastif sur 1 milliard de paires de textes multilingues, suivi d'un ajustement fin sur une combinaison d'ensembles de données étiquetées.
Un nouveau modèle d'incorporation adapté aux instructions est introduit, avec des performances comparables à celles des modèles anglais uniquement similaires en taille.
Les modèles mE5 surpassent significativement mDPR dans le cadre du benchmark MIRACL en termes de nDCG@10 et dans les métriques recall.
Les modèles mE5 présentent des performances compétitives dans une large gamme de langues pour l'extraction bilingue, dépassant même LaBSE grâce à la couverture linguistique élargie offerte par les données synthétiques.
*Translation in French:*
Le rapport technique "Incorporations textuelles E5 multilingues" présente la méthodologie et les résultats des modèles E5 open source.
Trois tailles différentes de modèles sont proposées pour équilibrer efficacité et qualité.
La formation suit le modèle E5 anglais avec pré-entraînement contrastif puis ajustement fin sur données étiquetées.
Nouveau modèle adapté aux instructions avec performances comparables à ceux en anglais.
Modèles mE5 surpassent mDPR dans le benchmark MIRACL en nDCG@10 et recall.
Performances compétitives pour extraction bilingue, dépassant LaBSE grâce à couverture linguistique élargie.

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei

arXiv: 2402.05672v1 - DOI (cs.CL)

6 pages

Licence : CC BY 4.0

Résumé : This technical report presents the training methodology and evaluation results of the open-source multilingual E5 text embedding models, released in mid-2023. Three embedding models of different sizes (small / base / large) are provided, offering a balance between the inference efficiency and embedding quality. The training procedure adheres to the English E5 model recipe, involving contrastive pre-training on 1 billion multilingual text pairs, followed by fine-tuning on a combination of labeled datasets. Additionally, we introduce a new instruction-tuned embedding model, whose performance is on par with state-of-the-art, English-only models of similar sizes. Information regarding the model release can be found at https://github.com/microsoft/unilm/tree/master/e5 .

Soumis à arXiv le 08 Fév. 2024

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2402.05672v1

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Le rapport technique "Multilingual E5 Text Embeddings" présente la méthodologie de formation et les résultats d'évaluation des modèles d'incorporation de texte E5 multilingues open source, publiés à la mi-2023. Trois modèles d'incorporation de tailles différentes (petite / base / grande) sont fournis, offrant un équilibre entre l'efficacité de l'inférence et la qualité de l'incorporation. La procédure de formation suit la recette du modèle E5 anglais, impliquant un pré-entraînement contrastif sur 1 milliard de paires de textes multilingues, suivi d'un ajustement fin sur une combinaison d'ensembles de données étiquetées. De plus, nous introduisons un nouveau modèle d'incorporation adapté aux instructions dont les performances sont comparables à celles des modèles anglais uniquement similaires en taille. Les informations concernant la publication du modèle peuvent être trouvées sur https://github.com/microsoft/unilm/tree/master/e5. Dans le cadre du benchmark MIRACL (Zhang et al., 2023), les modèles mE5 surpassent significativement mDPR qui a été affiné sur l'ensemble d'entraînement MIRACL tant en termes de nDCG@10 que dans les métriques recall. Des résultats détaillés pour chaque langue sont fournis dans le Tableau 6 en annexe. En ce qui concerne l'extraction bilingue, tâche de recherche similaire interlinguale nécessitant la correspondance entre deux phrases avec peu de chevauchements lexicaux, les modèles mE5 présentent des performances compétitives dans une large gamme de langues, qu'il s'agisse de langues riches ou pauvres en ressources. Notamment, le modèle mE5large-instruct dépasse les performances de LaBSE, un modèle spécifiquement conçu pour l'extraction bilingue, grâce à la couverture linguistique élargie offerte par les données synthétiques (Wang et al., 2023). En conclusion, ce bref rapport technique présente des modèles d'incorporation textuelle multilingues E5 formés avec un pipeline multi-étapes. En mettant publiquement à disposition les poids du modèle, cela permet aux praticiens...

- Le rapport technique "Multilingual E5 Text Embeddings" présente la méthodologie de formation et les résultats d'évaluation des modèles d'incorporation de texte E5 multilingues open source.
- Trois modèles d'incorporation de tailles différentes (petite / base / grande) sont fournis, offrant un équilibre entre l'efficacité de l'inférence et la qualité de l'incorporation.
- La procédure de formation suit la recette du modèle E5 anglais, impliquant un pré-entraînement contrastif sur 1 milliard de paires de textes multilingues, suivi d'un ajustement fin sur une combinaison d'ensembles de données étiquetées.
- Un nouveau modèle d'incorporation adapté aux instructions est introduit, avec des performances comparables à celles des modèles anglais uniquement similaires en taille.
- Les modèles mE5 surpassent significativement mDPR dans le cadre du benchmark MIRACL en termes de nDCG@10 et dans les métriques recall.
- Les modèles mE5 présentent des performances compétitives dans une large gamme de langues pour l'extraction bilingue, dépassant même LaBSE grâce à la couverture linguistique élargie offerte par les données synthétiques.
*Translation in French:*
- Le rapport technique "Incorporations textuelles E5 multilingues" présente la méthodologie et les résultats des modèles E5 open source.
- Trois tailles différentes de modèles sont proposées pour équilibrer efficacité et qualité.
- La formation suit le modèle E5 anglais avec pré-entraînement contrastif puis ajustement fin sur données étiquetées.
- Nouveau modèle adapté aux instructions avec performances comparables à ceux en anglais.
- Modèles mE5 surpassent mDPR dans le benchmark MIRACL en nDCG@10 et recall.
- Performances compétitives pour extraction bilingue, dépassant LaBSE grâce à couverture linguistique élargie.

SummaryUn rapport technique explique comment des modèles de texte multilingues ont été créés et évalués. Trois tailles différentes de ces modèles sont disponibles pour trouver un bon équilibre entre rapidité et qualité. Pour les former, on utilise une méthode qui commence par un entraînement sur beaucoup de textes différents, puis on affine le modèle avec des données spécifiques. Un nouveau modèle adapté aux instructions a été développé avec des performances similaires à ceux en anglais. Ces nouveaux modèles surpassent d'autres dans des tests en termes de pertinence et de rappel. Definitions- Rapport technique: Un document qui explique une méthode ou des résultats techniques. - Modèle d'incorporation de texte: Une représentation numérique d'un morceau de texte utilisée pour l'analyse informatique. - Multilingue: Qui concerne plusieurs langues. - Entraînement contrastif: Processus d'apprentissage où le modèle est confronté à différentes informations pour s'améliorer. - Benchmark: Test standard utilisé pour comparer la performance des modèles. - Pertinence: Mesure de l'adéquation ou de l'utilité d'une information par rapport à une tâche donnée.

Le rapport technique "Multilingual E5 Text Embeddings" présente la méthodologie de formation et les résultats d'évaluation des modèles d'incorporation de texte E5 multilingues open source, publiés à la mi-2023. Ce rapport détaille les différentes étapes du processus de formation des modèles ainsi que leurs performances lors des évaluations. Les modèles d'incorporation E5 sont disponibles en trois tailles différentes (petite / base / grande), offrant un équilibre entre l'efficacité de l'inférence et la qualité de l'incorporation. La procédure de formation suit la recette du modèle E5 anglais, impliquant un pré-entraînement contrastif sur 1 milliard de paires de textes multilingues, suivi d'un ajustement fin sur une combinaison d'ensembles de données étiquetées. Cette méthode permet aux modèles d'être adaptés à plusieurs langues tout en maintenant leur efficacité. En plus des modèles traditionnels pour le traitement du langage naturel, ce rapport introduit également un nouveau modèle spécialement conçu pour les instructions. Les performances de ce modèle sont comparables à celles des autres modèles anglais uniquement similaires en taille. Toutes ces informations peuvent être trouvées sur https://github.com/microsoft/unilm/tree/master/e5 où le modèle est publiquement disponible. Lors du benchmark MIRACL (Zhang et al., 2023), les résultats ont montré que les modèles mE5 surpassent significativement mDPR qui a été affiné sur l'ensemble d'entraînement MIRACL tant en termes nDCG@10 que dans les métriques de rappel. Des résultats détaillés pour chaque langue sont fournis dans le Tableau 6 en annexe, montrant ainsi la performance des modèles pour différentes langues. En ce qui concerne l'extraction bilingue, une tâche de recherche similaire interlinguale nécessitant la correspondance entre deux phrases avec peu de chevauchements lexicaux, les modèles mE5 présentent des performances compétitives dans une large gamme de langues, qu'il s'agisse de langues riches ou pauvres en ressources. Notamment, le modèle mE5large-instruct dépasse même les performances du modèle LaBSE spécialement conçu pour cette tâche grâce à sa couverture linguistique élargie offerte par les données synthétiques (Wang et al., 2023). En conclusion, ce rapport technique présente des modèles d'incorporation textuelle multilingues E5 formés avec un pipeline multi-étapes. En mettant publiquement à disposition les poids du modèle, cela permet aux praticiens d'utiliser ces modèles pour leurs propres projets et ainsi améliorer leurs performances en traitement du langage naturel dans différentes langues. Les résultats obtenus lors des évaluations montrent que ces modèles sont efficaces et compétitifs dans une variété de tâches linguistiques.

Créé le 01 Sep. 2024

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

Multilingual E5 Text Embeddings: A Technical Report

Points clés générés par l'IA

Posez des questions sur cet article à notre assistant IA

Résultats du processus de synthèse de l'article arXiv : 2402.05672v1

Articles similaires résumés avec nos outils d'IA