Nous présentons SeaLLMs, une série innovante de modèles linguistiques qui se concentre spécifiquement sur les langues d'Asie du Sud-Est (SEA). Ces modèles sont basés sur le modèle Llama-2 et sont améliorés grâce à un entraînement continu avec un vocabulaire étendu, des instructions spécialisées et un ajustement de l'alignement pour mieux capturer les subtilités des langues régionales. Cela leur permet de respecter et de refléter les normes culturelles locales, les coutumes, les préférences stylistiques et les considérations juridiques. Notre évaluation complète démontre que les modèles SeaLLM-13b présentent des performances supérieures dans un large éventail de tâches linguistiques ainsi que dans la capacité à suivre des instructions similaires à celles d'un assistant par rapport aux modèles open-source comparables. De plus, ils surpassent largement ChatGPT-3.5 dans les langues non-latines telles que le thaï, le khmer, le lao et le birman tout en restant légers et économiques à utiliser. Une des difficultés rencontrées lors du traitement des langues non-latines sous-représentées est l'encodage inefficace causé par la segmentation inadéquate des textes provenant de scripts non-européens et non-latins en séquences d'octets disproportionnellement longues. Cela entraîne une diminution des performances du modèle car ces séquences ne représentent pas correctement le contenu sémantique sous-jacent. Cette inefficacité limite également la capacité du modèle à traiter des tâches nécessitant l'analyse de contextes étendus, tels que la compréhension de lecture, en raison des contraintes imposées par les longueurs maximales de contexte. Pour remédier à cela, nous proposons une nouvelle technique d'expansion du vocabulaire. Cette technique consiste à fusionner de manière récursive des morceaux de mots entiers et sous-mots d'une nouvelle langue provenant d'un tokenizer multilingue cible hautement performant, appelé NLLB tokenizer, avec le tokenizer existant Llama-2. Les nouveaux tokens récupérés sont ensuite élagués pour supprimer les tokens peu fréquents et de faible qualité avant d'être ajoutés au tokenizer final SeaLLM. Ce processus d'élagage basé sur la fréquence garantit que la nouvelle langue est encodée de manière suffisante et efficace sans introduire des tokens provenant d'autres langues existantes (comme l'anglais) qui pourraient perturber les connaissances acquises lors de l'étape préliminaire d'entraînement du modèle Llama-2. Grâce à cette extension du vocabulaire, nous avons obtenu 16 512 nouveaux tokens pour représenter les langues d'Asie du Sud-Est. Nous organisons notre ensemble de données pré-entraînement en fonction de la langue du contenu et de sa qualité. Pour chaque langue, nous créons un flux séparé de données (FLi). Lorsque nous avons besoin d'un document pour le pré-entraînement, nous sélectionnons une langue Li selon une probabilité prédéfinie, puis extrayons un document du flux correspondant FLi.
- - SeaLLMs est une série de modèles linguistiques pour les langues d'Asie du Sud-Est
- - Les modèles sont basés sur Llama-2 et améliorés avec un entraînement continu
- - Ils respectent et reflètent les normes culturelles locales, les coutumes, les préférences stylistiques et les considérations juridiques
- - Les modèles SeaLLM-13b ont des performances supérieures dans différentes tâches linguistiques par rapport aux modèles open-source comparables et surpassent ChatGPT-3.5 dans certaines langues non-latines
- - Une difficulté rencontrée lors du traitement des langues non-latines est l'encodage inefficace causé par la segmentation inadéquate des textes provenant de scripts non-européens et non-latins en séquences d'octets disproportionnellement longues
- - Une nouvelle technique d'expansion du vocabulaire est proposée pour remédier à cela, en fusionnant des morceaux de mots entiers et sous-mots d'une nouvelle langue avec le tokenizer existant Llama-2
- - Cette extension du vocabulaire a permis d'obtenir 16 512 nouveaux tokens pour représenter les langues d'Asie du Sud-Est
- - L'ensemble de données pré-entraînement est organisé en fonction de la langue du contenu et de sa qualité
Résumé
- SeaLLMs est une série de modèles linguistiques pour les langues d'Asie du Sud-Est.
- Les modèles sont basés sur Llama-2 et améliorés avec un entraînement continu.
- Ils respectent et reflètent les normes culturelles locales, les coutumes, les préférences stylistiques et les considérations juridiques.
- Les modèles SeaLLM-13b ont de meilleures performances que d'autres modèles open-source dans différentes tâches linguistiques, et ils surpassent ChatGPT-3.5 dans certaines langues non-latines.
- Le traitement des langues non-latines peut être difficile en raison de l'encodage inefficace causé par la segmentation inadéquate des textes provenant de scripts non-européens et non-latins en séquences d'octets disproportionnellement longues.
Définitions
- Modèles linguistiques : Des outils informatiques qui aident à comprendre et à générer du texte dans différentes langues.
- Normes culturelles : Les règles et attentes qui définissent le comportement acceptable dans une société donnée.
- Coutumes : Les traditions ou pratiques couramment suivies par un groupe de personnes.
- Préférences stylistiques : Les choix personnels concernant la façon
Nous présentons SeaLLMs, une série innovante de modèles linguistiques qui se concentre spécifiquement sur les langues d'Asie du Sud-Est (SEA). Ces modèles sont basés sur le modèle Llama-2 et sont améliorés grâce à un entraînement continu avec un vocabulaire étendu, des instructions spécialisées et un ajustement de l'alignement pour mieux capturer les subtilités des langues régionales. Cela leur permet de respecter et de refléter les normes culturelles locales, les coutumes, les préférences stylistiques et les considérations juridiques.
Notre évaluation complète démontre que les modèles SeaLLM-13b présentent des performances supérieures dans un large éventail de tâches linguistiques ainsi que dans la capacité à suivre des instructions similaires à celles d'un assistant par rapport aux modèles open-source comparables. De plus, ils surpassent largement ChatGPT-3.5 dans les langues non-latines telles que le thaï, le khmer, le lao et le birman tout en restant légers et économiques à utiliser.
Une des difficultés rencontrées lors du traitement des langues non-latines sous-représentées est l'encodage inefficace causé par la segmentation inadéquate des textes provenant de scripts non-européens et non-latins en séquences d'octets disproportionnellement longues. Cela entraîne une diminution des performances du modèle car ces séquences ne représentent pas correctement le contenu sémantique sous-jacent. Cette inefficacité limite également la capacité du modèle à traiter des tâches nécessitant l'analyse de contextes étendus, tels que la compréhension de lecture, en raison des contraintes imposées par les longueurs maximales de contexte.
Pour remédier à cela, nous proposons une nouvelle technique d'expansion du vocabulaire. Cette technique consiste à fusionner de manière récursive des morceaux de mots entiers et sous-mots d'une nouvelle langue provenant d'un tokenizer multilingue cible hautement performant, appelé NLLB tokenizer, avec le tokenizer existant Llama-2. Les nouveaux tokens récupérés sont ensuite élagués pour supprimer les tokens peu fréquents et de faible qualité avant d'être ajoutés au tokenizer final SeaLLM.
Ce processus d'élagage basé sur la fréquence garantit que la nouvelle langue est encodée de manière suffisante et efficace sans introduire des tokens provenant d'autres langues existantes (comme l'anglais) qui pourraient perturber les connaissances acquises lors de l'étape préliminaire d'entraînement du modèle Llama-2. Grâce à cette extension du vocabulaire, nous avons obtenu 16 512 nouveaux tokens pour représenter les langues d'Asie du Sud-Est.
Nous organisons notre ensemble de données pré-entraînement en fonction de la langue du contenu et de sa qualité. Pour chaque langue, nous créons un flux séparé de données (FLi). Lorsque nous avons besoin d'un document pour le pré-entraînement, nous sélectionnons une langue Li selon une probabilité prédéfinie, puis extrayons un document du flux correspondant FLi.
En résumé, SeaLLMs est une série de modèles linguistiques innovants qui se concentrent sur les langues d'Asie du Sud-Est. Ces modèles sont basés sur le modèle Llama-2 et ont été améliorés pour mieux capturer les subtilités des langues régionales grâce à un entraînement continu avec un vocabulaire étendu, des instructions spécialisées et un ajustement de l'alignement. Ils offrent des performances supérieures dans une variété de tâches linguistiques et surpassent même ChatGPT-3.5 dans les langues non-latines tout en restant légers et économiques à utiliser.
La principale difficulté rencontrée lors du traitement des langues sous-représentées est l'encodage inefficace causé par la segmentation inadéquate des textes provenant de scripts non-européens et non-latins. Pour résoudre ce problème, SeaLLMs utilise une nouvelle technique d'expansion du vocabulaire qui fusionne des morceaux de mots entiers et sous-mots d'une nouvelle langue avec le tokenizer existant Llama-2. Cette méthode garantit que la nouvelle langue est encodée efficacement sans perturber les connaissances acquises lors de l'étape préliminaire d'entraînement.
Enfin, SeaLLMs organise son ensemble de données pré-entraînement en fonction de la langue du contenu pour assurer une meilleure qualité d'apprentissage. Avec ces améliorations, SeaLLMs offre une solution prometteuse pour traiter efficacement les langues d'Asie du Sud-Est dans diverses tâches linguistiques.