SeaLLMs -- Large Language Models for Southeast Asia

Mots clés générés par l'IA : SeaLLMs modèles linguistiques langues d'Asie du Sud-Est performances supérieures technique d'expansion du vocabulaire

Points clés générés par l'IA

  • SeaLLMs est une série de modèles linguistiques pour les langues d'Asie du Sud-Est
  • Les modèles sont basés sur Llama-2 et améliorés avec un entraînement continu
  • Ils respectent et reflètent les normes culturelles locales, les coutumes, les préférences stylistiques et les considérations juridiques
  • Les modèles SeaLLM-13b ont des performances supérieures dans différentes tâches linguistiques par rapport aux modèles open-source comparables et surpassent ChatGPT-3.5 dans certaines langues non-latines
  • Une difficulté rencontrée lors du traitement des langues non-latines est l'encodage inefficace causé par la segmentation inadéquate des textes provenant de scripts non-européens et non-latins en séquences d'octets disproportionnellement longues
  • Une nouvelle technique d'expansion du vocabulaire est proposée pour remédier à cela, en fusionnant des morceaux de mots entiers et sous-mots d'une nouvelle langue avec le tokenizer existant Llama-2
  • Cette extension du vocabulaire a permis d'obtenir 16 512 nouveaux tokens pour représenter les langues d'Asie du Sud-Est
  • L'ensemble de données pré-entraînement est organisé en fonction de la langue du contenu et de sa qualité
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Xuan-Phi Nguyen, Wenxuan Zhang, Xin Li, Mahani Aljunied, Qingyu Tan, Liying Cheng, Guanzheng Chen, Yue Deng, Sen Yang, Chaoqun Liu, Hang Zhang, Lidong Bing

Technical report
Licence : CC BY 4.0

Résumé : Despite the remarkable achievements of large language models (LLMs) in various tasks, there remains a linguistic bias that favors high-resource languages, such as English, often at the expense of low-resource and regional languages. To address this imbalance, we introduce SeaLLMs, an innovative series of language models that specifically focuses on Southeast Asian (SEA) languages. SeaLLMs are built upon the Llama-2 model and further advanced through continued pre-training with an extended vocabulary, specialized instruction and alignment tuning to better capture the intricacies of regional languages. This allows them to respect and reflect local cultural norms, customs, stylistic preferences, and legal considerations. Our comprehensive evaluation demonstrates that SeaLLM-13b models exhibit superior performance across a wide spectrum of linguistic tasks and assistant-style instruction-following capabilities relative to comparable open-source models. Moreover, they outperform ChatGPT-3.5 in non-Latin languages, such as Thai, Khmer, Lao, and Burmese, by large margins while remaining lightweight and cost-effective to operate.

Soumis à arXiv le 01 Déc. 2023

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2312.00738v1

Nous présentons SeaLLMs, une série innovante de modèles linguistiques qui se concentre spécifiquement sur les langues d'Asie du Sud-Est (SEA). Ces modèles sont basés sur le modèle Llama-2 et sont améliorés grâce à un entraînement continu avec un vocabulaire étendu, des instructions spécialisées et un ajustement de l'alignement pour mieux capturer les subtilités des langues régionales. Cela leur permet de respecter et de refléter les normes culturelles locales, les coutumes, les préférences stylistiques et les considérations juridiques. Notre évaluation complète démontre que les modèles SeaLLM-13b présentent des performances supérieures dans un large éventail de tâches linguistiques ainsi que dans la capacité à suivre des instructions similaires à celles d'un assistant par rapport aux modèles open-source comparables. De plus, ils surpassent largement ChatGPT-3.5 dans les langues non-latines telles que le thaï, le khmer, le lao et le birman tout en restant légers et économiques à utiliser. Une des difficultés rencontrées lors du traitement des langues non-latines sous-représentées est l'encodage inefficace causé par la segmentation inadéquate des textes provenant de scripts non-européens et non-latins en séquences d'octets disproportionnellement longues. Cela entraîne une diminution des performances du modèle car ces séquences ne représentent pas correctement le contenu sémantique sous-jacent. Cette inefficacité limite également la capacité du modèle à traiter des tâches nécessitant l'analyse de contextes étendus, tels que la compréhension de lecture, en raison des contraintes imposées par les longueurs maximales de contexte. Pour remédier à cela, nous proposons une nouvelle technique d'expansion du vocabulaire. Cette technique consiste à fusionner de manière récursive des morceaux de mots entiers et sous-mots d'une nouvelle langue provenant d'un tokenizer multilingue cible hautement performant, appelé NLLB tokenizer, avec le tokenizer existant Llama-2. Les nouveaux tokens récupérés sont ensuite élagués pour supprimer les tokens peu fréquents et de faible qualité avant d'être ajoutés au tokenizer final SeaLLM. Ce processus d'élagage basé sur la fréquence garantit que la nouvelle langue est encodée de manière suffisante et efficace sans introduire des tokens provenant d'autres langues existantes (comme l'anglais) qui pourraient perturber les connaissances acquises lors de l'étape préliminaire d'entraînement du modèle Llama-2. Grâce à cette extension du vocabulaire, nous avons obtenu 16 512 nouveaux tokens pour représenter les langues d'Asie du Sud-Est. Nous organisons notre ensemble de données pré-entraînement en fonction de la langue du contenu et de sa qualité. Pour chaque langue, nous créons un flux séparé de données (FLi). Lorsque nous avons besoin d'un document pour le pré-entraînement, nous sélectionnons une langue Li selon une probabilité prédéfinie, puis extrayons un document du flux correspondant FLi.
Créé le 04 Fév. 2024

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.