FoundationLayerNorm: Scaling BERT and GPT to 1,000 Layers

Résumés déjà disponibles dans d'autres langues : en

Auteurs : Dezhou Shen

7 pages, 5 tables

Résumé : The mainstream BERT/GPT model contains only 10 to 20 layers, and there is little literature to discuss the training of deep BERT/GPT. This paper proposes a simple yet effective method to stabilize BERT and GPT training. We successfully scale up BERT and GPT to 1,000 layers, which is an order of magnitude deeper than previous BERT and GPT. The proposed method FoundationLayerNormalization enables efficient training of deep neural networks and is validated at the 1000-layer scale.

Soumis à arXiv le 09 Avr. 2022

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2204.04477v1

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Le résumé n'est pas encore prêt

Les points clés ne sont pas encore prêts

Le résumé vulgarisé n'est pas encore prêt

L'article de blog n'est pas encore prêt

Créé le 07 Mai. 2023

Disponible dans d'autres langues : en

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

Articles similaires résumés avec nos outils d'IA

56.1%

LLaMA: Open and Efficient Foundation Language Models

cs.CL

52.0%

ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summari…

cs.CL

49.0%

Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scal…

cs.CL

48.3%

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

cs.LG

48.0%

Unleashing Infinite-Length Input Capacity for Large-scale Language Models wit…

cs.CL

47.9%

BERT: A Review of Applications in Natural Language Processing and Understandi…

cs.CL

47.1%

Learning Compiler Pass Orders using Coreset and Normalized Value Prediction

cs.PL

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.