A Runtime-Adaptive Transformer Neural Network Accelerator on FPGAs

Mots clés générés par l'IA : Réseaux neuronaux transformateurs traitement du langage naturel traduction automatique vision par ordinateur FPGA

Points clés générés par l'IA

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

  • Les réseaux neuronaux transformateurs (TNN) sont des modèles de pointe dans le domaine du traitement du langage naturel (NLP), de la traduction automatique et de la vision par ordinateur (CV).
  • Contrairement aux approches traditionnelles utilisant des couches récurrentes ou convolutionnelles, les TNN ne nécessitent pas ces types de couches.
  • Les TNN ont des exigences élevées en termes de puissance de calcul et de mémoire, ce qui peut poser problème sur des appareils à ressources limitées tels que les FPGA.
  • Chaque modèle de transformateur peut avoir un temps de traitement différent selon l'application, nécessitant souvent la création d'accélérateurs personnalisés avec des paramètres spécifiques.
  • ADAPTOR est un accélérateur adaptable en temps réel pour les calculs matriciels denses dans les encodeurs et décodeurs de transformateurs sur FPGA, optimisant l'utilisation des éléments de traitement et de la mémoire intégrée pour améliorer le parallélisme et réduire la latence.
  • ADAPTOR utilise un carrelage efficace des matrices pour distribuer les ressources sur les plates-formes FPGA et est entièrement quantifié pour une efficacité computationnelle et une portabilité optimales.
  • Les évaluations montrent que ADAPTOR est plus économe en énergie que le GPU NVIDIA K80 et le CPU i7-8700K respectivement, tout en obtenant un gain de vitesse significatif par rapport à certains accélérateurs basés sur FPGA dernier cri.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Ehsan Kabir, Austin R. J. Downey, Jason D. Bakos, David Andrews, Miaoqing Huang

arXiv admin note: text overlap with arXiv:2409.14023
Licence : CC BY-NC-ND 4.0

Résumé : Transformer neural networks (TNN) excel in natural language processing (NLP), machine translation, and computer vision (CV) without relying on recurrent or convolutional layers. However, they have high computational and memory demands, particularly on resource-constrained devices like FPGAs. Moreover, transformer models vary in processing time across applications, requiring custom models with specific parameters. Designing custom accelerators for each model is complex and time-intensive. Some custom accelerators exist with no runtime adaptability, and they often rely on sparse matrices to reduce latency. However, hardware designs become more challenging due to the need for application-specific sparsity patterns. This paper introduces ADAPTOR, a runtime-adaptive accelerator for dense matrix computations in transformer encoders and decoders on FPGAs. ADAPTOR enhances the utilization of processing elements and on-chip memory, enhancing parallelism and reducing latency. It incorporates efficient matrix tiling to distribute resources across FPGA platforms and is fully quantized for computational efficiency and portability. Evaluations on Xilinx Alveo U55C data center cards and embedded platforms like VC707 and ZCU102 show that our design is 1.2$\times$ and 2.87$\times$ more power efficient than the NVIDIA K80 GPU and the i7-8700K CPU respectively. Additionally, it achieves a speedup of 1.7 to 2.25$\times$ compared to some state-of-the-art FPGA-based accelerators.

Soumis à arXiv le 27 Nov. 2024

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2411.18148v1

La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Les réseaux neuronaux transformateurs (TNN) sont des modèles de pointe dans le domaine du traitement du langage naturel (NLP), de la traduction automatique et de la vision par ordinateur (CV). Contrairement aux approches traditionnelles utilisant des couches récurrentes ou convolutionnelles, les TNN ne nécessitent pas ces types de couches. Cependant, ils ont des exigences élevées en termes de puissance de calcul et de mémoire, ce qui peut poser problème sur des appareils à ressources limitées tels que les FPGA. De plus, chaque modèle de transformateur peut avoir un temps de traitement différent selon l'application, ce qui nécessite souvent la création d'accélérateurs personnalisés avec des paramètres spécifiques. Cela peut être complexe et chronophage. Bien qu'il existe déjà certains accélérateurs personnalisés pour les TNN, ils manquent souvent d'adaptabilité en temps réel et s'appuient sur des matrices clairsemées pour réduire la latence. Cependant, cela rend la conception matérielle encore plus complexe car elle doit prendre en compte les motifs clairsemés spécifiques à chaque application. C'est pourquoi nous présentons ADAPTOR : un accélérateur adaptable en temps réel pour les calculs matriciels denses dans les encodeurs et décodeurs de transformateurs sur FPGA. ADAPTOR optimise l'utilisation des éléments de traitement et de la mémoire intégrée afin d'améliorer le parallélisme et réduire la latence. Il utilise également un carrelage efficace des matrices pour distribuer les ressources sur les plates-formes FPGA et est entièrement quantifié pour une efficacité computationnelle et une portabilité optimales. Nos évaluations ont été réalisées sur des cartes de centre de données Xilinx Alveo U55C ainsi que sur des plateformes embarquées telles que VC707 et ZCU102. Les résultats montrent que notre conception est 1,2 fois plus économe en énergie que le GPU NVIDIA K80 et 2,87 fois plus économe que le CPU i7-8700K respectivement. De plus, elle obtient un gain de vitesse compris entre 1,7 et 2,25 fois par rapport à certains accélérateurs basés sur FPGA dernier cri. En conclusion, ADAPTOR représente une avancée significative dans l'accélération des calculs matriciels denses pour les transformateurs neuronaux grâce à son adaptabilité en temps réel, son utilisation optimale des ressources matérielles et sa performance supérieure par rapport aux solutions existantes sur FPGA.
Créé le 02 Déc. 2024

Évaluez la qualité du contenu généré par l'IA en votant

Note : 1

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.