A Runtime-Adaptive Transformer Neural Network Accelerator on FPGAs
Points clés générés par l'IA
⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.
- Les réseaux neuronaux transformateurs (TNN) sont des modèles de pointe dans le domaine du traitement du langage naturel (NLP), de la traduction automatique et de la vision par ordinateur (CV).
- Contrairement aux approches traditionnelles utilisant des couches récurrentes ou convolutionnelles, les TNN ne nécessitent pas ces types de couches.
- Les TNN ont des exigences élevées en termes de puissance de calcul et de mémoire, ce qui peut poser problème sur des appareils à ressources limitées tels que les FPGA.
- Chaque modèle de transformateur peut avoir un temps de traitement différent selon l'application, nécessitant souvent la création d'accélérateurs personnalisés avec des paramètres spécifiques.
- ADAPTOR est un accélérateur adaptable en temps réel pour les calculs matriciels denses dans les encodeurs et décodeurs de transformateurs sur FPGA, optimisant l'utilisation des éléments de traitement et de la mémoire intégrée pour améliorer le parallélisme et réduire la latence.
- ADAPTOR utilise un carrelage efficace des matrices pour distribuer les ressources sur les plates-formes FPGA et est entièrement quantifié pour une efficacité computationnelle et une portabilité optimales.
- Les évaluations montrent que ADAPTOR est plus économe en énergie que le GPU NVIDIA K80 et le CPU i7-8700K respectivement, tout en obtenant un gain de vitesse significatif par rapport à certains accélérateurs basés sur FPGA dernier cri.
Auteurs : Ehsan Kabir, Austin R. J. Downey, Jason D. Bakos, David Andrews, Miaoqing Huang
Résumé : Transformer neural networks (TNN) excel in natural language processing (NLP), machine translation, and computer vision (CV) without relying on recurrent or convolutional layers. However, they have high computational and memory demands, particularly on resource-constrained devices like FPGAs. Moreover, transformer models vary in processing time across applications, requiring custom models with specific parameters. Designing custom accelerators for each model is complex and time-intensive. Some custom accelerators exist with no runtime adaptability, and they often rely on sparse matrices to reduce latency. However, hardware designs become more challenging due to the need for application-specific sparsity patterns. This paper introduces ADAPTOR, a runtime-adaptive accelerator for dense matrix computations in transformer encoders and decoders on FPGAs. ADAPTOR enhances the utilization of processing elements and on-chip memory, enhancing parallelism and reducing latency. It incorporates efficient matrix tiling to distribute resources across FPGA platforms and is fully quantized for computational efficiency and portability. Evaluations on Xilinx Alveo U55C data center cards and embedded platforms like VC707 and ZCU102 show that our design is 1.2$\times$ and 2.87$\times$ more power efficient than the NVIDIA K80 GPU and the i7-8700K CPU respectively. Additionally, it achieves a speedup of 1.7 to 2.25$\times$ compared to some state-of-the-art FPGA-based accelerators.
Posez des questions sur cet article à notre assistant IA
Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.
⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.
Évaluez la qualité du contenu généré par l'IA en votant
Note : 1
Pourquoi avons-nous besoin de votes ?
Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.
Articles similaires résumés avec nos outils d'IA
Naviguez à travers encore plus d'articles similaires en utilisant une
représentation arborescenteRecherchez des articles similaires (en version bêta)
En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.
Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.