A Billion-scale Foundation Model for Remote Sensing Images
Points clés générés par l'IA
- Le potentiel des modèles de base dans les tâches visuelles a suscité une grande attention.
- La préformation des modèles de base avant les tâches en aval est une étape essentielle.
- Les trois facteurs clés dans la préformation des modèles de base sont la méthode de préformation, la taille de l'ensemble de données utilisée pour le prétraitement et le nombre de paramètres du modèle.
- La recherche dans le domaine de la télédétection s'est principalement concentrée sur la méthode et sur la taille des données utilisées pour le prétraitement, sans trop se pencher sur le nombre de paramètres du modèle.
- Cet article examine l'effet que peut avoir l'augmentation du nombre de paramètres du modèle sur les performances des modèles fondamentaux dans des tâches en aval telles que la détection d'objets rotatifs et la segmentation sémantique.
- Des modèles fondamentaux ont été entraînés avec différents nombres de paramètres (86M, 605M, 1.3B et 2.4B) pour déterminer si les performances s'améliorent avec une augmentation des paramètres.
- Il s'agit du premier modèle vision transformer à grande échelle (un milliard) dans le domaine de la télédétection.
- Une méthode efficace pour augmenter et affiner un transformateur visionnel dans le domaine de la télédétection est proposée.
- Les performances générales dans les tâches en aval ont été évaluées à l'aide des jeux DOTA v2.0 and DIOR-R pour l’object detection rotationnelle et Potsdam and LoveDA pour segmentation sémantique.
- Les résultats expérimentaux montrent que la performance des modèles fondamentaux et l'efficacité des données augmentent avec une augmentation du nombre de paramètres.
- Les modèles atteignent une performance élevée sur plusieurs jeux, dont DIOR-R, Postdam et LoveDA.
Auteurs : Keumgang Cha, Junghoon Seo, Taekyung Lee
Résumé : As the potential of foundation models in visual tasks has garnered significant attention, pretraining these models before downstream tasks has become a crucial step. The three key factors in pretraining foundation models are the pretraining method, the size of the pretraining dataset, and the number of model parameters. Recently, research in the remote sensing field has focused primarily on the pretraining method and the size of the dataset, with limited emphasis on the number of model parameters. This paper addresses this gap by examining the effect of increasing the number of model parameters on the performance of foundation models in downstream tasks such as rotated object detection and semantic segmentation. We pretrained foundation models with varying numbers of parameters, including 86M, 605.26M, 1.3B, and 2.4B, to determine whether performance in downstream tasks improved with an increase in parameters. To the best of our knowledge, this is the first billion-scale foundation model in the remote sensing field. Furthermore, we propose an effective method for scaling up and fine-tuning a vision transformer in the remote sensing field. To evaluate general performance in downstream tasks, we employed the DOTA v2.0 and DIOR-R benchmark datasets for rotated object detection, and the Potsdam and LoveDA datasets for semantic segmentation. Experimental results demonstrated that, across all benchmark datasets and downstream tasks, the performance of the foundation models and data efficiency improved as the number of parameters increased. Moreover, our models achieve the state-of-the-art performance on several datasets including DIOR-R, Postdam, and LoveDA.
Posez des questions sur cet article à notre assistant IA
Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.
Évaluez la qualité du contenu généré par l'IA en votant
Note : 0
Pourquoi avons-nous besoin de votes ?
Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.
Articles similaires résumés avec nos outils d'IA
Naviguez à travers encore plus d'articles similaires en utilisant une
représentation arborescenteRecherchez des articles similaires (en version bêta)
En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.
Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.