A Billion-scale Foundation Model for Remote Sensing Images

Mots clés générés par l'IA : Modèles fondamentaux Préformation Paramètres du modèle Tâches en aval Performances

Points clés générés par l'IA

  • Le potentiel des modèles de base dans les tâches visuelles a suscité une grande attention.
  • La préformation des modèles de base avant les tâches en aval est une étape essentielle.
  • Les trois facteurs clés dans la préformation des modèles de base sont la méthode de préformation, la taille de l'ensemble de données utilisée pour le prétraitement et le nombre de paramètres du modèle.
  • La recherche dans le domaine de la télédétection s'est principalement concentrée sur la méthode et sur la taille des données utilisées pour le prétraitement, sans trop se pencher sur le nombre de paramètres du modèle.
  • Cet article examine l'effet que peut avoir l'augmentation du nombre de paramètres du modèle sur les performances des modèles fondamentaux dans des tâches en aval telles que la détection d'objets rotatifs et la segmentation sémantique.
  • Des modèles fondamentaux ont été entraînés avec différents nombres de paramètres (86M, 605M, 1.3B et 2.4B) pour déterminer si les performances s'améliorent avec une augmentation des paramètres.
  • Il s'agit du premier modèle vision transformer à grande échelle (un milliard) dans le domaine de la télédétection.
  • Une méthode efficace pour augmenter et affiner un transformateur visionnel dans le domaine de la télédétection est proposée.
  • Les performances générales dans les tâches en aval ont été évaluées à l'aide des jeux DOTA v2.0 and DIOR-R pour l’object detection rotationnelle et Potsdam and LoveDA pour segmentation sémantique.
  • Les résultats expérimentaux montrent que la performance des modèles fondamentaux et l'efficacité des données augmentent avec une augmentation du nombre de paramètres.
  • Les modèles atteignent une performance élevée sur plusieurs jeux, dont DIOR-R, Postdam et LoveDA.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Keumgang Cha, Junghoon Seo, Taekyung Lee

This work has been submitted to the IEEE for possible publication
Licence : CC BY 4.0

Résumé : As the potential of foundation models in visual tasks has garnered significant attention, pretraining these models before downstream tasks has become a crucial step. The three key factors in pretraining foundation models are the pretraining method, the size of the pretraining dataset, and the number of model parameters. Recently, research in the remote sensing field has focused primarily on the pretraining method and the size of the dataset, with limited emphasis on the number of model parameters. This paper addresses this gap by examining the effect of increasing the number of model parameters on the performance of foundation models in downstream tasks such as rotated object detection and semantic segmentation. We pretrained foundation models with varying numbers of parameters, including 86M, 605.26M, 1.3B, and 2.4B, to determine whether performance in downstream tasks improved with an increase in parameters. To the best of our knowledge, this is the first billion-scale foundation model in the remote sensing field. Furthermore, we propose an effective method for scaling up and fine-tuning a vision transformer in the remote sensing field. To evaluate general performance in downstream tasks, we employed the DOTA v2.0 and DIOR-R benchmark datasets for rotated object detection, and the Potsdam and LoveDA datasets for semantic segmentation. Experimental results demonstrated that, across all benchmark datasets and downstream tasks, the performance of the foundation models and data efficiency improved as the number of parameters increased. Moreover, our models achieve the state-of-the-art performance on several datasets including DIOR-R, Postdam, and LoveDA.

Soumis à arXiv le 11 Avr. 2023

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2304.05215v1

Le potentiel des modèles de base dans les tâches visuelles a suscité une grande attention et la préformation de ces modèles avant les tâches en aval est devenue une étape essentielle. Les trois facteurs clés dans la préformation des modèles de base sont la méthode de préformation, la taille de l'ensemble de données utilisée pour le prétraitement et le nombre de paramètres du modèle. Récemment, la recherche dans le domaine de la télédétection s'est principalement concentrée sur la méthode et sur la taille des données utilisés pour le prétraitement, sans trop se pencher sur le nombre de paramètres du modèle. Cet article vise à combler cette lacune en examinant l'effet que peut avoir l'augmentation du nombre de paramètres du modèle sur les performances des modèles fondamentaux dans des tâches en aval telles que la détection d'objets rotatifs et la segmentation sémantique. Nous avons entraîné des modèles fondamentaux avec différents nombres de paramètres (86M, 605M, 1.3B et 2.4B) afin déterminer si les performances amont s'améliorent avec une augmentation des paramètres. À notre connaissance, il s'agit du premier milliard-scale vision transformer model in the remote sensing domain. De plus, nous proposons une méthode efficace pour augmenter et affiner un transformateur visionnel dans le domaine de la télédétection. Pour évaluer les performances générale dans les tâches en aval, nous avons utilisés les jeux DOTA v2.0 and DIOR-R pour l’object detection rotationnelle et Potsdam and LoveDA pour segmentation sementique . Les résultats exprimentales ont montré que ,sur tous les jeux réferences et les tasks en aval ,la performance des models fondamentaux et l’efficacité des donnée augmentent avec un augmentation du nombre des parameters . De plus , nos models atteignent un pointe performance sur plusieurs jeux dont DIOR-R ,Postdam and LoveDA .
Créé le 11 Déc. 2023

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.