Learning Transferable Visual Models From Natural Language Supervision

Mots clés générés par l'IA : Vision par ordinateur Pré-entraînement ImageNet Représentations d'image SOTA Transfert

Points clés générés par l'IA

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

  • Les systèmes de vision par ordinateur sont limités car ils ne peuvent prédire qu'un ensemble fixe de catégories d'objets prédéterminées.
  • Apprendre directement à partir de texte brut sur des images est une alternative prometteuse qui permet une source de supervision beaucoup plus large.
  • La tâche simple de pré-entraînement consistant à prédire quelle légende va avec quelle image est un moyen efficace et évolutif d'apprendre des représentations d'image SOTA à partir de zéro sur un ensemble de données comprenant 400 millions (image, texte) collectés sur Internet.
  • Après le pré-entraînement, le langage naturel est utilisé pour référencer les concepts visuels appris, permettant un transfert sans apprentissage du modèle vers des tâches en aval.
  • Les performances de cette approche ont été étudiées en benchmarking sur plus de 30 ensembles différents en vision par ordinateur couvrant des tâches telles que la reconnaissance optique des caractères, la reconnaissance d'actions vidéos, la géolocalisation et plusieurs types classification d'objets fins.
  • Le modèle se transfère non trivialement vers la plupart des tâches et est souvent compétitif avec une ligne base entièrement supervisée sans avoir besoin d'un apprentissage spécifique à l'ensemble donné.
  • Par exemple, les auteurs correspondent à l'exactitude du ResNet-50 original sur ImageNet sans avoir besoin d'utiliser 1,28 million exemples entrainements sur lesquels il a été formé.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever

Résumé : State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.

Soumis à arXiv le 26 Fév. 2021

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2103.00020v1

La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Les systèmes de vision par ordinateur de pointe sont entraînés à prédire un ensemble fixe de catégories d'objets prédéterminées. Cette forme restreinte de supervision limite leur généralité et leur utilisabilité, car des données étiquetées supplémentaires sont nécessaires pour spécifier tout autre concept visuel. Apprendre directement à partir de texte brut sur des images est une alternative prometteuse qui exploite une source de supervision beaucoup plus large. Les auteurs ont démontré que la tâche simple de pré-entraînement consistant à prédire quelle légende va avec quelle image est un moyen efficace et évolutif d'apprendre des représentations d'image SOTA à partir de zéro sur un ensemble de donnée comprenant 400 millions (image, texte) collectés sur Internet. Après le pré-entraînement, le langage naturel est utilisée pour réferencer les concepts visuels appris (ou en décrire de nouveaux), permettant un transfert sans apprentissage du modèle vers des tâches en aval. Les performances de cette approche ont étudiés en benchmarking sur plus 30 ensembles différnts en vision par ordinateur couvrant des tâches telles que la reconnaissance optique des caractères, la reconnaissance d'actions vidoes, la gilocalisation et plusieurs types classification d'objets fins. Le modèle se transfère non trivialement vers la plupart des tâches et est souvent compétitif avec une ligne base entièrement supervisée sans avoir besoin d'un apprentissage spicifique à l'ensemble donnée. Par exemple les auteurs correspondent exactitude du ResNet-50 original sur ImageNet sans avoir besoin utiliser 1,28 million exemples entrainements sur lesquels il a était formée.
Créé le 08 Avr. 2023
Disponible dans d'autres langues : en

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

La licence de cet article spécifique ne nous permet pas de nous appuyer sur son contenu et les outils de synthèse seront exécutés en utilisant les métadonnées de l'article plutôt que l'article complet. Cependant, l'outil produira quand même un bon résultat, et vous pouvez également essayer nos outils sur des papiers avec des licences plus ouvertes.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.