Learning Transferable Visual Models From Natural Language Supervision

Mots clés générés par l'IA : Vision par ordinateur Pré-entraînement ImageNet Représentations d'image SOTA Transfert

Points clés générés par l'IA

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

Les systèmes de vision par ordinateur sont limités car ils ne peuvent prédire qu'un ensemble fixe de catégories d'objets prédéterminées.
Apprendre directement à partir de texte brut sur des images est une alternative prometteuse qui permet une source de supervision beaucoup plus large.
La tâche simple de pré-entraînement consistant à prédire quelle légende va avec quelle image est un moyen efficace et évolutif d'apprendre des représentations d'image SOTA à partir de zéro sur un ensemble de données comprenant 400 millions (image, texte) collectés sur Internet.
Après le pré-entraînement, le langage naturel est utilisé pour référencer les concepts visuels appris, permettant un transfert sans apprentissage du modèle vers des tâches en aval.
Les performances de cette approche ont été étudiées en benchmarking sur plus de 30 ensembles différents en vision par ordinateur couvrant des tâches telles que la reconnaissance optique des caractères, la reconnaissance d'actions vidéos, la géolocalisation et plusieurs types classification d'objets fins.
Le modèle se transfère non trivialement vers la plupart des tâches et est souvent compétitif avec une ligne base entièrement supervisée sans avoir besoin d'un apprentissage spécifique à l'ensemble donné.
Par exemple, les auteurs correspondent à l'exactitude du ResNet-50 original sur ImageNet sans avoir besoin d'utiliser 1,28 million exemples entrainements sur lesquels il a été formé.

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever

arXiv: 2103.00020v1 - DOI (cs.CV)

Licence : NONEXCLUSIVE-DISTRIB 1.0

Résumé : State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.

Soumis à arXiv le 26 Fév. 2021

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2103.00020v1

⚠La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Les systèmes de vision par ordinateur de pointe sont entraînés à prédire un ensemble fixe de catégories d'objets prédéterminées. Cette forme restreinte de supervision limite leur généralité et leur utilisabilité, car des données étiquetées supplémentaires sont nécessaires pour spécifier tout autre concept visuel. Apprendre directement à partir de texte brut sur des images est une alternative prometteuse qui exploite une source de supervision beaucoup plus large. Les auteurs ont démontré que la tâche simple de pré-entraînement consistant à prédire quelle légende va avec quelle image est un moyen efficace et évolutif d'apprendre des représentations d'image SOTA à partir de zéro sur un ensemble de donnée comprenant 400 millions (image, texte) collectés sur Internet. Après le pré-entraînement, le langage naturel est utilisée pour réferencer les concepts visuels appris (ou en décrire de nouveaux), permettant un transfert sans apprentissage du modèle vers des tâches en aval. Les performances de cette approche ont étudiés en benchmarking sur plus 30 ensembles différnts en vision par ordinateur couvrant des tâches telles que la reconnaissance optique des caractères, la reconnaissance d'actions vidoes, la gilocalisation et plusieurs types classification d'objets fins. Le modèle se transfère non trivialement vers la plupart des tâches et est souvent compétitif avec une ligne base entièrement supervisée sans avoir besoin d'un apprentissage spicifique à l'ensemble donnée. Par exemple les auteurs correspondent exactitude du ResNet-50 original sur ImageNet sans avoir besoin utiliser 1,28 million exemples entrainements sur lesquels il a était formée.

- Les systèmes de vision par ordinateur sont limités car ils ne peuvent prédire qu'un ensemble fixe de catégories d'objets prédéterminées.
- Apprendre directement à partir de texte brut sur des images est une alternative prometteuse qui permet une source de supervision beaucoup plus large.
- La tâche simple de pré-entraînement consistant à prédire quelle légende va avec quelle image est un moyen efficace et évolutif d'apprendre des représentations d'image SOTA à partir de zéro sur un ensemble de données comprenant 400 millions (image, texte) collectés sur Internet.
- Après le pré-entraînement, le langage naturel est utilisé pour référencer les concepts visuels appris, permettant un transfert sans apprentissage du modèle vers des tâches en aval.
- Les performances de cette approche ont été étudiées en benchmarking sur plus de 30 ensembles différents en vision par ordinateur couvrant des tâches telles que la reconnaissance optique des caractères, la reconnaissance d'actions vidéos, la géolocalisation et plusieurs types classification d'objets fins.
- Le modèle se transfère non trivialement vers la plupart des tâches et est souvent compétitif avec une ligne base entièrement supervisée sans avoir besoin d'un apprentissage spécifique à l'ensemble donné.
- Par exemple, les auteurs correspondent à l'exactitude du ResNet-50 original sur ImageNet sans avoir besoin d'utiliser 1,28 million exemples entrainements sur lesquels il a été formé.

Résumé: Les ordinateurs peuvent voir certaines choses, mais ils ne peuvent pas tout prédire. Apprendre à partir de textes sur des images est une bonne alternative pour enseigner aux ordinateurs à voir plus de choses. En utilisant cette méthode, les ordinateurs peuvent apprendre beaucoup de choses à partir d'un grand nombre d'images et de textes collectés sur Internet. Après avoir appris ces concepts visuels, les ordinateurs peuvent les utiliser pour résoudre différentes tâches sans avoir besoin d'apprendre spécifiquement pour chaque tâche. Cette méthode fonctionne très bien et peut même être meilleure que l'apprentissage supervisé traditionnel. Définitions- SOTA: "State of the Art" signifie la technologie la plus avancée ou la plus récente dans un domaine donné. - Benchmarking: Comparer les performances d'un système ou d'une méthode avec celles des autres systèmes ou méthodes existants. - Reconnaissance optique des caractères: La capacité d'un ordinateur à lire et comprendre du texte imprimé ou écrit à la main. - Classification d'objets fins: La capacité de distinguer entre des objets similaires mais différents, par exemple différencier différentes espèces de fleurs. - Ligne base entièrement supervisée : une approche où l

Apprentissage direct à partir de texte brut sur des images

Les systèmes de vision par ordinateur modernes sont entraînés pour prédire un ensemble fixe de catégories d'objets prédéfinies. Cette forme restreinte de supervision limite leur généralité et leur utilisabilité, car des données étiquetées supplémentaires sont nécessaires pour spécifier tout autre concept visuel. Apprendre directement à partir du texte brut sur les images est une alternative prometteuse qui exploite une source beaucoup plus large de supervision. Les auteurs ont démontré que la tâche simple consistant à pré-entraîner un modèle en prédisant quelle ligne va avec quelle image est un moyen efficace et évolutif d'apprendre des représentations SOTA (state of the art) d'image à partir de zéro sur un ensemble comprenant 400 millions (image, texte) collectés sur Internet.

Transfert sans apprentissage

Après le pré-entraînement, le langage naturel est utilisée pour réferencer les concepts visuels appris (ou en décrire de nouveaux), permettant un transfert sans apprentissage du modèle vers des tâches en aval. Les performances de cette approche ont étudiés en benchmarking sur plus 30 ensembles différnts couvrant des tâches telles que la reconnaissance optique des caractères, la reconnaissance d'actions vidoes, la gilocalisation et plusieurs types classification d'objets fins. Le modèle se transfère non trivialement vers la plupart des tâches et est souvent compétitif avec une ligne base entièrement supervisée sans avoir besoin d'un apprentissage spicifique à l'ensemble donnée. Par exemple les auteurs correspondent exactitude du ResNet-50 original sur ImageNet sans avoir besoin utiliser 1,28 million exemples entrainements sur lesquels il a était formée.

Conclusion

Cette recherche montre que l’apprentissage direct à partir du texte brut peut être très efficace pour apprendre des représentations SOTA d’images et qu’il permet ensuite aux modèles obtenus de se transferer facilement vers diverses tâches liée au traitement visuel .

Créé le 08 Avr. 2023

Disponible dans d'autres langues : en

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

⚠La licence de cet article spécifique ne nous permet pas de nous appuyer sur son contenu et les outils de synthèse seront exécutés en utilisant les métadonnées de l'article plutôt que l'article complet. Cependant, l'outil produira quand même un bon résultat, et vous pouvez également essayer nos outils sur des papiers avec des licences plus ouvertes.