InstructPix2Pix: Learning to Follow Image Editing Instructions

Mots clés générés par l'IA : Édition d'images Instructions humaines Modèles pré-entraînés GPT-3 Stable Diffusion

Points clés générés par l'IA

  • Méthode pour éditer des images à partir d'instructions humaines
  • Utilisation d'une image d'entrée et d'une instruction écrite pour modifier l'image
  • Combinaison des connaissances de deux modèles pré-entraînés (GPT-3 et Stable Diffusion) pour générer un grand ensemble d'exemples d'édition d'images
  • Modèle conditionnel de diffusion, InstructPix2Pix, entraîné sur les données générées
  • Généralisation aux images réelles et aux instructions écrites par les utilisateurs lors de l'inférence
  • Modifications effectuées en quelques secondes sans nécessiter de fine-tuning ou d’inversion
  • Résultats convaincants pour une collection diversifiée d'images et d’instructions écrites
  • Différence avec les travaux récents qui utilisent des modèles pré-entraînés avec un prompt cible difficile à atteindre
  • Utilisation d'instructions textuelles intuitives et expressives plutôt que des étiquettes textuelles ou des descriptions visuelles entrée/sortie
  • Combinaison des connaissances de plusieurs modèles pré-entraînés pour générer les données d’entraînement et permettre la modification rapide des images réelles selon les instructions fournies par l’utilisateur.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Tim Brooks, Aleksander Holynski, Alexei A. Efros

Project page: https://www.timothybrooks.com/instruct-pix2pix
Licence : CC BY 4.0

Résumé : We propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine the knowledge of two large pretrained models -- a language model (GPT-3) and a text-to-image model (Stable Diffusion) -- to generate a large dataset of image editing examples. Our conditional diffusion model, InstructPix2Pix, is trained on our generated data, and generalizes to real images and user-written instructions at inference time. Since it performs edits in the forward pass and does not require per example fine-tuning or inversion, our model edits images quickly, in a matter of seconds. We show compelling editing results for a diverse collection of input images and written instructions.

Soumis à arXiv le 17 Nov. 2022

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2211.09800v1

Nous proposons une méthode pour éditer des images à partir d'instructions humaines. En utilisant une image d'entrée et une instruction écrite qui indique au modèle quoi faire, notre modèle suit ces instructions pour modifier l'image. Pour obtenir des données d'entraînement pour ce problème, nous combinons les connaissances de deux modèles pré-entraînés - un modèle de langage (GPT-3) et un modèle texte-image (Stable Diffusion) - pour générer un grand ensemble d'exemples d'édition d'images. Notre modèle conditionnel de diffusion, InstructPix2Pix, est entraîné sur nos données générées et généralise aux images réelles et aux instructions écrites par les utilisateurs lors de l'inférence. Il effectue des modifications en quelques secondes sans nécessiter de fine-tuning ou d’inversion par exemple. Des résultats convaincants sont présentés pour une collection diversifiée d'images et d’instructions écrites. Des travaux récents ont utilisé des modèles pré-entraînés pour l’ajout du bruit ou le débruitage avec un prompt cible difficile à atteindre. Notre méthode diffère car elle permet aux utilisateurs de spécifier exactement ce qu’ils veulent que le modèle fasse grâce à des instructions textuelles intuitives et expressives plutôt que des étiquettes textuelles ou des descriptions visuelles entrée/sortie. Nous avons combiné les connaissances de plusieurs modèles pré-entrainés afin de génerer nos donnée d’entrainement et permettre la modification rapide des images réelles selon les instructions fournis par l’utilisateur.
Créé le 16 Oct. 2023
Disponible dans d'autres langues : en

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.