InstructPix2Pix: Learning to Follow Image Editing Instructions

Mots clés générés par l'IA : Édition d'images Instructions humaines Modèles pré-entraînés GPT-3 Stable Diffusion

Points clés générés par l'IA

Méthode pour éditer des images à partir d'instructions humaines
Utilisation d'une image d'entrée et d'une instruction écrite pour modifier l'image
Combinaison des connaissances de deux modèles pré-entraînés (GPT-3 et Stable Diffusion) pour générer un grand ensemble d'exemples d'édition d'images
Modèle conditionnel de diffusion, InstructPix2Pix, entraîné sur les données générées
Généralisation aux images réelles et aux instructions écrites par les utilisateurs lors de l'inférence
Modifications effectuées en quelques secondes sans nécessiter de fine-tuning ou d’inversion
Résultats convaincants pour une collection diversifiée d'images et d’instructions écrites
Différence avec les travaux récents qui utilisent des modèles pré-entraînés avec un prompt cible difficile à atteindre
Utilisation d'instructions textuelles intuitives et expressives plutôt que des étiquettes textuelles ou des descriptions visuelles entrée/sortie
Combinaison des connaissances de plusieurs modèles pré-entraînés pour générer les données d’entraînement et permettre la modification rapide des images réelles selon les instructions fournies par l’utilisateur.

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Tim Brooks, Aleksander Holynski, Alexei A. Efros

arXiv: 2211.09800v1 - DOI (cs.CV)

Project page: https://www.timothybrooks.com/instruct-pix2pix

Licence : CC BY 4.0

Résumé : We propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine the knowledge of two large pretrained models -- a language model (GPT-3) and a text-to-image model (Stable Diffusion) -- to generate a large dataset of image editing examples. Our conditional diffusion model, InstructPix2Pix, is trained on our generated data, and generalizes to real images and user-written instructions at inference time. Since it performs edits in the forward pass and does not require per example fine-tuning or inversion, our model edits images quickly, in a matter of seconds. We show compelling editing results for a diverse collection of input images and written instructions.

Soumis à arXiv le 17 Nov. 2022

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2211.09800v1

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Nous proposons une méthode pour éditer des images à partir d'instructions humaines. En utilisant une image d'entrée et une instruction écrite qui indique au modèle quoi faire, notre modèle suit ces instructions pour modifier l'image. Pour obtenir des données d'entraînement pour ce problème, nous combinons les connaissances de deux modèles pré-entraînés - un modèle de langage (GPT-3) et un modèle texte-image (Stable Diffusion) - pour générer un grand ensemble d'exemples d'édition d'images. Notre modèle conditionnel de diffusion, InstructPix2Pix, est entraîné sur nos données générées et généralise aux images réelles et aux instructions écrites par les utilisateurs lors de l'inférence. Il effectue des modifications en quelques secondes sans nécessiter de fine-tuning ou d’inversion par exemple. Des résultats convaincants sont présentés pour une collection diversifiée d'images et d’instructions écrites. Des travaux récents ont utilisé des modèles pré-entraînés pour l’ajout du bruit ou le débruitage avec un prompt cible difficile à atteindre. Notre méthode diffère car elle permet aux utilisateurs de spécifier exactement ce qu’ils veulent que le modèle fasse grâce à des instructions textuelles intuitives et expressives plutôt que des étiquettes textuelles ou des descriptions visuelles entrée/sortie. Nous avons combiné les connaissances de plusieurs modèles pré-entrainés afin de génerer nos donnée d’entrainement et permettre la modification rapide des images réelles selon les instructions fournis par l’utilisateur.

- Méthode pour éditer des images à partir d'instructions humaines
- Utilisation d'une image d'entrée et d'une instruction écrite pour modifier l'image
- Combinaison des connaissances de deux modèles pré-entraînés (GPT-3 et Stable Diffusion) pour générer un grand ensemble d'exemples d'édition d'images
- Modèle conditionnel de diffusion, InstructPix2Pix, entraîné sur les données générées
- Généralisation aux images réelles et aux instructions écrites par les utilisateurs lors de l'inférence
- Modifications effectuées en quelques secondes sans nécessiter de fine-tuning ou d’inversion
- Résultats convaincants pour une collection diversifiée d'images et d’instructions écrites
- Différence avec les travaux récents qui utilisent des modèles pré-entraînés avec un prompt cible difficile à atteindre
- Utilisation d'instructions textuelles intuitives et expressives plutôt que des étiquettes textuelles ou des descriptions visuelles entrée/sortie
- Combinaison des connaissances de plusieurs modèles pré-entraînés pour générer les données d’entraînement et permettre la modification rapide des images réelles selon les instructions fournies par l’utilisateur.

Summary: This is a method to change pictures using human instructions. It uses a starting picture and written instructions to make changes. Two pre-trained models are combined to create many examples of picture editing. A trained model called InstructPix2Pix is used on the generated data. It can edit real pictures based on user instructions quickly. The results are good for different types of pictures and instructions. Definitions- Méthode: Method, a way of doing something. - Éditer: Edit, make changes or modifications. - Images: Pictures or photographs. - Instructions: Directions or steps to follow. - Utilisation: Use, the act of using something. - Entrée: Input, the information or data that is put into a system. - Instruction écrite: Written instruction, directions that are written down. - Modifier: Modify, change or alter something. - Combinaison: Combination, putting things together or mixing them. - Connaissances: Knowledge or understanding about something. - Modèles pré-entraînés: Pre-trained models, computer programs that have been trained before being used for specific tasks. - Générer: Generate, create or produce something new. - Ensemble d'exemples d'édition d'images: Set of examples of image editing, a group of different examples showing how images can be changed in various ways. - Conditionnel de diffusion : Conditional diffusion, a type of model that can make changes based on certain conditions or instructions given

Éditer des images à partir d'instructions humaines

Nous présentons une méthode innovante pour éditer des images à partir d'instructions humaines. Notre modèle, InstructPix2Pix, suit les instructions fournies par l'utilisateur et modifie l'image en conséquence. Pour entraîner ce modèle, nous avons combiné les connaissances de deux modèles pré-entraînés - un modèle de langage (GPT-3) et un modèle texte-image (Stable Diffusion). Nous avons généré un grand ensemble d’exemples d’images éditables qui ont été utilisés pour entraîner le modèle. Lorsque le modèle est appliqué aux images réelles et aux instructions écrites par l’utilisateur, il effectue des modifications sans nécessiter de fine-tuning ou d’inversion par exemple. Des résultats convaincants sont présentés pour une collection diversifiée d'images et d’instructions écrites.

Comment notre méthode diffère?

Notre méthode se distingue des travaux récents qui ont utilisé des modèles pré-entraînés pour ajouter du bruit ou débruiter avec un prompt cible difficile à atteindre car elle permet aux utilisateurs de spécifier exactement ce qu’ils veulent que le modèle fasse grâce à des instructions textuelles intuitives et expressives plutôt que des étiquettes textuelles ou des descriptions visuelles entrée/sortie.

Combinaison de plusieurs connaissances

Afin de génerer nos donnée d’entrainement et permettre la modification rapide des images réelles selon les instructions fournis par l’utilisateur, nous avons combiné les connaissances de plusieurs modèles pré-entrainés. Ces donnée sont ensuite utiliser pour entrainer notre propre modele InstructPix2Pix qui est capable de modifier rapidement une image réelle en quelques seconde sans necessité de fine tuning ou inversion par exemple.

Conclusion

Notre moteur InstructPix2Pix offres aux utilisateurs la possibilitiés spicifier exactement ce qu'ils veulent que le modele fasse grace a des instruction textuel intuitifs plutot que les labels textuel ou description visuel entrée/sortie traditionnellement employe . Les resultat obtenus sur une collection diversifiée montrent la puissance du modele proposer

Créé le 16 Oct. 2023

Disponible dans d'autres langues : en

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.