Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering

Mots clés générés par l'IA : Prophet VQA GPT-3 Heuristiques Connaissance

Points clés générés par l'IA

  • Prophet est un cadre conçu pour améliorer les performances du modèle VQA vanilla en utilisant des heuristiques de réponse basées sur la connaissance.
  • Il extrait deux types d'heuristiques complémentaires à partir du modèle VQA vanilla: les candidats de réponse et les exemples conscients de la réponse.
  • Ces heuristiques sont ensuite codées dans les invites afin que GPT-3 puisse mieux comprendre la tâche et améliorer sa capacité.
  • Les résultats montrent que Prophet dépasse significativement toutes les méthodes existantes sur OK-VQA et A-OKVQA avec des précisions respectives de 61,1% et 55,7%.
  • Cette approche permet une meilleure prédiction des réponses car elle fournit plus d'informations spécifiques à la tâche.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Zhenwei Shao, Zhou Yu, Meng Wang, Jun Yu

Accepted at CVPR 2023, code available at https://github.com/MILVLG/prophet
Licence : CC BY 4.0

Résumé : Knowledge-based visual question answering (VQA) requires external knowledge beyond the image to answer the question. Early studies retrieve required knowledge from explicit knowledge bases (KBs), which often introduces irrelevant information to the question, hence restricting the performance of their models. Recent works have sought to use a large language model (i.e., GPT-3) as an implicit knowledge engine to acquire the necessary knowledge for answering. Despite the encouraging results achieved by these methods, we argue that they have not fully activated the capacity of GPT-3 as the provided input information is insufficient. In this paper, we present Prophet -- a conceptually simple framework designed to prompt GPT-3 with answer heuristics for knowledge-based VQA. Specifically, we first train a vanilla VQA model on a specific knowledge-based VQA dataset without external knowledge. After that, we extract two types of complementary answer heuristics from the model: answer candidates and answer-aware examples. Finally, the two types of answer heuristics are encoded into the prompts to enable GPT-3 to better comprehend the task thus enhancing its capacity. Prophet significantly outperforms all existing state-of-the-art methods on two challenging knowledge-based VQA datasets, OK-VQA and A-OKVQA, delivering 61.1% and 55.7% accuracies on their testing sets, respectively.

Soumis à arXiv le 03 Mar. 2023

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2303.01903v1

Prophet est un cadre conçu pour améliorer les performances du modèle VQA vanilla en utilisant des heuristiques de réponse basées sur la connaissance. Il extrait deux types d'heuristiques complémentaires à partir du modèle VQA vanilla: les candidats de réponse et les exemples conscients de la réponse. Ces heuristiques sont ensuite codées dans les invites afin que GPT-3 puisse mieux comprendre la tâche et améliorer sa capacité. Les résultats montrent que Prophet dépasse significativement toutes les méthodes existantes sur OK-VQA et A-OKVQA avec des précisions respectives de 61,1% et 55,7%. Nous soutenons que cette approche permet une meilleure prédiction des réponses car elle fournit plus d'informations spécifiques à la tâche.
Créé le 15 Mar. 2023

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.