More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models

Mots clés générés par l'IA : LLM attaques PI applications intégrées vecteurs d'attaque atténuation

Points clés générés par l'IA

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

  • Les grands modèles de langage (LLM) connaissent des avancées spectaculaires et sont largement utilisés dans différents systèmes.
  • Les LLM actuels peuvent être configurés par des instructions en langage naturel, mais leur fonctionnement interne reste implicite et non évaluable.
  • Cependant, cette propriété les rend vulnérables à des attaques d'injection d'instruction (PI) qui peuvent inciter le LLM à produire du contenu malveillant ou remplacer les instructions originales.
  • Des travaux récents ont montré que ces attaques sont difficiles à contrer car les LLM modernes suivent fidèlement les instructions données.
  • En augmentant un LLM avec une capacité de récupération et d’appel API, cela crée de nouveaux vecteurs d'attaque pour l'adversaire.
  • Ces LLMs intégrées aux applications pourraient traiter du contenu empoisonné récupérable sur le Web contenant des instructions pr-injectée malveillantes sélectionnées par un adversaire.
  • Il est possible pour un attaquant de réaliser ces sortes d'attaques PI indirectement.
  • Il est urgent d'évaluer les techniques existantes pour se protéger contre ces menaces et explorer la possibilité de développer de nouvelles techniques pour se protéger contre celles-ci.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres, Thorsten Holz, Mario Fritz

Résumé : We are currently witnessing dramatic advances in the capabilities of Large Language Models (LLMs). They are already being adopted in practice and integrated into many systems, including integrated development environments (IDEs) and search engines. The functionalities of current LLMs can be modulated via natural language prompts, while their exact internal functionality remains implicit and unassessable. This property, which makes them adaptable to even unseen tasks, might also make them susceptible to targeted adversarial prompting. Recently, several ways to misalign LLMs using Prompt Injection (PI) attacks have been introduced. In such attacks, an adversary can prompt the LLM to produce malicious content or override the original instructions and the employed filtering schemes. Recent work showed that these attacks are hard to mitigate, as state-of-the-art LLMs are instruction-following. So far, these attacks assumed that the adversary is directly prompting the LLM. In this work, we show that augmenting LLMs with retrieval and API calling capabilities (so-called Application-Integrated LLMs) induces a whole new set of attack vectors. These LLMs might process poisoned content retrieved from the Web that contains malicious prompts pre-injected and selected by adversaries. We demonstrate that an attacker can indirectly perform such PI attacks. Based on this key insight, we systematically analyze the resulting threat landscape of Application-Integrated LLMs and discuss a variety of new attack vectors. To demonstrate the practical viability of our attacks, we implemented specific demonstrations of the proposed attacks within synthetic applications. In summary, our work calls for an urgent evaluation of current mitigation techniques and an investigation of whether new techniques are needed to defend LLMs against these threats.

Soumis à arXiv le 23 Fév. 2023

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2302.12173v1

La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Nous assistons actuellement à des avancées spectaculaires dans les capacités des grands modèles de langage (LLM). Ils sont déjà largement utilisés et intégrés à de nombreux systèmes, notamment les environnements de développement intégrés (IDE) et les moteurs de recherche. Les LLM actuels peuvent être configurés par des instructions en langage naturel tandis que leur fonctionnement interne exact reste implicite et non évaluable. Cette propriété qui leur permet d'être adaptables même aux tâches invisibles pourrait aussi les rendre vulnérables à des incitations malveillantes ciblées. Des moyens ont été récemment mis en place pour décaler les LLM en utilisant des attaques d'injection d'instruction (PI). Dans ce type d'attaques, un adversaire peut inciter le LLM à produire du contenu malveillant ou remplacer les instructions originales et les schémas de filtrage utilisés. Des travaux récents ont montré que ces attaques sont difficiles à contrer car les LLM modernes suivent fidèlement les instructions données. Jusqu'à présent, ces attaques supposaient que l'adversaire incitait directement le LLM. Dans ce travail, nous montrons qu’augmenter un LLM avec une capacité de récupération et d’appel API (appelée LLMs intégrée aux applications) induit un tout nouvel ensemble de vecteurs d’attaque. Ces LLMs pourraient traiter du contenu empoisonné récupérable sur le Web contenant des instructions pr-injectée malveillantes sélectionnée par un adversaire. Nous démontrons qu’un attaquant peut effectuer cette sorte d’attaques PI indirectement. Sur la base de cette idée clé, nous analysons systématiquement le paysage menaçant résultant des LLMs intégrée aux applications et discutons une variété de nouveaux vecteurs d’attaque possibles. Pour illustrer la viabilité pratique des attaques proposer, nous avons mis en œuvre plusieurs démonstrations spécifiques sur des applications synthétiques. En conclusion, notre travail souligne l’urgence à évaluer les techniques existantes pour se protger contre ces menaces et à explorer la possibilités de mettre au point de nouvelles techniques pour se protger contre celles-ci.
Créé le 17 Nov. 2023
Disponible dans d'autres langues : en

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.