More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models

Mots clés générés par l'IA : LLM attaques PI applications intégrées vecteurs d'attaque atténuation

Points clés générés par l'IA

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

Les grands modèles de langage (LLM) connaissent des avancées spectaculaires et sont largement utilisés dans différents systèmes.
Les LLM actuels peuvent être configurés par des instructions en langage naturel, mais leur fonctionnement interne reste implicite et non évaluable.
Cependant, cette propriété les rend vulnérables à des attaques d'injection d'instruction (PI) qui peuvent inciter le LLM à produire du contenu malveillant ou remplacer les instructions originales.
Des travaux récents ont montré que ces attaques sont difficiles à contrer car les LLM modernes suivent fidèlement les instructions données.
En augmentant un LLM avec une capacité de récupération et d’appel API, cela crée de nouveaux vecteurs d'attaque pour l'adversaire.
Ces LLMs intégrées aux applications pourraient traiter du contenu empoisonné récupérable sur le Web contenant des instructions pr-injectée malveillantes sélectionnées par un adversaire.
Il est possible pour un attaquant de réaliser ces sortes d'attaques PI indirectement.
Il est urgent d'évaluer les techniques existantes pour se protéger contre ces menaces et explorer la possibilité de développer de nouvelles techniques pour se protéger contre celles-ci.

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres, Thorsten Holz, Mario Fritz

arXiv: 2302.12173v1 - DOI (cs.CR)

Licence : NONEXCLUSIVE-DISTRIB 1.0

Résumé : We are currently witnessing dramatic advances in the capabilities of Large Language Models (LLMs). They are already being adopted in practice and integrated into many systems, including integrated development environments (IDEs) and search engines. The functionalities of current LLMs can be modulated via natural language prompts, while their exact internal functionality remains implicit and unassessable. This property, which makes them adaptable to even unseen tasks, might also make them susceptible to targeted adversarial prompting. Recently, several ways to misalign LLMs using Prompt Injection (PI) attacks have been introduced. In such attacks, an adversary can prompt the LLM to produce malicious content or override the original instructions and the employed filtering schemes. Recent work showed that these attacks are hard to mitigate, as state-of-the-art LLMs are instruction-following. So far, these attacks assumed that the adversary is directly prompting the LLM. In this work, we show that augmenting LLMs with retrieval and API calling capabilities (so-called Application-Integrated LLMs) induces a whole new set of attack vectors. These LLMs might process poisoned content retrieved from the Web that contains malicious prompts pre-injected and selected by adversaries. We demonstrate that an attacker can indirectly perform such PI attacks. Based on this key insight, we systematically analyze the resulting threat landscape of Application-Integrated LLMs and discuss a variety of new attack vectors. To demonstrate the practical viability of our attacks, we implemented specific demonstrations of the proposed attacks within synthetic applications. In summary, our work calls for an urgent evaluation of current mitigation techniques and an investigation of whether new techniques are needed to defend LLMs against these threats.

Soumis à arXiv le 23 Fév. 2023

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2302.12173v1

⚠La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Nous assistons actuellement à des avancées spectaculaires dans les capacités des grands modèles de langage (LLM). Ils sont déjà largement utilisés et intégrés à de nombreux systèmes, notamment les environnements de développement intégrés (IDE) et les moteurs de recherche. Les LLM actuels peuvent être configurés par des instructions en langage naturel tandis que leur fonctionnement interne exact reste implicite et non évaluable. Cette propriété qui leur permet d'être adaptables même aux tâches invisibles pourrait aussi les rendre vulnérables à des incitations malveillantes ciblées. Des moyens ont été récemment mis en place pour décaler les LLM en utilisant des attaques d'injection d'instruction (PI). Dans ce type d'attaques, un adversaire peut inciter le LLM à produire du contenu malveillant ou remplacer les instructions originales et les schémas de filtrage utilisés. Des travaux récents ont montré que ces attaques sont difficiles à contrer car les LLM modernes suivent fidèlement les instructions données. Jusqu'à présent, ces attaques supposaient que l'adversaire incitait directement le LLM. Dans ce travail, nous montrons qu’augmenter un LLM avec une capacité de récupération et d’appel API (appelée LLMs intégrée aux applications) induit un tout nouvel ensemble de vecteurs d’attaque. Ces LLMs pourraient traiter du contenu empoisonné récupérable sur le Web contenant des instructions pr-injectée malveillantes sélectionnée par un adversaire. Nous démontrons qu’un attaquant peut effectuer cette sorte d’attaques PI indirectement. Sur la base de cette idée clé, nous analysons systématiquement le paysage menaçant résultant des LLMs intégrée aux applications et discutons une variété de nouveaux vecteurs d’attaque possibles. Pour illustrer la viabilité pratique des attaques proposer, nous avons mis en œuvre plusieurs démonstrations spécifiques sur des applications synthétiques. En conclusion, notre travail souligne l’urgence à évaluer les techniques existantes pour se protger contre ces menaces et à explorer la possibilités de mettre au point de nouvelles techniques pour se protger contre celles-ci.

- Les grands modèles de langage (LLM) connaissent des avancées spectaculaires et sont largement utilisés dans différents systèmes.
- Les LLM actuels peuvent être configurés par des instructions en langage naturel, mais leur fonctionnement interne reste implicite et non évaluable.
- Cependant, cette propriété les rend vulnérables à des attaques d'injection d'instruction (PI) qui peuvent inciter le LLM à produire du contenu malveillant ou remplacer les instructions originales.
- Des travaux récents ont montré que ces attaques sont difficiles à contrer car les LLM modernes suivent fidèlement les instructions données.
- En augmentant un LLM avec une capacité de récupération et d’appel API, cela crée de nouveaux vecteurs d'attaque pour l'adversaire.
- Ces LLMs intégrées aux applications pourraient traiter du contenu empoisonné récupérable sur le Web contenant des instructions pr-injectée malveillantes sélectionnées par un adversaire.
- Il est possible pour un attaquant de réaliser ces sortes d'attaques PI indirectement.
- Il est urgent d'évaluer les techniques existantes pour se protéger contre ces menaces et explorer la possibilité de développer de nouvelles techniques pour se protéger contre celles-ci.

Résumé: Les ordinateurs peuvent apprendre à parler comme les humains, mais ils peuvent être piratés pour dire des choses méchantes ou faire de mauvaises choses. Les gens essaient de trouver des moyens de protéger ces ordinateurs, mais c'est difficile car ils suivent simplement les instructions qu'ils reçoivent. Si nous ajoutons plus de fonctions à ces ordinateurs, cela pourrait créer plus d'opportunités pour les pirates informatiques d'attaquer. Nous devons trouver des moyens de nous protéger contre ces attaques. Définitions- Grands modèles de langage (LLM): un type d'ordinateur qui peut apprendre à parler comme les humains. - Injection d'instruction (PI): une technique utilisée par les pirates informatiques pour faire dire ou faire quelque chose à un ordinateur qu'il ne devrait pas faire. - Capacité de récupération et d'appel API: une fonctionnalité supplémentaire que l'on peut ajouter aux LLM pour leur permettre de faire plus de choses. - Vecteurs d'attaque: différentes façons dont un pirate informatique peut attaquer un système informatique. - Adversaire: une personne ou un groupe qui essaie intentionnellement de nuire à quelqu'un ou quelque chose.

Les grands modèles de langage et leurs vulnérabilités

Nous assistons actuellement à des avancées spectaculaires dans les capacités des grands modèles de langage (LLM). Ils sont largement utilisés et intégrés à de nombreux systèmes, notamment les environnements de développement intégrés (IDE) et les moteurs de recherche. Les LLM actuels peuvent être configurés par des instructions en langage naturel tandis que leur fonctionnement interne exact reste implicite et non évaluable. Cette propriété qui leur permet d'être adaptables même aux tâches invisibles pourrait aussi les rendre vulnérables à des incitations malveillantes ciblées.

Attaques d'injection d'instruction

Des moyens ont été récemment mis en place pour décaler les LLM en utilisant des attaques d'injection d'instruction (PI). Dans ce type d'attaques, un adversaire peut inciter le LLM à produire du contenu malveillant ou remplacer les instructions originales et les schémas de filtrage utilisés. Des travaux récents ont montré que ces attaques sont difficiles à contrer car les LLM modernes suivent fidèlement les instructions données. Jusqu'à présent, ces attaques supposaient que l'adversaire incitait directement le LLM.

Attaque PI indirecte

Dans ce travail, nous montrons qu’augmenter un LLM avec une capacité de récupération et d’appel API (appelée LLMs intégrée aux applications) induit un tout nouvel ensemble de vecteurs d’attaque. Ces LLMs pourraient traiter du contenu empoisonné récupérable sur le Web contenant des instructions pr-injectée malveillantes s

Créé le 17 Nov. 2023

Disponible dans d'autres langues : en

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

⚠La licence de cet article spécifique ne nous permet pas de nous appuyer sur son contenu et les outils de synthèse seront exécutés en utilisant les métadonnées de l'article plutôt que l'article complet. Cependant, l'outil produira quand même un bon résultat, et vous pouvez également essayer nos outils sur des papiers avec des licences plus ouvertes.