Chain-of-Thought Reasoning Without Prompting

Mots clés générés par l'IA : Modèles de langage raisonnement sollicitation décodage confiance

Points clés générés par l'IA

La recherche antérieure se concentre sur des techniques de sollicitation spécifiques pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs)
Une approche novatrice est adoptée pour étudier si les LLMs peuvent raisonner efficacement sans sollicitation
Des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant le processus de décodage
Le décodage CoT proposé surpasse considérablement le décodage glouton standard
Diverses méthodes récentes visent à améliorer le processus de génération CoT, mais nécessitent encore une sollicitation CoT
Voici la traduction en français :
La recherche antérieure se concentre sur des techniques de sollicitation spécifiques pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs).
Une approche novatrice est adoptée pour étudier si les LLMs peuvent raisonner efficacement sans sollicitation.
Des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant le processus de décodage.
Le décodage CoT proposé surpasse considérablement le décodage glouton standard.
Diverses méthodes récentes visent à améliorer le processus de génération CoT, mais nécessitent encore une sollicitation CoT.

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Xuezhi Wang, Denny Zhou

arXiv: 2402.10200v1 - DOI (cs.CL)

Licence : CC BY 4.0

Résumé : In enhancing the reasoning capabilities of large language models (LLMs), prior research primarily focuses on specific prompting techniques such as few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while effective, often involve manually intensive prompt engineering. Our study takes a novel approach by asking: Can LLMs reason effectively without prompting? Our findings reveal that, intriguingly, CoT reasoning paths can be elicited from pre-trained LLMs by simply altering the \textit{decoding} process. Rather than conventional greedy decoding, we investigate the top-$k$ alternative tokens, uncovering that CoT paths are frequently inherent in these sequences. This approach not only bypasses the confounders of prompting but also allows us to assess the LLMs' \textit{intrinsic} reasoning abilities. Moreover, we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model's decoded answer. This confidence metric effectively differentiates between CoT and non-CoT paths. Extensive empirical studies on various reasoning benchmarks show that the proposed CoT-decoding substantially outperforms the standard greedy decoding.

Soumis à arXiv le 15 Fév. 2024

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2402.10200v1

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Dans le but d'améliorer les capacités de raisonnement des grands modèles de langage (LLMs), la recherche antérieure se concentre principalement sur des techniques de sollicitation spécifiques telles que la sollicitation en chaîne de pensée (CoT) à quelques tirs ou zéro tir. Ces méthodes, bien qu'efficaces, impliquent souvent un travail intensif de conception de sollicitations manuelles. Notre étude adopte une approche novatrice en se demandant : les LLMs peuvent-ils raisonner efficacement sans sollicitation ? Nos résultats révèlent que, de manière intrigante, des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant simplement le processus de \textit{décodage}. Plutôt que le décodage glouton conventionnel, nous examinons les $k$ meilleurs jetons alternatifs, découvrant que les chemins CoT sont fréquemment inhérents à ces séquences. Cette approche permet non seulement d'éviter les biais liés à la sollicitation, mais aussi d'évaluer les capacités de raisonnement \textit{intrinsèques} des LLMs. De plus, nous observons que la présence d'un CoT dans le chemin de décodage est corrélée à une plus grande confiance dans la réponse décodée du modèle. Cette mesure de confiance différencie efficacement entre les chemins CoT et non-CoT. Des études empiriques approfondies sur divers benchmarks de raisonnement montrent que le décodage CoT proposé surpasse considérablement le décodage glouton standard. Plusieurs travaux récents proposent d'améliorer le processus de génération CoT en contrôlant et vérifiant mieux les étapes générées, par exemple la vérification pas à pas (Lightman et al., 2023), le feedback basé sur le processus (Uesato et al., 2022), la recherche guidée par l'auto-évaluation (Xie et al., 2023) et PathFinder (Golovneva et al., 2023). Tous ces travaux nécessitent encore une sollicitation CoT pour générer les chemins de raisonnement CoT, tandis que notre travail élimine complètement la sollicitation CoT. De plus, ces travaux existants se concentrent sur la recherche et la vérification des "étapes" produites par le modèle linguistique, tandis que notre travail recherche purement dans l'espace de décodage au niveau du jeton et utilise les scores de confiance lors du décodage des réponses. De plus, des travaux récents visent à mieux comprendre comment la chaîne-de-pensée émerge dans les modèles linguistiques (Feng et al., 2023; Li et al., 2023b; Prystawski et al., 2023). McCoy et al. (2023); Razeghi et al. (2022) montrent un phénomène similaire où la distribution préalable influence fortement les performances du modèle en matière de raisonnement à quelques tirs. L'accord-tuning pour susciter des Chaînes-de-Pensée dans les modèles linguistiques.

- La recherche antérieure se concentre sur des techniques de sollicitation spécifiques pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs)
- Une approche novatrice est adoptée pour étudier si les LLMs peuvent raisonner efficacement sans sollicitation
- Des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant le processus de décodage
- Le décodage CoT proposé surpasse considérablement le décodage glouton standard
- Diverses méthodes récentes visent à améliorer le processus de génération CoT, mais nécessitent encore une sollicitation CoT
Voici la traduction en français :
- La recherche antérieure se concentre sur des techniques de sollicitation spécifiques pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs).
- Une approche novatrice est adoptée pour étudier si les LLMs peuvent raisonner efficacement sans sollicitation.
- Des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant le processus de décodage.
- Le décodage CoT proposé surpasse considérablement le décodage glouton standard.
- Diverses méthodes récentes visent à améliorer le processus de génération CoT, mais nécessitent encore une sollicitation CoT.

SummaryResearchers have been studying ways to make big language models (LLMs) better at reasoning by using specific techniques. A new approach is being tried to see if LLMs can think well without being prompted. They found that by changing how LLMs process information, they can improve their reasoning abilities. This new way of processing information outperforms the standard method by a lot. While there are other methods to enhance this process, they still require some prompting. Definitions- Research: The careful study and investigation done to discover new things. - Techniques: Different ways or methods of doing something. - Sollicitation: Asking for input or prompting someone for a response. - Capacities: The abilities or skills that someone has. - Reasoning: Thinking logically and making sense of information.

Dans cet article, nous allons discuter d'une étude de recherche qui vise à améliorer les capacités de raisonnement des grands modèles de langage (LLMs). La recherche antérieure s'est principalement concentrée sur l'utilisation de techniques spécifiques telles que la sollicitation en chaîne de pensée (CoT) à quelques tirs ou zéro tir pour améliorer ces capacités. Bien que ces méthodes soient efficaces, elles nécessitent souvent un travail manuel intensif pour concevoir les sollicitations. Notre étude adopte une approche novatrice en se demandant si les LLMs peuvent raisonner efficacement sans sollicitation. Les résultats de notre étude révèlent qu'il est possible d'induire des chemins de raisonnement CoT à partir de LLMs pré-entraînés en modifiant simplement le processus de décodage. Au lieu d'utiliser le décodage glouton conventionnel, nous examinons les $k$ meilleurs jetons alternatifs et découvrons que ces séquences contiennent fréquemment des chemins CoT. Cette méthode permet non seulement d'éviter les biais liés à la sollicitation, mais aussi d'évaluer les capacités intrinsèques des LLMs en matière de raisonnement. De plus, nous avons observé qu'un chemin CoT dans le processus de décodage est corrélé à une plus grande confiance dans la réponse donnée par le modèle. Cette mesure peut donc différencier efficacement entre les chemins CoT et non-CoT. Des études empiriques menées sur différents benchmarks ont montré que notre méthode proposée surpassait considérablement le décodage glouton standard. Plusieurs travaux récents ont également proposé des améliorations du processus de génération CoT en contrôlant et vérifiant mieux les étapes générées, tels que la vérification pas à pas (Lightman et al., 2023), le feedback basé sur le processus (Uesato et al., 2022), la recherche guidée par l'auto-évaluation (Xie et al., 2023) et PathFinder (Golovneva et al., 2023). Cependant, tous ces travaux nécessitent encore une sollicitation CoT pour générer les chemins de raisonnement CoT, tandis que notre méthode élimine complètement cette étape. De plus, ces travaux se concentrent sur la recherche et la vérification des "étapes" produites par le modèle linguistique, tandis que notre approche se concentre uniquement sur l'espace de décodage au niveau du jeton en utilisant les scores de confiance lors du décodage des réponses. Enfin, il convient également de mentionner que d'autres recherches récentes visent à mieux comprendre comment la chaîne-de-pensée émerge dans les modèles linguistiques (Feng et al., 2023; Li et al., 2023b; Prystawski et al., 2023). Des études telles que celles menées par McCoy et al. (2023) ou Razeghi et al. (2022) ont montré un phénomène similaire où la distribution préalable influence fortement les performances du modèle en matière de raisonnement à quelques tirs. Notre travail s'inscrit donc dans cette lignée en proposant une méthode pour susciter des chaînes-de-pensée dans les modèles linguistiques sans avoir recours à la sollicitation CoT.

Créé le 25 Fév. 2024

Disponible dans d'autres langues : en

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.