Chain-of-Thought Reasoning Without Prompting

Mots clés générés par l'IA : Modèles de langage raisonnement sollicitation décodage confiance

Points clés générés par l'IA

  • La recherche antérieure se concentre sur des techniques de sollicitation spécifiques pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs)
  • Une approche novatrice est adoptée pour étudier si les LLMs peuvent raisonner efficacement sans sollicitation
  • Des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant le processus de décodage
  • Le décodage CoT proposé surpasse considérablement le décodage glouton standard
  • Diverses méthodes récentes visent à améliorer le processus de génération CoT, mais nécessitent encore une sollicitation CoT
  • Voici la traduction en français :
  • La recherche antérieure se concentre sur des techniques de sollicitation spécifiques pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs).
  • Une approche novatrice est adoptée pour étudier si les LLMs peuvent raisonner efficacement sans sollicitation.
  • Des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant le processus de décodage.
  • Le décodage CoT proposé surpasse considérablement le décodage glouton standard.
  • Diverses méthodes récentes visent à améliorer le processus de génération CoT, mais nécessitent encore une sollicitation CoT.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Xuezhi Wang, Denny Zhou

Licence : CC BY 4.0

Résumé : In enhancing the reasoning capabilities of large language models (LLMs), prior research primarily focuses on specific prompting techniques such as few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while effective, often involve manually intensive prompt engineering. Our study takes a novel approach by asking: Can LLMs reason effectively without prompting? Our findings reveal that, intriguingly, CoT reasoning paths can be elicited from pre-trained LLMs by simply altering the \textit{decoding} process. Rather than conventional greedy decoding, we investigate the top-$k$ alternative tokens, uncovering that CoT paths are frequently inherent in these sequences. This approach not only bypasses the confounders of prompting but also allows us to assess the LLMs' \textit{intrinsic} reasoning abilities. Moreover, we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model's decoded answer. This confidence metric effectively differentiates between CoT and non-CoT paths. Extensive empirical studies on various reasoning benchmarks show that the proposed CoT-decoding substantially outperforms the standard greedy decoding.

Soumis à arXiv le 15 Fév. 2024

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2402.10200v1

Dans le but d'améliorer les capacités de raisonnement des grands modèles de langage (LLMs), la recherche antérieure se concentre principalement sur des techniques de sollicitation spécifiques telles que la sollicitation en chaîne de pensée (CoT) à quelques tirs ou zéro tir. Ces méthodes, bien qu'efficaces, impliquent souvent un travail intensif de conception de sollicitations manuelles. Notre étude adopte une approche novatrice en se demandant : les LLMs peuvent-ils raisonner efficacement sans sollicitation ? Nos résultats révèlent que, de manière intrigante, des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant simplement le processus de \textit{décodage}. Plutôt que le décodage glouton conventionnel, nous examinons les $k$ meilleurs jetons alternatifs, découvrant que les chemins CoT sont fréquemment inhérents à ces séquences. Cette approche permet non seulement d'éviter les biais liés à la sollicitation, mais aussi d'évaluer les capacités de raisonnement \textit{intrinsèques} des LLMs. De plus, nous observons que la présence d'un CoT dans le chemin de décodage est corrélée à une plus grande confiance dans la réponse décodée du modèle. Cette mesure de confiance différencie efficacement entre les chemins CoT et non-CoT. Des études empiriques approfondies sur divers benchmarks de raisonnement montrent que le décodage CoT proposé surpasse considérablement le décodage glouton standard. Plusieurs travaux récents proposent d'améliorer le processus de génération CoT en contrôlant et vérifiant mieux les étapes générées, par exemple la vérification pas à pas (Lightman et al., 2023), le feedback basé sur le processus (Uesato et al., 2022), la recherche guidée par l'auto-évaluation (Xie et al., 2023) et PathFinder (Golovneva et al., 2023). Tous ces travaux nécessitent encore une sollicitation CoT pour générer les chemins de raisonnement CoT, tandis que notre travail élimine complètement la sollicitation CoT. De plus, ces travaux existants se concentrent sur la recherche et la vérification des "étapes" produites par le modèle linguistique, tandis que notre travail recherche purement dans l'espace de décodage au niveau du jeton et utilise les scores de confiance lors du décodage des réponses. De plus, des travaux récents visent à mieux comprendre comment la chaîne-de-pensée émerge dans les modèles linguistiques (Feng et al., 2023; Li et al., 2023b; Prystawski et al., 2023). McCoy et al. (2023); Razeghi et al. (2022) montrent un phénomène similaire où la distribution préalable influence fortement les performances du modèle en matière de raisonnement à quelques tirs. L'accord-tuning pour susciter des Chaînes-de-Pensée dans les modèles linguistiques.
Créé le 25 Fév. 2024
Disponible dans d'autres langues : en

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.