Dans le but d'améliorer les capacités de raisonnement des grands modèles de langage (LLMs), la recherche antérieure se concentre principalement sur des techniques de sollicitation spécifiques telles que la sollicitation en chaîne de pensée (CoT) à quelques tirs ou zéro tir. Ces méthodes, bien qu'efficaces, impliquent souvent un travail intensif de conception de sollicitations manuelles. Notre étude adopte une approche novatrice en se demandant : les LLMs peuvent-ils raisonner efficacement sans sollicitation ? Nos résultats révèlent que, de manière intrigante, des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant simplement le processus de \textit{décodage}. Plutôt que le décodage glouton conventionnel, nous examinons les $k$ meilleurs jetons alternatifs, découvrant que les chemins CoT sont fréquemment inhérents à ces séquences. Cette approche permet non seulement d'éviter les biais liés à la sollicitation, mais aussi d'évaluer les capacités de raisonnement \textit{intrinsèques} des LLMs. De plus, nous observons que la présence d'un CoT dans le chemin de décodage est corrélée à une plus grande confiance dans la réponse décodée du modèle. Cette mesure de confiance différencie efficacement entre les chemins CoT et non-CoT. Des études empiriques approfondies sur divers benchmarks de raisonnement montrent que le décodage CoT proposé surpasse considérablement le décodage glouton standard. Plusieurs travaux récents proposent d'améliorer le processus de génération CoT en contrôlant et vérifiant mieux les étapes générées, par exemple la vérification pas à pas (Lightman et al., 2023), le feedback basé sur le processus (Uesato et al., 2022), la recherche guidée par l'auto-évaluation (Xie et al., 2023) et PathFinder (Golovneva et al., 2023). Tous ces travaux nécessitent encore une sollicitation CoT pour générer les chemins de raisonnement CoT, tandis que notre travail élimine complètement la sollicitation CoT. De plus, ces travaux existants se concentrent sur la recherche et la vérification des "étapes" produites par le modèle linguistique, tandis que notre travail recherche purement dans l'espace de décodage au niveau du jeton et utilise les scores de confiance lors du décodage des réponses. De plus, des travaux récents visent à mieux comprendre comment la chaîne-de-pensée émerge dans les modèles linguistiques (Feng et al., 2023; Li et al., 2023b; Prystawski et al., 2023). McCoy et al. (2023); Razeghi
et al. (2022) montrent un phénomène similaire où la distribution préalable influence fortement les performances du modèle en matière de raisonnement à quelques tirs. L'accord-tuning pour susciter des Chaînes-de-Pensée dans les modèles linguistiques.
- - La recherche antérieure se concentre sur des techniques de sollicitation spécifiques pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs)
- - Une approche novatrice est adoptée pour étudier si les LLMs peuvent raisonner efficacement sans sollicitation
- - Des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant le processus de décodage
- - Le décodage CoT proposé surpasse considérablement le décodage glouton standard
- - Diverses méthodes récentes visent à améliorer le processus de génération CoT, mais nécessitent encore une sollicitation CoT
- Voici la traduction en français :
- - La recherche antérieure se concentre sur des techniques de sollicitation spécifiques pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs).
- - Une approche novatrice est adoptée pour étudier si les LLMs peuvent raisonner efficacement sans sollicitation.
- - Des chemins de raisonnement CoT peuvent être suscités à partir de LLMs pré-entraînés en modifiant le processus de décodage.
- - Le décodage CoT proposé surpasse considérablement le décodage glouton standard.
- - Diverses méthodes récentes visent à améliorer le processus de génération CoT, mais nécessitent encore une sollicitation CoT.
SummaryResearchers have been studying ways to make big language models (LLMs) better at reasoning by using specific techniques. A new approach is being tried to see if LLMs can think well without being prompted. They found that by changing how LLMs process information, they can improve their reasoning abilities. This new way of processing information outperforms the standard method by a lot. While there are other methods to enhance this process, they still require some prompting.
Definitions- Research: The careful study and investigation done to discover new things.
- Techniques: Different ways or methods of doing something.
- Sollicitation: Asking for input or prompting someone for a response.
- Capacities: The abilities or skills that someone has.
- Reasoning: Thinking logically and making sense of information.
Dans cet article, nous allons discuter d'une étude de recherche qui vise à améliorer les capacités de raisonnement des grands modèles de langage (LLMs). La recherche antérieure s'est principalement concentrée sur l'utilisation de techniques spécifiques telles que la sollicitation en chaîne de pensée (CoT) à quelques tirs ou zéro tir pour améliorer ces capacités. Bien que ces méthodes soient efficaces, elles nécessitent souvent un travail manuel intensif pour concevoir les sollicitations. Notre étude adopte une approche novatrice en se demandant si les LLMs peuvent raisonner efficacement sans sollicitation.
Les résultats de notre étude révèlent qu'il est possible d'induire des chemins de raisonnement CoT à partir de LLMs pré-entraînés en modifiant simplement le processus de décodage. Au lieu d'utiliser le décodage glouton conventionnel, nous examinons les $k$ meilleurs jetons alternatifs et découvrons que ces séquences contiennent fréquemment des chemins CoT. Cette méthode permet non seulement d'éviter les biais liés à la sollicitation, mais aussi d'évaluer les capacités intrinsèques des LLMs en matière de raisonnement.
De plus, nous avons observé qu'un chemin CoT dans le processus de décodage est corrélé à une plus grande confiance dans la réponse donnée par le modèle. Cette mesure peut donc différencier efficacement entre les chemins CoT et non-CoT. Des études empiriques menées sur différents benchmarks ont montré que notre méthode proposée surpassait considérablement le décodage glouton standard.
Plusieurs travaux récents ont également proposé des améliorations du processus de génération CoT en contrôlant et vérifiant mieux les étapes générées, tels que la vérification pas à pas (Lightman et al., 2023), le feedback basé sur le processus (Uesato et al., 2022), la recherche guidée par l'auto-évaluation (Xie et al., 2023) et PathFinder (Golovneva et al., 2023). Cependant, tous ces travaux nécessitent encore une sollicitation CoT pour générer les chemins de raisonnement CoT, tandis que notre méthode élimine complètement cette étape. De plus, ces travaux se concentrent sur la recherche et la vérification des "étapes" produites par le modèle linguistique, tandis que notre approche se concentre uniquement sur l'espace de décodage au niveau du jeton en utilisant les scores de confiance lors du décodage des réponses.
Enfin, il convient également de mentionner que d'autres recherches récentes visent à mieux comprendre comment la chaîne-de-pensée émerge dans les modèles linguistiques (Feng et al., 2023; Li et al., 2023b; Prystawski et al., 2023). Des études telles que celles menées par McCoy et al. (2023) ou Razeghi et al. (2022) ont montré un phénomène similaire où la distribution préalable influence fortement les performances du modèle en matière de raisonnement à quelques tirs. Notre travail s'inscrit donc dans cette lignée en proposant une méthode pour susciter des chaînes-de-pensée dans les modèles linguistiques sans avoir recours à la sollicitation CoT.