- A Kind of Magic
- Posts
- Prompter efficacement (Partie 2)
Prompter efficacement (Partie 2)
À la une : Baidu lance des modèles IA ultra-abordables

Au menu d’aujourd’hui :
🎓 Prompter efficacement (Partie 2)
🗞️ À la une : Baidu lance des modèles IA ultra-abordables
📮 6 autres news en bref
💎 5 ressources de la semaine
Cette semaine on continue notre série sur le prompt engineering avec la deuxième partie !

🎓 Prompter efficacement (Partie 2)
Dans la première partie de cette série sur le prompt engineering, on avait vu les bonnes pratiques suivantes :
1️⃣ Écris tes prompts en anglais (même si ton besoin est en français)
2️⃣ Donne un rôle (ou un persona) au LLM
3️⃣ Structure ton prompt avec des délimiteurs clairs
Tu peux la retrouver ici.
On continue avec 3 nouveaux conseils pour faire des prompts efficaces :
4️⃣ Adapte ton prompt au modèle utilisé
Avant d’attaquer ce point, rapide rappel sur les différents modèles qui existent et comment les utiliser.
Chez OpenAI par exemple, il existe deux types de modèles :
Les modèles GPT généralistes (comme GPT-4o) : polyvalents et rapides, parfaits pour les conversations, les créations textuelles ou la gestion multimodale (texte, images, audio).
Les modèles de raisonnement (o1, o3-mini) : idéaux pour résoudre des problèmes complexes qui nécessitent une réflexion approfondie, comme du code, des maths ou des raisonnements logiques.
À la différence des modèles GPT généralistes, les modèles de raisonnement utilisent des tokens de raisonnement avant de répondre ce qui leur permet d'être meilleurs sur les tâches plus complexes.

Cf exemple de “raisonnement” tiré du papier de DeepSeek : https://arxiv.org/pdf/2501.12948
Si on fait une analogie avec l'école, si tu donnes un contrôle de maths à ton LLM :
un modèle GPT va écrire la réponse à main levée directement au propre sur sa copie.
un modèle de raisonnement utilise un brouillon avant d'écrire au propre sur sa copie.
💡 Pour info : La distinction entre les 2 types de modèles risque de s'effacer à l'avenir. OpenAI a annoncé qu'ils allaient passer sur un unique modèle GPT-5 qui combinera les modèles GPT classiques et les modèles de raisonnement.

Mais pourquoi ne pas tout le temps choisir un modèle de raisonnement s’ils sont meilleurs ?
Parce que pour certains cas d’usage, utiliser un modèle de raisonnement revient à tuer une mouche avec un canon.
Pour la plupart des tâches, les GPT classiques font très bien le job (à condition que la tâche soit bien définie, on va le voir plus bas). Et ils sont par ailleurs moins chers et plus rapides, donc autant les utiliser.
Pour les tâches complexes ou qui nécessitent plus de fiabilité, il peut être utile d'utiliser un modèle de raisonnement.
Il est assez commun d'utiliser les deux types de modèles dans un même workflow, les modèles de raisonnement pour les tâches d'orchestration, de prise de décision et les modèles GPT pour l'exécution de tâches bien balisées.

Voici un exemple sur la documentation d’OpenAI où les modèles GPT classiques sont utilisés pour des tâches comme le tri des demandes et les modèles de raisonnement pour la validation des décisions prises.
Voilà pour le petit rappel sur les différents modèles.
Mais alors comment adapter son prompt en fonction du modèle utilisé ?
Une bonne image mentale pour se souvenir de comment prompter chaque modèle est de considérer que :
quand tu utilises un GPT classique tu t'adresses à un collègue très junior, tu vas plutôt insister sur les étapes pour arriver au résultat en détaillant le plus possible tes instructions.
quand tu utilises un modèle de raisonnement tu t'adresses à un collègue senior, tu vas plutôt insister sur l’objectif et laisser de l’autonomie au modèle pour arriver au résultat → c’est d’ailleurs peu recommandé de demander au modèle de détailler son raisonnement car il le fait déjà naturellement.
Voici un résumé :

💡 Conseil pratique : choisis le modèle en fonction de la tâche à accomplir, et adapte ton prompt en fonction.
5️⃣ Reste en maîtrise de la mémoire de travail
On l'a vu, un LLM prend du texte en input et donne du texte en output. Le texte en input c'est ton prompt mais pas que, il y a aussi la context window.
La context window comprend :
ton prompt
les questions et les réponses précédentes
les exemples donnés
les résultats d’une recherche dans une base de connaissances (RAG)
les résultats de ses recherches internet
etc.

Voilà un schéma illustrant le fonctionnement de la context window pour un modèle de raisonnement. On voit que les tokens de raisonnement de la demande actuelle comptent dans la context window, tout comme les questions / réponses des demandes précédentes.
On peut assimiler la context window à la mémoire de travail par opposition à la mémoire long-terme qui correspond aux souvenirs du modèle sur ses données d’entraînement.
Si on reprend notre analogie avec l'école :
la mémoire long-terme (souvenirs de l’entraînement du modèle) -> c'est l'étudiant qui fait son contrôle en essayant de se souvenir de son cours.
la mémoire de travail (context window) -> c'est l'étudiant qui fait son contrôle avec son cahier de cours ouvert à la bonne page.
Quand on utilise un LLM, on est en maîtrise de la mémoire de travail mais pas de la mémoire long-terme.
Prenons un exemple :
Si tu demandes à un LLM de résumer le premier chapitre du dernier jour d'un condamné de Victor Hugo.

Le LLM a probablement vu passer le livre dans son corpus d'entraînement et donc il va sûrement pouvoir te le résumer.
Mais… il y a des zones d’ombre. Quelle version a-t-il vue ? Une version abrégée, une version complète, des résumés ? A-t-il vraiment vu passer ce livre ? Va-t-il halluciner sur certains passages ?
Un meilleur prompt serait de lui donner le texte original :

Par ailleurs, à noter que tous les modèles ont une knowledge cut-off date qui correspond à la date à laquelle s’arrête leur corpus d’entraînement.
Pour Victor Hugo on est assez safe, mais pour des sujets technologiques ou d'actualité :
le modèle risque de ne pas avoir les réponses dans sa mémoire long-terme.
il est essentiel de lui donner du contexte via la mémoire de travail (dans le prompt, via un RAG, dans les exemples, via une recherche etc.).
De la même manière, lorsque tu demandes à un LLM de visiter un site via l'outil de recherche et d'en faire un résumé, on n’est jamais sûr à 100% qu'il va extraire le contenu qui nous intéresse avant de formuler sa réponse.
Si tu as besoin d’une fiabilité élevée (dans le cadre d’une automatisation par exemple), une meilleure manière de procéder serait de d'abord scraper le contenu qui t’intéresse et de lui donner de manière explicite.
💡 Conseil pratique : Garde toujours en tête ce que ton modèle a dans sa mémoire de travail.
6️⃣ Demande au LLM qu’il te pose des questions
Comment tu t'y prendrais si tu devais faire un cadeau à un inconnu ?
L'enjeu tu t'en doutes, c'est d'essayer de comprendre au maximum les envies, les goûts de la personne à qui tu dois offrir un cadeau.
On poserait des questions.
De la même manière, on peut inciter l’IA à nous poser des questions pour obtenir de meilleurs résultats.
Même si ChatGPT est ton meilleur pote, il n'est pas dans ta tête, et donc il risque de te faire des recommandations à côté de la plaque parce qu'il va lui manquer du contexte.
Par exemple, si on lui demande d'organiser un week-end pour 2 personnes à Berlin.
Voilà ce qu’on peut obtenir comme réponse :

Merci pour la suggestion de week-end romantique et culturel mais je pars avec un pote et on va plutôt à Berlin pour faire la fête.
Un bien meilleur prompt serait de lui demander de me poser des questions pour mieux définir mes envies.

C'est une technique que tu peux employer sur tout un tas de tâches. Le but est de couvrir le plus d'angles morts possibles.
Btw, ChatGPT le fait automatiquement quand tu lances une requête de Deep Research pour éviter de faire une recherche de 10 minutes qui ne soit pas pertinente.

💡 Conseil pratique : Encourage le LLM à te poser des questions pour préciser ta demande.
On continue la semaine prochaine avec la dernière partie de cette série sur le prompt engineering !
🗞️ À la une

Le géant technologique chinois Baidu vient de dévoiler deux modèles multimodaux à des prix agressifs : ERNIE 4.5, doté d'une intelligence émotionnelle améliorée et de meilleures capacités de raisonnement, et ERNIE X1, son premier modèle de raisonnement rivalisant avec DeepSeek R1 à moitié prix.
Avec des coûts représentant seulement 1% de ceux de GPT-4.5 pour ERNIE 4.5, cette initiative pourrait marquer le début d'une guerre des prix mondiale dans le domaine de l'IA.

📮 Autres news en bref
OpenAI teste en version bêta l'intégration de ChatGPT avec Google Drive et Slack pour l'utilisation des documents internes.
Mistral AI lance Mistral Small 3.1, un modèle compact de 24 milliards de paramètres avec des meilleurs performances que Google Gemma 3 et GPT-4o mini.
Cursor dévoile Claude Max, un modèle IA avancé pour développeurs avec une fenêtre de contexte de 200k et des appels d'outils simultanés multiples.
Une équipe de Harvard et du MIT présente TxAgent, un agent IA utilisant 211 outils spécialisés pour générer des recommandations de traitement personnalisées.
Deepgram lance Nova-3 Medical, offrant une précision inégalée pour la transcription médicale avec 63,7% de meilleurs résultats sur la terminologie médicale.
Google et Muon Space dévoilent FireSat, un satellite alimenté par l'IA capable de détecter des feux de forêt aussi petits que 5x5 mètres.
💎 Ressources
Y Combinator révèle que 80% des startups de sa dernière promotion utilisent des LLMs pour coder, certaines atteignant 10M$ de revenus annuels avec moins de 10 employés.
Analyse approfondie de l'impact de l'IA générative sur l'industrie du jeu vidéo.
Article qui explique ce qu’est le vibe coding.
OpenAI améliore son Prompts Playground avec de nouvelles fonctionnalités de test et de comparaison.
Étude de Microsoft sur l'impact de l'IA sur la pensée critique des salariés.

🎤 À toi le micro
Voilà, c’est la fin de cette 19ème édition de A Kind of Magic, j’espère qu’elle t’a été utile.
N’hésite pas à la partager si c’était le cas.
Dispo pour échanger en réponse à cet e-mail ou sur Linkedin.
À jeudi !

Jean-Charles