Context Engineering : comment faire mieux que du Prompt Engineering ? - KLUSTER

Historiquement, nous parlions de « Prompt Engineering » (l’art de rédiger des instructions pour l’IA). Cependant, avec des modèles de plus en plus puissants et des fenêtres de contexte immenses, le défi a changé. Si vous souhaitez itérer pour un workflow du quotidien, ou construire un pipeline automatisé d’ingestion de données (pour exemple), vous avez besoin de rendre votre modèle déterministe. Chaque erreur, infime soit elle, multipliée par le nombre de requête peut représenter une perte de temps et d’argent énorme.

Qu’est-ce que le Context Engineering ?

Le Context Engineering est la discipline qui consiste à sélectionner systématiquement les informations qu’un modèle de langage reçoit afin de maximiser ses performances, tout en minimisant les coûts et les erreurs.

La différence entre le Prompt Engineering et le Context Engineering est la suivante :

Le Prompt Engineering se concentre sur la rédaction manuelle de textes et d’instructions astucieuses (ex. : « Tu es un expert en… »). C’est une approche statique qui montre ses limites, car elle ne permet pas de monitorer les résultats en temps réel sans que le LLM ne finisse par se tromper ou divaguer. Cela fonctionne une fois, dix fois, mais sans que l’on sache si un meilleur résultat aurait été possible avec plus de rigueur et un suivi chiffré.
Le Context Engineering, quant à lui, se concentre sur la gestion programmatique du système global : récupération de documents (RAG), formatage des données, gestion de la mémoire et définition des outils. C’est une approche disciplinée et dynamique qui garantit la pertinence du message pour un cas d’usage spécifique.

En résumé, on pourrait qualifier le Prompt Engineering de « coup de chance » qui, lorsqu’il se répète, relève de la croyance, là où le Context Engineering transforme l’essai en une véritable science.

Pourquoi le contexte est la base de tout bon prompt ?

Le « contexte » est l’ensemble complet de tokens (mots et/ou caractères) auxquels le modèle a accès pour générer une réponse (instructions système, historique de conversation, documents récupérés, archives, etc.).

Le manque d’informations : Si vous donnez trop peu de contexte, le modèle ne saura pas comment agir, d’autant plus si vous vous écartez de sa base de connaissances initiale.
L’excès d’informations : À l’inverse, si vous en donnez trop, vous risquez le « Context Rot » (le pourrissement de votre contexte). La performance du modèle se dégrade car il peine à traiter l’information pertinente, les coûts explosent et le temps de réponse (temps d’inférence) devient trop long pour votre usage.

Comment pratiquer l’ingénieurie de context ?

Pour fournir la bonne information au bon moment, le LLM a besoin d’être alimenté par la « bonne » donnée. Nous avons identifié plusieurs leviers sur lesquels vous pouvez jouer, notamment dans le cadre de l’agentique :

L’édition et résumé du contexte :

Comme nous l’avons vu, le Context Rot est à éviter, et l’effet Lost in the Middle nous oblige à augmenter la densité d’information. Ici, il s’agit de supprimer sélectivement l’historique non pertinent ou de condenser les informations (par exemple, un long rapport financier résumé en quelques lignes, débarrassé des tournures verbeuses destinées à l’humain). De cette manière, vous augmentez la pertinence tout en réduisant le nombre de tokens ingérés par votre modèle. En anglais, on parle de « Context Editing & Summarization ».
Déchargement de la mémoire :

Au lieu de tout stocker dans la fenêtre de contexte, vous pouvez utiliser un fichier externe ou un « scratchpad » (brouillon) où l’agent pourra écrire et lire des informations qui persisteront malgré l’érosion de la fenêtre de contexte. L’agent peut ainsi mettre à jour ses avancées sur un sujet ou laisser des « footprints » (empreintes) pour le prochain agent qui reprendra la tâche.
Le Retrieval Augmented Generation (RAG) :

Ici, nous nourrissons le LLM automatiquement. La requête de l’utilisateur est comparée à une base de données vectorielle pour extraire les segments les plus pertinents. Ensuite, via un prompt préconçu, le LLM reçoit ces informations et instructions pour formuler sa réponse. Il existe plusieurs niveaux de complexité :
- RAG classique : Pour les demandes simples (« Quel est le CA de 2024 ? »).
- RAG agentique : Pour les demandes nécessitant plusieurs étapes de recherche (« Compare le CA 2025 vs 2024 »).
- GraphRAG : Où la base de données est un graphe de connaissances structurant les relations entre les données.
Séléction des bons outils :

Si votre agent a accès à des dizaines d’outils, vous pouvez implémenter un RAG spécifique pour qu’il ne reçoive qu’une liste restreinte et pertinente d’outils adaptés à la tâche en cours.
Le flux de contrôle :

Divisez les tâches complexes en sous-tâches ou étapes (chaînes). Chaque étape ne reçoit alors que le contexte strictement nécessaire à sa réalisation spécifique.

DSPy : certainement le prochain workflow largement intégré pour l’ingénieurie de contexte

Si l’on devait concevoir un framework d’IA à partir de zéro en prenant l’ingénierie de contexte au sérieux, on aboutirait inévitablement à DSPy. Plus qu’une simple bibliothèque, DSPy (Declarative, Self-improving Python) représente un changement de philosophie radical : il transforme l’art flou du « prompting » en une véritable discipline d’ingénierie logicielle.

Voici pourquoi DSPy est en passe de devenir le standard incontournable pour piloter les systèmes d’IA complexes :

De l’incantation à la programmation déclarative

Avec DSPy, l’ère du bricolage de chaînes de caractères et des « mots magiques » est révolue. Au lieu de rédiger manuellement de longs prompts fragiles, vous définissez des Signatures. Vous déclarez simplement ce que vous voulez (les entrées et les sorties attendues), et le framework se charge de l’implémentation. C’est la promesse de la programmation déclarative appliquée aux LLM : vous vous concentrez sur le quoi, et le système gère le comment.

Une architecture modulaire et agnostique

Le framework introduit la notion de Modules, des blocs de construction interchangeables. Vous souhaitez que votre agent « réfléchisse étape par étape » ou qu’il utilise des outils externes ? Il suffit de changer un module (passer de Predict à ChainOfThought ou ReAct) sans avoir à réécrire tout votre code. De plus, cette abstraction rend votre système portable : un programme écrit pour GPT-4 peut être basculé sur un modèle Claude ou un modèle open-source local en changeant une seule ligne de configuration, sans casser votre ingénierie de contexte.

L’auto-amélioration par la compilation

C’est ici que DSPy creuse l’écart. Le système intègre des Optimiseurs capables de « compiler » votre programme d’IA. Contrairement à un compilateur classique qui traduit du code en binaire, les optimiseurs de DSPy (comme BootstrapFewShot ou GEPA) utilisent vos données d’entraînement pour tester des milliers de variations. Ils sélectionnent automatiquement les meilleurs exemples à inclure dans le contexte ou réécrivent les instructions pour maximiser vos métriques de succès.

La rigueur de l’évaluation

Enfin, DSPy impose une rigueur salutaire. Il force l’ingénieur à définir des métriques d’évaluation claires et à constituer des jeux de données dès le départ. On ne se base plus sur une vague intuition ou un « vibe check » pour savoir si le système fonctionne, mais sur des scores précis qui guident l’optimisation automatique.

En somme, DSPy automatise l’ingénierie de contexte. Il libère les développeurs de la micro-gestion des prompts pour leur permettre de construire des architectures d’agents fiables, performantes et capables d’apprendre de leurs propres réussites.

Du Prompt Engineering au Context Engineering

Qu’est-ce que le Context Engineering ?

Pourquoi le contexte est la base de tout bon prompt ?

Obtenez votre devis gratuit

Comment pratiquer l’ingénieurie de context ?

L’édition et résumé du contexte :

Déchargement de la mémoire :

Le Retrieval Augmented Generation (RAG) :

Séléction des bons outils :

Le flux de contrôle :

DSPy : certainement le prochain workflow largement intégré pour l’ingénieurie de contexte

Besoin d'un expert web ?