Optimiser sa fenetre de contexte LLM : chunking, resume, pruning

La promesse des fenetres de contexte massives en 2026 (jusqu'a 2 millions de tokens chez certains providers) a libere les developpeurs de la contrainte de taille. La realite est plus nuancee : ces fenetres geantes coutent cher, prennent du temps a traiter, et la qualite des reponses chute mesurablement quand le contexte depasse 200 000 tokens. Le phenomene "lost in the middle" est documente : les modeles oublient les informations introduites au milieu de longs prompts. Optimiser la fenetre de contexte n'est pas une discipline d'antan reservee aux modeles plus petits : c'est une discipline actuelle qui differencie les applications LLM efficaces des autres. Cet article detaille les techniques qui produisent les meilleurs gains en 2026.

Le mythe du contexte infini

L'argument simple est seduisant : envoyez tout le contexte, le modele se debrouillera. La realite mesuree est plus complexe.

Le premier probleme est le cout. Un million de tokens d'entree coutent entre 2 et 15 dollars selon le modele en 2026. Sur 1000 requetes par jour, c'est 2 000 a 15 000 dollars par jour. Cette economie est un argument solide pour l'optimisation.

Le deuxieme probleme est la latence. Ingerer un million de tokens prend 5 a 30 secondes selon le modele et l'infrastructure. Cette latence est inacceptable pour des applications interactives.

Le troisieme probleme est la qualite. Les benchmarks publies en 2025 montrent une chute de 15 a 30 % de la precision sur les questions necessitant des informations placees au milieu de prompts longs. Ce phenomene s'explique par la nature meme du mecanisme d'attention : les positions intermediaires recoivent moins d'attention que le debut et la fin.

Ces trois problemes justifient l'investissement dans l'optimisation du contexte, meme avec des fenetres de contexte tres larges. Le bon prompt n'est pas le plus gros : c'est le plus pertinent.

Chunking intelligent

Le chunking est la technique de base : decouper un long contenu en morceaux plus petits pour ne presenter au modele que les portions pertinentes. Notre [guide RAG pour developpeurs](/rag-developpeurs-cursor-claude-code-codebase/) couvre les bases du chunking pour le RAG.

Au-dela du chunking simple, plusieurs techniques avancees produisent de meilleurs resultats en 2026.

Le chunking semantique decoupe sur la base du sens plutot que sur des criteres mecaniques (taille fixe, paragraphes). Un modele d'embedding ou un modele leger detecte les transitions thematiques et coupe a ces frontieres. Le resultat : des chunks coherents qui preservent les idees completes plutot que de les couper au milieu.

Le chunking hierarchique cree plusieurs niveaux de granularite. Niveau 1 : le document est decoupe en grandes sections. Niveau 2 : chaque section en paragraphes. Niveau 3 : chaque paragraphe en phrases. La recherche peut commencer a un niveau grossier (sections) et zoomer ensuite sur les niveaux plus fins selon la pertinence.

Le chunking avec contexte etendu inclut un en-tete de contexte dans chaque chunk. Pour un fichier de code, cela signifie ajouter le path du fichier, les imports, et la signature de la classe parente avant chaque fonction. Pour de la documentation, cela signifie ajouter les titres parents et le breadcrumb de la page. Cet en-tete coute 10 a 20 % de tokens supplementaires mais ameliore la qualite des resultats de 20 a 40 % selon les mesures.

Resume hierarchique

Quand le contexte total est tres grand (milliers de documents), le pattern qui fonctionne est le resume hierarchique.

Le principe : a chaque niveau, un resume condense le contenu en preservant l'essentiel. Pour un assistant qui couvre 10 000 pages de documentation, l'architecture peut etre la suivante. Niveau 0 : les pages originales. Niveau 1 : un resume par page (200 tokens). Niveau 2 : un resume par chapitre regroupant 10 pages (500 tokens). Niveau 3 : un resume general du document (1000 tokens).

A la requete, l'agent commence par consulter le resume general pour identifier les chapitres pertinents. Il consulte les resumes de chapitres pour identifier les pages pertinentes. Il consulte enfin le contenu integral des pages identifiees. Cette navigation par couches limite drastiquement le volume injectes dans le prompt final.

L'investissement dans la generation des resumes est significatif (un appel LLM par chunk a chaque niveau) mais s'amortit sur la duree de vie de l'index. Pour une documentation stable, un resume genere une fois sert pendant des mois.

Pruning intelligent

Le pruning consiste a supprimer les informations non pertinentes du contexte avant de l'envoyer au modele. C'est l'inverse du chunking : on part d'un contexte complet et on enleve.

Le pruning par scoring de pertinence utilise un modele leger pour evaluer chaque chunk vis-a-vis de la requete. Les chunks au-dessus d'un seuil de score sont conserves, les autres elimines. Cette technique reduit typiquement la taille du contexte de 30 a 60 % avec une perte de qualite minimale.

Le pruning par redondance detecte et supprime les informations dupliquees. Sur des contextes assembles depuis plusieurs sources, la redondance peut atteindre 20 a 40 % du volume total. Une simple deduplication par similarity score elimine ce gachis.

Le pruning par age est utile dans les conversations longues. Les tours anciens d'une conversation perdent de leur pertinence avec le temps. Un agent peut conserver les N derniers tours en integralite et resumer les tours plus anciens. Cette decroissance progressive maintient la coherence sans exploser le contexte.

Sliding window pour les conversations

Pour les agents conversationnels, le pattern sliding window equilibre coherence et efficacite.

Le principe : conserver une fenetre coherente des derniers N tours de conversation, et un resume des tours anterieurs. Quand un nouveau tour arrive, le tour le plus ancien sort de la fenetre et est resumé avec le bloc de resume historique.

L'implementation typique utilise N=10 tours et regenere le resume historique quand il atteint un certain seuil. Cette discipline maintient le contexte total dans une fourchette stable, generalement 5 000 a 15 000 tokens, quelle que soit la duree de la conversation.

Le compromis est la perte de details specifiques sur les tours anciens. Pour beaucoup d'applications, cette perte est acceptable. Pour les applications ou chaque detail compte (debat technique, suivi medical), des techniques plus sophistiquees sont necessaires.

Compression par embeddings

Une technique avancee en 2026 est la compression du contexte via des embeddings condensés. Plutot que d'envoyer le texte intégral, on envoie une representation vectorielle compacte que le modele decompresse via une couche dediee.

Cette approche reste experimentale en 2026 mais montre des resultats prometteurs sur des cas specifiques (traitement de longs documents, analyse de gros corpus). Plusieurs labs publient des modeles qui acceptent ces embeddings condensés en entree, avec des compressions de 10 a 50 fois.

Pour les developpeurs en 2026, ces techniques restent generalement inaccessibles directement mais commencent a etre integrees dans les frameworks d'orchestration. LlamaIndex et LangChain experimentent ces patterns dans leurs versions experimentales. Voir notre [comparatif LlamaIndex vs LangChain](/llamaindex-vs-langchain-framework-rag/) pour le detail.

Le pattern dynamic context

Le pattern "dynamic context" combine plusieurs techniques pour adapter le contexte a chaque requete.

Etape 1 : analyser la requete pour identifier les domaines pertinents. Cette analyse peut etre faite par un appel LLM leger ou par un classifier.

Etape 2 : recuperer les chunks pertinents via RAG sur le domaine identifie. La recherche est ciblée plutot que generique.

Etape 3 : pruning du contexte recupere via scoring de pertinence par rapport a la requete. Les chunks marginalement pertinents sont elimines.

Etape 4 : assemblage du prompt avec les chunks restants, dans un ordre qui place les plus pertinents au debut et a la fin (pour eviter le "lost in the middle").

Etape 5 : execution de l'appel principal avec ce contexte optimise.

Cette pipeline ajoute une latence (1 a 3 secondes selon la sophistication) mais reduit drastiquement la taille du contexte principal et ameliore la qualite des reponses. Sur des applications complexes, le gain net est positif.

Mesurer l'impact des optimisations

L'optimisation du contexte sans mesure est aveugle. Plusieurs metriques meritent d'etre instrumentees.

Le ratio de pertinence mesure le pourcentage de tokens du contexte qui contribuent reellement a la reponse. Un ratio bas (10-20 %) indique que la majorite du contexte est du gaspillage. Un ratio eleve (60-80 %) indique une optimisation efficace.

La distribution des tailles de contexte par requete revele les outliers. Une requete qui demande 100 000 tokens de contexte la ou la moyenne est de 5 000 indique soit un cas particulier legitime, soit un bug d'optimisation a investiguer.

La correlation cout-qualite mesure si les requetes avec gros contextes produisent vraiment de meilleures reponses que les requetes optimisees. Souvent, la correlation est faible ou inexistante : ajouter du contexte n'ameliore pas le resultat. Cette observation justifie d'agresser l'optimisation.

Notre [guide d'observabilite LLM](/observabilite-llm-langsmith-helicone-langfuse/) detaille les outils qui exposent ces metriques.

Eviter le "lost in the middle"

Le phenomene "lost in the middle" merite des techniques specifiques.

La premiere technique est le placement strategique. Les informations les plus importantes vont en debut ou en fin de contexte. Le milieu est reserve aux informations de complement. Cette discipline simple ameliore mesurablement la qualite des reponses sur les contextes longs.

La deuxieme technique est la repetition selective. Les elements critiques peuvent etre repetes : une fois dans la section principale, une fois dans le resume final. Cette redondance volontaire compense l'attention reduite sur les positions intermediaires.

La troisieme technique est la structure visible. Des marqueurs clairs (titres, separateurs) aident le modele a naviguer dans le contexte. Une structure plate de 50 000 tokens est moins exploitable qu'une structure clairement segmentee.

La quatrieme technique est le sondage par questions intermediaires. Plutot que d'attendre la reponse finale pour verifier la comprehension, des questions intermediaires forcent le modele a re-acceder aux informations specifiques. Cette pratique evite que des informations critiques soient ignorées dans la reponse finale.

L'arbitrage qualite-cout-latence

Toutes les techniques d'optimisation de contexte impliquent des compromis. Une grille simple aide a arbitrer.

Pour les applications a forte qualite requise et budget eleve : peu d'optimisation, gros contexte, modele puissant. Acceptable pour les cas critiques (medical, legal) ou la qualite prime.

Pour les applications interactives a budget modere : optimisation moyenne, contexte cible (5 000 a 20 000 tokens), modele rapide. Le compromis classique pour les chatbots et assistants.

Pour les applications a fort volume et budget contraint : optimisation aggressive, contexte minimaliste (sous 5 000 tokens), modele leger. Adaptés aux usages mass-market ou industriels.

L'erreur est de choisir une approche sans considerer le compromis. Une application qui aurait du etre dans le profil 3 (mass-market) qui adopte le profil 1 (qualite extreme) explose ses couts sans gain de valeur business. Inversement, une application medicale qui adopte le profil 3 produit des resultats inacceptables.

La discipline qui fait la difference

L'optimisation du contexte LLM en 2026 n'est plus une optimisation avancee : c'est une competence de base pour toute application LLM serieuse. Les techniques sont documentees, les outils les supportent nativement, les benefices sont mesurables.

Les equipes qui investissent dans cette discipline obtiennent des applications plus performantes, moins coureuses et plus durables. Les equipes qui s'en tiennent aux gros contextes par defaut paient cher en cout, en latence et en qualite degradee, sans toujours en mesurer l'impact.

L'avantage compose dans le temps. Une application optimisee tot capitalise sur cette efficacite a chaque nouveau scaling. Une application non optimisee accumule la dette technique et finit par devoir etre repensee. Cette divergence explique pourquoi les meilleurs projets LLM en 2026 ne sont pas necessairement ceux qui utilisent les modeles les plus puissants, mais ceux qui exploitent intelligemment les modeles disponibles.