Architecture des systèmes IA — Maîtrise4 / 9

Architecture du contexte et de la mémoire

La fenêtre de contexte est votre ressource la plus chère et la plus convoitée. Ce que vous y mettez — et ce que vous mémorisez entre les appels — est une décision architecturale.

Publié le 11 mai 20262 min de lectureHaythem Rehouma · Claude Mastery

La fenêtre de contexte est finie, coûteuse, et c'est là que le modèle pense vraiment. La traiter comme un brouillon infini est l'erreur architecturale la plus courante dans les systèmes d'IA.

Le contexte est un budget

Chaque token en contexte coûte de l'argent et dilue l'attention. Plus de contexte n'est pas plus d'intelligence — passé un certain point, c'est la dégradation du contexte : le modèle devient plus lent et plus vague à mesure que le bruit noie le signal. Triez impitoyablement : incluez ce dont cette étape a besoin, rien de plus.

Deux types de mémoire

Court terme (actuelle) — la conversation/tâche en cours. Gérez-la avec la résumé : compactez les tours anciennes en un récapitulatif serré quand elle grandit, en conservant l'essence et en abandonnant la transcription.
Long terme (persistante) — les faits qui survivent à une session (préférences utilisateur, décisions antérieures, connaissances de domaine). Stockez-les en externe et récupérez la tranche pertinente dans le contexte par requête — RAG appliqué à la mémoire.

Récupérez, n'accumulez pas

Le modèle évolutif n'est pas « se souvenir de tout en contexte » — c'est « stocker tout en dehors, récupérer la partie pertinente ». Un magasin vectoriel ou une BD structurée contient la mémoire ; l'agent tire seulement ce que ce tour nécessite.

La mémoire alimente le système. Ensuite : comment vous savez que tout cela fonctionne réellement — l'évaluation en tant qu'infrastructure.

Le contexte est un budget

Deux types de mémoire

Récupérez, n'accumulez pas

Skills Claude reliés à installer

Partager cet article

Série — Architecture des systèmes IA — Maîtrise

Continuer

Le cours Claude Mastery