Architecture des systèmes IA — Maîtrise4 / 9
Architecture du contexte et de la mémoire
La fenêtre de contexte est votre ressource la plus chère et la plus convoitée. Ce que vous y mettez — et ce que vous mémorisez entre les appels — est une décision architecturale.

La fenêtre de contexte est finie, coûteuse, et c'est là que le modèle pense vraiment. La traiter comme un brouillon infini est l'erreur architecturale la plus courante dans les systèmes d'IA.
Le contexte est un budget
Chaque token en contexte coûte de l'argent et dilue l'attention. Plus de contexte n'est pas plus d'intelligence — passé un certain point, c'est la dégradation du contexte : le modèle devient plus lent et plus vague à mesure que le bruit noie le signal. Triez impitoyablement : incluez ce dont cette étape a besoin, rien de plus.
Deux types de mémoire
- Court terme (actuelle) — la conversation/tâche en cours. Gérez-la avec la résumé : compactez les tours anciennes en un récapitulatif serré quand elle grandit, en conservant l'essence et en abandonnant la transcription.
- Long terme (persistante) — les faits qui survivent à une session (préférences utilisateur, décisions antérieures, connaissances de domaine). Stockez-les en externe et récupérez la tranche pertinente dans le contexte par requête — RAG appliqué à la mémoire.
Récupérez, n'accumulez pas
Le modèle évolutif n'est pas « se souvenir de tout en contexte » — c'est « stocker tout en dehors, récupérer la partie pertinente ». Un magasin vectoriel ou une BD structurée contient la mémoire ; l'agent tire seulement ce que ce tour nécessite.
La mémoire alimente le système. Ensuite : comment vous savez que tout cela fonctionne réellement — l'évaluation en tant qu'infrastructure.
Série — Architecture des systèmes IA — Maîtrise
- Partie 01Architecting AI Products — First PrinciplesAI systems fail differently from normal software: they're non-deterministic, costly per call, and hard to test. The architecture has to account for all three.
- Partie 02Agent unique vs. multi-agent — Choisir une topologieLe multi-agent est à la mode et généralement prématuré. Voici comment décider honnêtement — et pourquoi la plupart des produits doivent commencer avec un seul agent bien équipé.
- Partie 03Modèles d'orchestration — Pipelines, Routeurs, EssaimsUne fois que vous avez plusieurs étapes ou agents, leur interconnexion détermine le coût, la latence et la fiabilité. Quatre modèles couvrent presque tout.
- Partie 04Architecture du contexte et de la mémoire — vous êtes iciLa fenêtre de contexte est votre ressource la plus chère et la plus convoitée. Ce que vous y mettez — et ce que vous mémorisez entre les appels — est une décision architecturale.
- Partie 05Les pipelines d'évaluation comme infrastructureDans les systèmes d'IA, l'évaluation n'est pas un QA qu'on fait à la fin — c'est une infrastructure qu'on construit d'abord. Sans elle, chaque changement est une prière.
- Partie 06Cost Engineering — Token Budgets That HoldAn AI feature that delights at 100 users can bankrupt you at 100,000. Cost is an architectural constraint, designed in — not discovered on the invoice.
- Partie 07Latence et débit à l'échelleL'inférence est lente et imprévisible. Le streaming, le parallélisme et la limite asynchrone sont ce qui maintient un produit IA réactif sous charge réelle.
- Partie 08Fiabilité — Retries, Fallbacks, GuardrailsLes modèles retournent des résultats mal formés, les fournisseurs s'arrêtent, et la qualité des outputs dérive. Un système d'IA fiable s'attend aux trois et continue de fonctionner malgré tout.
- Partie 09The Reference Architecture in ProductionTopology, orchestration, memory, eval, cost, latency and reliability — composed into one blueprint for an AI system that survives real users.