Architecture des systèmes IA — Maîtrise5 / 9
Les pipelines d'évaluation comme infrastructure
Dans les systèmes d'IA, l'évaluation n'est pas un QA qu'on fait à la fin — c'est une infrastructure qu'on construit d'abord. Sans elle, chaque changement est une prière.

Dans les logiciels normaux, les tests sont succès/échec et on les écrit en cours de route. Dans les systèmes d'IA, « correct » est flou et les résultats varient — l'évaluation n'est donc plus du QA et devient une infrastructure qu'on met en place avant d'optimiser quoi que ce soit.
Hors ligne : l'ensemble d'éval
Un ensemble curé d'entrées représentatives avec des réponses de référence ou des rubriques. Exécutez-le à chaque changement de prompt, changement de modèle ou ajustement de récupération et vous obtenez un nombre — cela a-t-il aidé ou nui ? Incluez des cas difficiles et hors champ, pas juste le chemin idéal.
En ligne : métriques de production
Hors ligne ne peut pas tout détecter. Suivez les signaux en ligne — pouces levés/baissés, achèvement de tâche, taux d'escalade, taux de régénération — et réintroduisez les cas de production surprenants dans l'ensemble hors ligne. L'ensemble d'éval est un actif vivant.
LLM-as-judge, avec garde-fous
Un modèle puissant peut évaluer la qualité à l'échelle, mais :
- Donnez-lui une rubrique stricte, pas « c'est bon ? »
- Calibrez par rapport aux labels humains sur un échantillon.
- Utilisez un modèle/angle différent que celui en cours d'évaluation quand le biais importe.
Gâter les changements en CI
Vous pouvez maintenant mesurer. Prochaine étape : rendre le système abordable — l'ingénierie des coûts.
Série — Architecture des systèmes IA — Maîtrise
- Partie 01Architecting AI Products — First PrinciplesAI systems fail differently from normal software: they're non-deterministic, costly per call, and hard to test. The architecture has to account for all three.
- Partie 02Agent unique vs. multi-agent — Choisir une topologieLe multi-agent est à la mode et généralement prématuré. Voici comment décider honnêtement — et pourquoi la plupart des produits doivent commencer avec un seul agent bien équipé.
- Partie 03Modèles d'orchestration — Pipelines, Routeurs, EssaimsUne fois que vous avez plusieurs étapes ou agents, leur interconnexion détermine le coût, la latence et la fiabilité. Quatre modèles couvrent presque tout.
- Partie 04Architecture du contexte et de la mémoireLa fenêtre de contexte est votre ressource la plus chère et la plus convoitée. Ce que vous y mettez — et ce que vous mémorisez entre les appels — est une décision architecturale.
- Partie 05Les pipelines d'évaluation comme infrastructure — vous êtes iciDans les systèmes d'IA, l'évaluation n'est pas un QA qu'on fait à la fin — c'est une infrastructure qu'on construit d'abord. Sans elle, chaque changement est une prière.
- Partie 06Cost Engineering — Token Budgets That HoldAn AI feature that delights at 100 users can bankrupt you at 100,000. Cost is an architectural constraint, designed in — not discovered on the invoice.
- Partie 07Latence et débit à l'échelleL'inférence est lente et imprévisible. Le streaming, le parallélisme et la limite asynchrone sont ce qui maintient un produit IA réactif sous charge réelle.
- Partie 08Fiabilité — Retries, Fallbacks, GuardrailsLes modèles retournent des résultats mal formés, les fournisseurs s'arrêtent, et la qualité des outputs dérive. Un système d'IA fiable s'attend aux trois et continue de fonctionner malgré tout.
- Partie 09The Reference Architecture in ProductionTopology, orchestration, memory, eval, cost, latency and reliability — composed into one blueprint for an AI system that survives real users.