Arquitectura de sistemas IA — Maestría5 / 9
Evaluation Pipelines as Infrastructure
In AI systems, evaluation is not QA you do at the end — it's infrastructure you build first. Without it, every change is a prayer.

En software normal, los tests son pass/fail y los escribes conforme avanzas. En sistemas de IA, "correcto" es fuzzy y los outputs varían — así que la evaluación deja de ser QA y se convierte en infraestructura que levantás antes de optimizar nada.
Offline: el eval set
Un conjunto curado de inputs representativos con respuestas de referencia o rúbricas. Ejecútalo en cada cambio de prompt, swap de modelo o ajuste de retrieval y obtenés un número — ¿esto ayudó o perjudicó? Incluí casos difíciles y fuera de alcance, no solo el happy path.
Online: métricas de producción
Offline no puede atraparlo todo. Rastreá señales online — thumbs up/down, task completion, escalation rate, regeneration rate — y alimentá casos sorpresivos de producción de vuelta al offline set. El eval set es un activo viviente.
LLM-as-judge, con guardrails
Un modelo fuerte puede calificar calidad a escala, pero:
- Dale una rúbrica estricta, no "¿esto es bueno?"
- Calibrá contra labels humanos en una muestra.
- Usá un modelo/lens diferente que el que se está calificando donde el sesgo importa.
Gate changes en CI
Ahora podés medir. Siguiente: hacer el sistema affordable — cost engineering.
Serie — Arquitectura de sistemas IA — Maestría
- Parte 01Arquitectura de productos de IA — Primeros principiosLos sistemas de IA fallan diferente del software normal: son no determinísticos, tienen costo por llamada y son difíciles de probar. La arquitectura debe considerar los tres.
- Parte 02Single Agent vs. Multi-Agent — Choosing a TopologyMulti-agent is fashionable and usually premature. Here is how to decide honestly — and why most products should start with one well-equipped agent.
- Parte 03Patrones de Orquestación — Pipelines, Routers, SwarmsUna vez que tienes múltiples pasos o agentes, cómo están conectados determina el costo, la latencia y la confiabilidad. Cuatro patrones cubren casi todo.
- Parte 04Arquitectura de contexto y memoriaLa ventana de contexto es tu recurso más caro y más disputado. Lo que incluyas en ella —y lo que recuerdes entre llamadas— es una decisión arquitectónica.
- Parte 05Evaluation Pipelines as Infrastructure — estás aquíIn AI systems, evaluation is not QA you do at the end — it's infrastructure you build first. Without it, every change is a prayer.
- Parte 06Ingeniería de costos — Presupuestos de tokens que se sostienenUna característica de IA que encanta a 100 usuarios puede arruinarte a 100,000. El costo es una restricción arquitectónica, diseñada desde el inicio — no descubierta en la factura.
- Parte 07Latencia y rendimiento a escalaLa inferencia es lenta e impredecible. El streaming, el paralelismo y el límite asincrónico son lo que mantiene un producto de IA rápido bajo carga real.
- Parte 08Confiabilidad — Reintentos, Alternativas, ProteccionesLos modelos devuelven salidas malformadas, los proveedores se caen y la calidad se degrada. Un sistema de IA confiable anticipa estos tres escenarios y sigue funcionando de todas formas.
- Parte 09La arquitectura de referencia en producciónTopología, orquestación, memoria, evaluación, costo, latencia y confiabilidad — compuestos en un plano para un sistema de IA que sobrevive usuarios reales.