Arquitectura de sistemas IA — Maestría5 / 9

Evaluation Pipelines as Infrastructure

In AI systems, evaluation is not QA you do at the end — it's infrastructure you build first. Without it, every change is a prayer.

Publicado el 13 may 20261 min de lecturaHaythem Rehouma · Claude Mastery

En software normal, los tests son pass/fail y los escribes conforme avanzas. En sistemas de IA, "correcto" es fuzzy y los outputs varían — así que la evaluación deja de ser QA y se convierte en infraestructura que levantás antes de optimizar nada.

Offline: el eval set

Un conjunto curado de inputs representativos con respuestas de referencia o rúbricas. Ejecútalo en cada cambio de prompt, swap de modelo o ajuste de retrieval y obtenés un número — ¿esto ayudó o perjudicó? Incluí casos difíciles y fuera de alcance, no solo el happy path.

Online: métricas de producción

Offline no puede atraparlo todo. Rastreá señales online — thumbs up/down, task completion, escalation rate, regeneration rate — y alimentá casos sorpresivos de producción de vuelta al offline set. El eval set es un activo viviente.

LLM-as-judge, con guardrails

Un modelo fuerte puede calificar calidad a escala, pero:

Dale una rúbrica estricta, no "¿esto es bueno?"
Calibrá contra labels humanos en una muestra.
Usá un modelo/lens diferente que el que se está calificando donde el sesgo importa.

Gate changes en CI

Ahora podés medir. Siguiente: hacer el sistema affordable — cost engineering.

Offline: el eval set

Online: métricas de producción

LLM-as-judge, con guardrails

Gate changes en CI

Skills de Claude relacionadas para instalar

Compartir este artículo

Serie — Arquitectura de sistemas IA — Maestría

Sigue aprendiendo

El curso Claude Mastery