Skip to content

Arquitectura de sistemas IA — Maestría5 / 9

Evaluation Pipelines as Infrastructure

In AI systems, evaluation is not QA you do at the end — it's infrastructure you build first. Without it, every change is a prayer.

Evaluation Pipelines as Infrastructure

En software normal, los tests son pass/fail y los escribes conforme avanzas. En sistemas de IA, "correcto" es fuzzy y los outputs varían — así que la evaluación deja de ser QA y se convierte en infraestructura que levantás antes de optimizar nada.

Offline: el eval set

Un conjunto curado de inputs representativos con respuestas de referencia o rúbricas. Ejecútalo en cada cambio de prompt, swap de modelo o ajuste de retrieval y obtenés un número — ¿esto ayudó o perjudicó? Incluí casos difíciles y fuera de alcance, no solo el happy path.

Online: métricas de producción

Offline no puede atraparlo todo. Rastreá señales online — thumbs up/down, task completion, escalation rate, regeneration rate — y alimentá casos sorpresivos de producción de vuelta al offline set. El eval set es un activo viviente.

LLM-as-judge, con guardrails

Un modelo fuerte puede calificar calidad a escala, pero:

  • Dale una rúbrica estricta, no "¿esto es bueno?"
  • Calibrá contra labels humanos en una muestra.
  • Usá un modelo/lens diferente que el que se está calificando donde el sesgo importa.

Gate changes en CI

Ahora podés medir. Siguiente: hacer el sistema affordable — cost engineering.

Compartir este artículo

#Eval #AIArchitecture #AI

LinkedInX / TwitterBlueskyThreadsRedditHacker NewsWhatsAppCorreo

Serie — Arquitectura de sistemas IA — Maestría

  1. Parte 01Arquitectura de productos de IA — Primeros principiosLos sistemas de IA fallan diferente del software normal: son no determinísticos, tienen costo por llamada y son difíciles de probar. La arquitectura debe considerar los tres.
  2. Parte 02Single Agent vs. Multi-Agent — Choosing a TopologyMulti-agent is fashionable and usually premature. Here is how to decide honestly — and why most products should start with one well-equipped agent.
  3. Parte 03Patrones de Orquestación — Pipelines, Routers, SwarmsUna vez que tienes múltiples pasos o agentes, cómo están conectados determina el costo, la latencia y la confiabilidad. Cuatro patrones cubren casi todo.
  4. Parte 04Arquitectura de contexto y memoriaLa ventana de contexto es tu recurso más caro y más disputado. Lo que incluyas en ella —y lo que recuerdes entre llamadas— es una decisión arquitectónica.
  5. Parte 05Evaluation Pipelines as Infrastructureestás aquíIn AI systems, evaluation is not QA you do at the end — it's infrastructure you build first. Without it, every change is a prayer.
  6. Parte 06Ingeniería de costos — Presupuestos de tokens que se sostienenUna característica de IA que encanta a 100 usuarios puede arruinarte a 100,000. El costo es una restricción arquitectónica, diseñada desde el inicio — no descubierta en la factura.
  7. Parte 07Latencia y rendimiento a escalaLa inferencia es lenta e impredecible. El streaming, el paralelismo y el límite asincrónico son lo que mantiene un producto de IA rápido bajo carga real.
  8. Parte 08Confiabilidad — Reintentos, Alternativas, ProteccionesLos modelos devuelven salidas malformadas, los proveedores se caen y la calidad se degrada. Un sistema de IA confiable anticipa estos tres escenarios y sigue funcionando de todas formas.
  9. Parte 09La arquitectura de referencia en producciónTopología, orquestación, memoria, evaluación, costo, latencia y confiabilidad — compuestos en un plano para un sistema de IA que sobrevive usuarios reales.

Sigue aprendiendo

Curso

El curso Claude Mastery

12 módulos · 5 idiomas · certificado · prueba de 3 días gratis.

Ver planes →
LinkedInX / TwitterBlueskyThreads