Arquitectura de sistemas IA — Maestría4 / 9
Arquitectura de contexto y memoria
La ventana de contexto es tu recurso más caro y más disputado. Lo que incluyas en ella —y lo que recuerdes entre llamadas— es una decisión arquitectónica.

La ventana de contexto es finita, cara, y donde el modelo realmente "piensa". Tratarla como un bloc de notas infinito es el error arquitectónico más común en sistemas de IA.
El contexto es un presupuesto
Cada token en contexto cuesta dinero y diluye la atención. Más contexto no es más inteligencia —pasado cierto punto es degradación de contexto: el modelo se vuelve más lento y vago a medida que el ruido ahoga la señal. Selecciona despiadadamente: incluye lo que este paso necesita, nada más.
Dos tipos de memoria
- Corto plazo (de trabajo) — la conversación/tarea actual. Gestiona con resumen: compacta turnos anteriores en un recapitulativo apretado cuando crece, manteniendo lo esencial y descartando la transcripción.
- Largo plazo (persistente) — hechos que sobreviven a una sesión (preferencias del usuario, decisiones previas, conocimiento de dominio). Almacena estas externamente y recupera la parte relevante en contexto por solicitud — RAG aplicado a memoria.
Recupera, no acumules
El patrón escalable no es "recuerda todo en contexto" — es "almacena todo afuera, recupera el bit relevante". Un vector store o DB estructurada sostiene la memoria; el agente tira solo lo que este turno requiere.
La memoria alimenta el sistema. Siguiente: cómo sabes que cualquiera de esto realmente funciona — evaluación como infraestructura.
Serie — Arquitectura de sistemas IA — Maestría
- Parte 01Arquitectura de productos de IA — Primeros principiosLos sistemas de IA fallan diferente del software normal: son no determinísticos, tienen costo por llamada y son difíciles de probar. La arquitectura debe considerar los tres.
- Parte 02Single Agent vs. Multi-Agent — Choosing a TopologyMulti-agent is fashionable and usually premature. Here is how to decide honestly — and why most products should start with one well-equipped agent.
- Parte 03Patrones de Orquestación — Pipelines, Routers, SwarmsUna vez que tienes múltiples pasos o agentes, cómo están conectados determina el costo, la latencia y la confiabilidad. Cuatro patrones cubren casi todo.
- Parte 04Arquitectura de contexto y memoria — estás aquíLa ventana de contexto es tu recurso más caro y más disputado. Lo que incluyas en ella —y lo que recuerdes entre llamadas— es una decisión arquitectónica.
- Parte 05Evaluation Pipelines as InfrastructureIn AI systems, evaluation is not QA you do at the end — it's infrastructure you build first. Without it, every change is a prayer.
- Parte 06Ingeniería de costos — Presupuestos de tokens que se sostienenUna característica de IA que encanta a 100 usuarios puede arruinarte a 100,000. El costo es una restricción arquitectónica, diseñada desde el inicio — no descubierta en la factura.
- Parte 07Latencia y rendimiento a escalaLa inferencia es lenta e impredecible. El streaming, el paralelismo y el límite asincrónico son lo que mantiene un producto de IA rápido bajo carga real.
- Parte 08Confiabilidad — Reintentos, Alternativas, ProteccionesLos modelos devuelven salidas malformadas, los proveedores se caen y la calidad se degrada. Un sistema de IA confiable anticipa estos tres escenarios y sigue funcionando de todas formas.
- Parte 09La arquitectura de referencia en producciónTopología, orquestación, memoria, evaluación, costo, latencia y confiabilidad — compuestos en un plano para un sistema de IA que sobrevive usuarios reales.