Skip to content

Arquitectura de sistemas IA — Maestría6 / 9

Ingeniería de costos — Presupuestos de tokens que se sostienen

Una característica de IA que encanta a 100 usuarios puede arruinarte a 100,000. El costo es una restricción arquitectónica, diseñada desde el inicio — no descubierta en la factura.

Ingeniería de costos — Presupuestos de tokens que se sostienen

El software tradicional se vuelve más barato por usuario conforme escala. El software de IA se vuelve más caro — cada solicitud cuesta tokens. Si las economías unitarias no están diseñadas desde el inicio, el crecimiento es lo que te mata.

Presupuesto por solicitud

Decide, por característica, un presupuesto de tokens de la misma forma que limitarías consultas de BD. Conoce el costo de tokens de entrada + salida de una solicitud típica y el peor caso. "Costo por solicitud × solicitudes/mes" es una hoja de cálculo que puedes arreglar antes de que se convierta en una factura que no puedes.

Segmentación de modelos

No cada paso necesita tu mejor modelo. Usa un modelo barato y rápido para enrutamiento, clasificación, reescritura de consultas y verificaciones de fidelidad; reserva el modelo costoso para el paso donde la calidad es el producto. Esto suele ser un corte de costos de 2–5x a igual calidad.

Cachea todo lo cacheable

  • Caché de prompt/respuesta para solicitudes estables y repetidas.
  • Caché de prompt (del lado del proveedor) para el prefijo grande e inmutable de un prompt.
  • Caché de recuperación para que consultas populares no re-busquen.

Un acierto de caché es una solicitud casi gratuita.

Intercambia calidad por costo deliberadamente

Costos controlados. Siguiente: hacerlo rápido — latencia y rendimiento a escala.

Compartir este artículo

#CostEngineering #AIArchitecture #AI

LinkedInX / TwitterBlueskyThreadsRedditHacker NewsWhatsAppCorreo

Serie — Arquitectura de sistemas IA — Maestría

  1. Parte 01Arquitectura de productos de IA — Primeros principiosLos sistemas de IA fallan diferente del software normal: son no determinísticos, tienen costo por llamada y son difíciles de probar. La arquitectura debe considerar los tres.
  2. Parte 02Single Agent vs. Multi-Agent — Choosing a TopologyMulti-agent is fashionable and usually premature. Here is how to decide honestly — and why most products should start with one well-equipped agent.
  3. Parte 03Patrones de Orquestación — Pipelines, Routers, SwarmsUna vez que tienes múltiples pasos o agentes, cómo están conectados determina el costo, la latencia y la confiabilidad. Cuatro patrones cubren casi todo.
  4. Parte 04Arquitectura de contexto y memoriaLa ventana de contexto es tu recurso más caro y más disputado. Lo que incluyas en ella —y lo que recuerdes entre llamadas— es una decisión arquitectónica.
  5. Parte 05Evaluation Pipelines as InfrastructureIn AI systems, evaluation is not QA you do at the end — it's infrastructure you build first. Without it, every change is a prayer.
  6. Parte 06Ingeniería de costos — Presupuestos de tokens que se sostienenestás aquíUna característica de IA que encanta a 100 usuarios puede arruinarte a 100,000. El costo es una restricción arquitectónica, diseñada desde el inicio — no descubierta en la factura.
  7. Parte 07Latencia y rendimiento a escalaLa inferencia es lenta e impredecible. El streaming, el paralelismo y el límite asincrónico son lo que mantiene un producto de IA rápido bajo carga real.
  8. Parte 08Confiabilidad — Reintentos, Alternativas, ProteccionesLos modelos devuelven salidas malformadas, los proveedores se caen y la calidad se degrada. Un sistema de IA confiable anticipa estos tres escenarios y sigue funcionando de todas formas.
  9. Parte 09La arquitectura de referencia en producciónTopología, orquestación, memoria, evaluación, costo, latencia y confiabilidad — compuestos en un plano para un sistema de IA que sobrevive usuarios reales.

Sigue aprendiendo

Curso

El curso Claude Mastery

12 módulos · 5 idiomas · certificado · prueba de 3 días gratis.

Ver planes →
LinkedInX / TwitterBlueskyThreads