Skip to content

Dominar la ingeniería RAG10 / 10

La arquitectura de referencia RAG para producción

Cada pieza, ensamblada: ingesta, recuperación híbrida, re-ranking, generación fundamentada, guardarraíles, evaluación y caché — el plano que puedes desplegar.

La arquitectura de referencia RAG para producción

Aquí está todo el sistema en una página — el plano que convierte los nueve artículos anteriores en algo que puedes desplegar.

El pipeline de ingesta (offline)

  1. Limpiar docs fuente (eliminar boilerplate, corregir codificación).
  2. Fragmentar estructuralmente, 300–600 tokens, ~15% de solapamiento.
  3. Enriquecer cada fragmento con metadatos (fuente, sección, fecha, url).
  4. Incrustar con un modelo versionado.
  5. Indexar en Postgres/pgvector con un índice ANN + un índice de palabras clave.

El pipeline de consulta (online)

  1. (Opcional) Reescribir la consulta con un modelo pequeño.
  2. Recuperación híbrida — vector + palabras clave, fusionadas con RRF, top 30–50.
  3. Re-rankear con un cross-encoder; mantener top 3–8.
  4. Puerta de confianza — si la puntuación superior es débil, devolver "No sé".
  5. Generar fundamentado, con citas, a partir de los fragmentos mantenidos.
  6. Verificar fidelidad de la salida; cachear la respuesta.

El bucle que mantiene la honestidad

Envuélvelo en evaluación + observabilidad: ejecuta el conjunto de evaluación en cada cambio (recall, fidelidad, relevancia), y registra consultas reales con sus puntuaciones de recuperación para que puedas crecer el conjunto de evaluación desde producción.

Eso es RAG para producción: recuperación medible, generación fundamentada, honesto bajo incertidumbre, y asequible a escala. Ahora tienes el mapa y la mecánica.

Compartir este artículo

#RAG #LLM #AI

LinkedInX / TwitterBlueskyThreadsRedditHacker NewsWhatsAppCorreo

Serie — Dominar la ingeniería RAG

  1. Parte 01Por qué el RAG Ingenuo Falla en ProducciónLa demostración de búsqueda vectorial de 50 líneas que impresiona en un notebook se desmorona en el momento en que usuarios reales hacen preguntas reales. Aquí te mostramos por qué — y el mapa para salir.
  2. Parte 02Chunking — The Decision That Sets Your CeilingYou can't retrieve what you chunked badly. Chunking is the most under-rated lever in RAG — and the cheapest to get right.
  3. Parte 03Embeddings & Vector Stores 101Un embedding convierte significado en geometría. Un vector store hace esa geometría buscable en milisegundos. Acertar en ambos hace que la recuperación sea sencilla.
  4. Parte 04Búsqueda Híbrida — Palabra clave + VectorLa búsqueda vectorial entiende significado pero falla con términos exactos, IDs y palabras raras. La búsqueda por palabra clave los domina y pierde la paráfrasis. Usa ambas.
  5. Parte 05Re-Ranking — The Cheap Quality WinLa recuperación te obtiene 30 fragmentos plausibles. Un re-ranker los lee contra la pregunta actual y eleva los verdaderamente relevantes a la cima.
  6. Parte 06Prompting the Generator — Grounding & CitationsGreat retrieval is wasted if the model ignores it or can't point to its sources. Grounding is a prompt-design discipline, not an afterthought.
  7. Parte 07Evaluación — No puedes mejorar lo que no midesSin un conjunto de evaluación, cada cambio en RAG es una corazonada. Con uno, ajustas chunking, retrieval y prompts con un número que te dice si ayudaste o perjudicaste.
  8. Parte 08Handling Hallucinations & GuardrailsWhen retrieval comes up empty, a helpful model invents. Guardrails turn 'confidently wrong' into 'honestly unsure' — the difference users actually trust.
  9. Parte 09Disciplina de Costo y LatenciaUna consulta RAG toca embeddings, una base de datos vectorial, un re-ranker y un LLM. Cada uno suma milisegundos y centavos. A escala, la disciplina aquí es la diferencia entre un margen y un incendio.
  10. Parte 10La arquitectura de referencia RAG para producciónestás aquíCada pieza, ensamblada: ingesta, recuperación híbrida, re-ranking, generación fundamentada, guardarraíles, evaluación y caché — el plano que puedes desplegar.

Sigue aprendiendo

Skill del catálogo

architecture

Architectural decision-making framework. Requirements analysis, trade-off evaluation, ADR documentation. Use when making architecture decisions or analyzing system design.

Abrir el skill →

PDF — de por vida

MCP

Conecta Claude Code a tus herramientas y datos mediante el Model Context Protocol.

Ver el PDF →

Curso

El curso Claude Mastery

12 módulos · 5 idiomas · certificado · prueba de 3 días gratis.

Ver planes →
LinkedInX / TwitterBlueskyThreads