Dominar la ingeniería RAG10 / 10

La arquitectura de referencia RAG para producción

Cada pieza, ensamblada: ingesta, recuperación híbrida, re-ranking, generación fundamentada, guardarraíles, evaluación y caché — el plano que puedes desplegar.

Publicado el 21 may 20261 min de lecturaHaythem Rehouma · Claude Mastery

Aquí está todo el sistema en una página — el plano que convierte los nueve artículos anteriores en algo que puedes desplegar.

El pipeline de ingesta (offline)

Limpiar docs fuente (eliminar boilerplate, corregir codificación).
Fragmentar estructuralmente, 300–600 tokens, ~15% de solapamiento.
Enriquecer cada fragmento con metadatos (fuente, sección, fecha, url).
Incrustar con un modelo versionado.
Indexar en Postgres/pgvector con un índice ANN + un índice de palabras clave.

El pipeline de consulta (online)

(Opcional) Reescribir la consulta con un modelo pequeño.
Recuperación híbrida — vector + palabras clave, fusionadas con RRF, top 30–50.
Re-rankear con un cross-encoder; mantener top 3–8.
Puerta de confianza — si la puntuación superior es débil, devolver "No sé".
Generar fundamentado, con citas, a partir de los fragmentos mantenidos.
Verificar fidelidad de la salida; cachear la respuesta.

El bucle que mantiene la honestidad

Envuélvelo en evaluación + observabilidad: ejecuta el conjunto de evaluación en cada cambio (recall, fidelidad, relevancia), y registra consultas reales con sus puntuaciones de recuperación para que puedas crecer el conjunto de evaluación desde producción.

Eso es RAG para producción: recuperación medible, generación fundamentada, honesto bajo incertidumbre, y asequible a escala. Ahora tienes el mapa y la mecánica.

El pipeline de ingesta (offline)

El pipeline de consulta (online)

El bucle que mantiene la honestidad

Skills de Claude relacionadas para instalar

Compartir este artículo

Serie — Dominar la ingeniería RAG

Sigue aprendiendo

architecture

MCP

El curso Claude Mastery