Dominar la ingeniería RAG3 / 10
Embeddings & Vector Stores 101
Un embedding convierte significado en geometría. Un vector store hace esa geometría buscable en milisegundos. Acertar en ambos hace que la recuperación sea sencilla.

Un embedding mapea texto a un punto en espacio de alta dimensionalidad donde la proximidad significa significado similar. La recuperación es entonces solo "encontrar los puntos más cercanos a esta pregunta". Todo lo demás es fontanería.
Elegir un modelo
- Calidad vs. costo — los modelos más grandes capturan mejor los matices pero cuestan más por token y por consulta.
- Dimensiones — más dimensiones pueden capturar más, pero cuestan almacenamiento y tiempo de búsqueda. Muchos sistemas en producción se sitúan en 768–1536.
- Consistencia — embebe tus documentos y tus consultas con el mismo modelo. Mezclar modelos desordena la geometría.
Dónde almacenarlos
- pgvector (Postgres) — si ya ejecutas Postgres, empieza aquí. Una base de datos, transaccional, filtrable por metadatos con SQL plano.
- Vector DBs dedicadas — recurre a ellas a gran escala o cuando necesites características de índice especializadas. No empieces aquí para un primer producto.
Los índices la mantienen rápida
La búsqueda exacta del vecino más cercano es O(n) — correcta con 10k vectores, penosa con 10M. Los índices de approximate nearest-neighbour (ANN) (HNSW, IVFFlat) intercambian un ápice de recall por órdenes de magnitud de velocidad.
Los vectores solos pierden términos exactos y palabras clave raras. Siguiente: combinarlos con búsqueda por palabras clave — recuperación híbrida.
Serie — Dominar la ingeniería RAG
- Parte 01Por qué el RAG Ingenuo Falla en ProducciónLa demostración de búsqueda vectorial de 50 líneas que impresiona en un notebook se desmorona en el momento en que usuarios reales hacen preguntas reales. Aquí te mostramos por qué — y el mapa para salir.
- Parte 02Chunking — The Decision That Sets Your CeilingYou can't retrieve what you chunked badly. Chunking is the most under-rated lever in RAG — and the cheapest to get right.
- Parte 03Embeddings & Vector Stores 101 — estás aquíUn embedding convierte significado en geometría. Un vector store hace esa geometría buscable en milisegundos. Acertar en ambos hace que la recuperación sea sencilla.
- Parte 04Búsqueda Híbrida — Palabra clave + VectorLa búsqueda vectorial entiende significado pero falla con términos exactos, IDs y palabras raras. La búsqueda por palabra clave los domina y pierde la paráfrasis. Usa ambas.
- Parte 05Re-Ranking — The Cheap Quality WinLa recuperación te obtiene 30 fragmentos plausibles. Un re-ranker los lee contra la pregunta actual y eleva los verdaderamente relevantes a la cima.
- Parte 06Prompting the Generator — Grounding & CitationsGreat retrieval is wasted if the model ignores it or can't point to its sources. Grounding is a prompt-design discipline, not an afterthought.
- Parte 07Evaluación — No puedes mejorar lo que no midesSin un conjunto de evaluación, cada cambio en RAG es una corazonada. Con uno, ajustas chunking, retrieval y prompts con un número que te dice si ayudaste o perjudicaste.
- Parte 08Handling Hallucinations & GuardrailsWhen retrieval comes up empty, a helpful model invents. Guardrails turn 'confidently wrong' into 'honestly unsure' — the difference users actually trust.
- Parte 09Disciplina de Costo y LatenciaUna consulta RAG toca embeddings, una base de datos vectorial, un re-ranker y un LLM. Cada uno suma milisegundos y centavos. A escala, la disciplina aquí es la diferencia entre un margen y un incendio.
- Parte 10La arquitectura de referencia RAG para producciónCada pieza, ensamblada: ingesta, recuperación híbrida, re-ranking, generación fundamentada, guardarraíles, evaluación y caché — el plano que puedes desplegar.