Dominar la ingeniería RAG5 / 10

Re-Ranking — The Cheap Quality Win

La recuperación te obtiene 30 fragmentos plausibles. Un re-ranker los lee contra la pregunta actual y eleva los verdaderamente relevantes a la cima.

Publicado el 11 may 20261 min de lecturaHaythem Rehouma · Claude Mastery

La búsqueda por embedding es rápida pero superficial: compara tu pregunta y cada fragmento por separado, luego mide distancia. Un re-ranker es lento pero profundo: lee la pregunta y un fragmento juntos y puntúa la relevancia verdadera.

El patrón: retrieve amplio, re-rank estrecho

Recupera ampliamente — top 30–50 fragmentos vía búsqueda híbrida (optimizada para recall; lanza una red ancha).
Re-rankea esos con un cross-encoder contra la pregunta.
Mantén los top 3–8 para el prompt (optimizado para precisión).

Obttienes el recall de la recuperación amplia y la precisión de la puntuación profunda, sin re-rankear tu corpus completo.

Por qué funciona

Un bi-encoder (embeddings) debe codificar un fragmento antes de conocer tu pregunta. Un cross-encoder ve ambos a la vez, así que atrapa relevancia que la distancia pierde — negación, especificidad, "este fragmento es acerca de X pero no responde X".

El trade-off

Re-rankear agrega latencia y costo por query (puntúas 30–50 pares). Ajusta el retrieve-width y keep-count contra tu eval set y presupuesto de latencia — cubierto en artículos 7 y 9.

Ahora la recuperación es nítida. Siguiente: hacer que el generador realmente la use — grounding y citaciones.

El patrón: retrieve amplio, re-rank estrecho

Por qué funciona

El trade-off

Skills de Claude relacionadas para instalar

Compartir este artículo

Serie — Dominar la ingeniería RAG

Sigue aprendiendo

El curso Claude Mastery