Maîtriser l'ingénierie RAG5 / 10

Re-Ranking — The Cheap Quality Win

La récupération vous donne 30 chunks plausibles. Un re-ranker les lit par rapport à la question réelle et remonte les véritablement pertinents en haut.

Publié le 11 mai 20261 min de lectureHaythem Rehouma · Claude Mastery

La recherche par embedding est rapide mais superficielle : elle compare votre question et chaque chunk séparément, puis mesure la distance. Un re-ranker est lent mais profond : il lit la question et un chunk ensemble et note la pertinence réelle.

Le pattern : retrieval large, re-rank serré

Récupérez largement — top 30–50 chunks via recherche hybride (recall-optimisée ; lancez un filet large).
Re-rankez ceux-ci avec un cross-encoder par rapport à la question.
Conservez le top 3–8 pour le prompt (precision-optimisée).

Vous obtenez le recall du retrieval large et la précision du scoring profond, sans re-ranker votre corpus entier.

Pourquoi ça marche

Un bi-encoder (embeddings) doit encoder un chunk avant de connaître votre question. Un cross-encoder voit les deux à la fois, donc il détecte la pertinence que la distance manque — la négation, la spécificité, « ce chunk parle de X mais ne répond pas à X ».

Le compromis

Le re-ranking ajoute de la latence et du coût par requête (vous score 30–50 paires). Affinez la retrieve-width et keep-count par rapport à votre eval set et budget de latence — couverts dans les articles 7 et 9.

Maintenant le retrieval est affûté. Suivant : faire en sorte que le générateur l'utilise réellement — grounding et citations.

Le pattern : retrieval large, re-rank serré

Pourquoi ça marche

Le compromis

Skills Claude reliés à installer

Partager cet article

Série — Maîtriser l'ingénierie RAG

Continuer

Le cours Claude Mastery