Dominando a engenharia RAG7 / 10

Avaliação — Você Não Pode Melhorar o Que Não Mede

Sem um conjunto de avaliação, toda mudança em RAG é uma intuição. Com um, você afina chunking, retrieval e prompts com um número que diz se ajudou ou prejudicou.

Publicado em 15 de mai. de 20261 min de leituraHaythem Rehouma · Claude Mastery

Este é o artigo que transforma RAG de adivinhação em engenharia. Um conjunto de avaliação é uma lista fixa de perguntas com respostas conhecidas como boas (ou fontes conhecidas como relevantes). Execute-o após cada mudança e você obtém um número — isso ajudou ou prejudicou?

Construa o conjunto primeiro

Colete 30–100 perguntas reais (de usuários, tickets de suporte, docs). Real é melhor que inventado.
Para cada uma, marque o(s) chunk(s) de fonte relevante(s) e uma resposta de referência.
Inclua casos difíceis: ambíguos, multi-salto e fora do escopo (a resposta deve ser "Não sei").

As métricas que importam

Retrieval recall@k — o chunk relevante ficou no top-k? Este é seu teto; corrija primeiro.
Faithfulness — toda alegação na resposta é apoiada pelo contexto recuperado? Detecta alucinação.
Answer relevance — a resposta realmente aborda a pergunta?

LLM-as-judge, responsavelmente

Um modelo forte pode pontuar faithfulness e relevance em escala. Use-o — mas calibre contra rótulos humanos em uma amostra, dê ao juiz uma rubrica rigorosa e nunca deixe que avalie o estilo de seu próprio gerador.

Com um número para otimizar, toda decisão posterior — guardrails, custo, arquitetura — se torna mensurável em vez de religiosa.

Construa o conjunto primeiro

As métricas que importam

LLM-as-judge, responsavelmente

Skills do Claude relacionadas para instalar

Compartilhar este artigo

Série — Dominando a engenharia RAG

Continue aprendendo

O curso Claude Mastery