Arquitetura de sistemas IA — Maestria5 / 9

Evaluation Pipelines as Infrastructure

Em sistemas de IA, avaliação não é QA que você faz no final — é infraestrutura que você constrói primeiro. Sem ela, toda mudança é uma oração.

Publicado em 13 de mai. de 20261 min de leituraHaythem Rehouma · Claude Mastery

Em software normal, testes são passar/falhar e você os escreve conforme avança. Em sistemas de IA, "correto" é fuzzy e os outputs variam — então avaliação deixa de ser QA e se torna infraestrutura que você constrói antes de otimizar qualquer coisa.

Offline: o conjunto de eval

Um conjunto curado de inputs representativos com respostas de referência ou rubricas. Execute em toda mudança de prompt, swap de modelo ou ajuste de recuperação e você obtém um número — isso ajudou ou prejudicou? Inclua casos difíceis e fora do escopo, não apenas o caminho feliz.

Online: métricas de produção

Offline não consegue pegar tudo. Rastreie sinais online — likes/dislikes, conclusão de tarefa, taxa de escalação, taxa de regeneração — e realimente casos surpresa de produção no conjunto de eval. O conjunto de eval é um ativo vivo.

LLM-as-judge, com guardrails

Um modelo forte pode avaliar qualidade em escala, mas:

Dê a ele uma rubrica rigorosa, não "isso é bom?"
Calibre contra labels humanos em uma amostra.
Use um modelo/perspectiva diferente daquele sendo avaliado onde viés importa.

Gate de mudanças em CI

Agora você consegue medir. Próximo: tornar o sistema acessível — engenharia de custo.

Offline: o conjunto de eval

Online: métricas de produção

LLM-as-judge, com guardrails

Gate de mudanças em CI

Skills do Claude relacionadas para instalar

Compartilhar este artigo

Série — Arquitetura de sistemas IA — Maestria

Continue aprendendo

O curso Claude Mastery