Arquitetura de sistemas IA — Maestria4 / 9

Context & Memory Architecture

A janela de contexto é seu recurso mais caro e mais disputado. O que você coloca nela — e o que você lembra entre chamadas — é uma decisão arquitetônica.

Publicado em 11 de mai. de 20261 min de leituraHaythem Rehouma · Claude Mastery

A janela de contexto é finita, cara e onde o modelo realmente "pensa". Tratá-la como um bloco de notas infinito é o erro arquitetônico mais comum em sistemas de IA.

Contexto é um orçamento

Cada token em contexto custa dinheiro e dilui a atenção. Mais contexto não é mais inteligência — passado um certo ponto é degradação de contexto: o modelo fica mais lento e vago conforme o ruído sufoca o sinal. Curar impiedosamente: incluir apenas o que este passo precisa, nada mais.

Dois tipos de memória

Curto prazo (trabalho) — a conversação/tarefa atual. Gerencie com sumarização: compacte turnos antigos em um resumo conciso quando crescer, mantendo a essência e descartando a transcrição.
Longo prazo (persistente) — fatos que sobrevivem a uma sessão (preferências do usuário, decisões anteriores, conhecimento de domínio). Armazene externamente e recupere a fatia relevante em contexto por requisição — RAG aplicado à memória.

Recupere, não acumule

O padrão escalável não é "lembre tudo em contexto" — é "armazene tudo fora, recupere a parte relevante". Um vector store ou BD estruturado mantém a memória; o agente puxa apenas o que este turno requer.

Memória alimenta o sistema. Próximo: como você sabe se qualquer um deles realmente funciona — avaliação como infraestrutura.

Contexto é um orçamento

Dois tipos de memória

Recupere, não acumule

Skills do Claude relacionadas para instalar

Compartilhar este artigo

Série — Arquitetura de sistemas IA — Maestria

Continue aprendendo

O curso Claude Mastery