Depurar a qualidade da localização

Quando uma localização sai errada, o servidor MCP dá ao seu assistente de IA acesso a toda a stack de observabilidade — registos de pedidos, veredictos dos scorers, relatórios de correspondência com o glossário e resultados da revisão de instruções. Depure a qualidade sem sair da conversa.

Registos de pedidos#

Cada pedido de localização gera uma entrada de registo com todo o contexto de execução: que modelo o processou, tokens de entrada e saída, duração, se foi acionado um fallback e os dados completos de entrada e saída.

"Mostra-me o último registo de pedido do motor alemão"

O assistente recupera o registo e pode responder a perguntas de seguimento: "Usou o modelo de fallback?" "Quantos tokens consumiu?" "Qual foi a saída em bruto?"

O que contém cada registo#

Campo	O que lhe diz
Fornecedor / modelo	Que LLM processou o pedido
Dados de entrada / saída	Entrada exata enviada e localização recebida
Tokens de entrada / saída	Consumo de tokens
Duração	Tempo de processamento em milissegundos
Fallback usado	Se o modelo principal falhou e o fallback entrou em ação
Estado	`success`, `error` ou `in_progress`
Mensagem de erro	Detalhe do erro quando o estado é `error`
Tipo de gatilho	Se o pedido veio da API, CLI, CI, playground ou integração

Veredictos do avaliador de IA#

Cada registo de pedido liga aos registos de execução dos scorers — as avaliações independentes do avaliador de IA executadas depois de a localização ter sido produzida.

"A última localização em alemão passou em todos os scorers?"

O assistente recupera os registos de execução dos scorers para um determinado pedido e apresenta o veredicto de cada scorer: aprovado/reprovado (scorers booleanos) ou pontuação percentual, juntamente com o raciocínio produzido pelo avaliador.

Campos do registo de execução do scorer#

Campo	O que lhe diz
Nome do scorer	Que avaliador de IA foi executado
Tipo de scorer	`boolean` (aprovado/reprovado) ou `percentage` (0-100)
Resultado da pontuação	O veredicto e o raciocínio
Fornecedor / modelo	Que modelo realizou a revisão
Duração	Quanto tempo demorou a revisão

Conformidade com o glossário#

"Todos os termos do glossário foram aplicados corretamente nessa localização?"

O assistente recupera o registo da revisão do glossário de um pedido, mostrando cada termo do glossário encontrado, se foi aplicado e o raciocínio caso não tenha sido.

O relatório inclui:

Cada termo de origem encontrado
A localização de destino esperada
Se o termo é uma localização personalizada ou não traduzível
Aplicado ou não aplicado por termo
Raciocínio quando um termo não foi aplicado
Taxa global de conformidade

Cumprimento das instruções#

"A localização em francês seguiu a instrução do espaço inquebrável?"

O assistente recupera registos de revisão de instruções — uma entrada por instrução avaliada em relação à saída da localização. Cada uma mostra o nome da instrução, o texto da regra e um veredicto de aprovado/reprovado com o respetivo raciocínio.

O workflow de depuração#

Uma conversa típica de análise pós-mortem:

"A localização alemã de 'checkout flow' parece errada"
"Mostra-me o registo de pedido disso" — veja o que entrou e o que saiu
"O glossário foi aplicado?" — verifique se 'checkout' foi encontrado e preservado
"O que disseram os scorers?" — veja se algum avaliador de IA o assinalou
"O termo do glossário não foi encontrado — atualize-o para também abranger 'checkout flow'" — corrija a causa raiz

Todo o processo acontece numa única conversa, sem abrir o dashboard.