Avaliadores de IA

As avaliações por IA são verificações automáticas de qualidade que analisam as traduções geradas pelo seu engine de localização. Após cada solicitação de tradução, o Lingo.dev executa avaliações independentes com LLM para validar o resultado — verificando conformidade com o glossário, aderência à instrução e quaisquer critérios personalizados que você definir. As revisões rodam de forma assíncrona e nunca bloqueiam a resposta da tradução.

Como funciona#

Quando o engine de localização conclui uma solicitação de tradução, ele coloca na fila as revisões aplicáveis para avaliação assíncrona. Cada revisão executa um LLM independente que recebe o texto de origem, a tradução gerada, o contexto e os critérios de avaliação. Ele retorna um resultado estruturado — aprovação/reprovação ou uma pontuação percentual — com justificativa para resultados imperfeitos.

A aba Reviews do engine controla quais revisões serão executadas nesse engine. Há três categorias:

Categoria	O que verifica	Tipo de resultado	Configuração
Avaliação por IA de itens do glossário	Se as traduções seguem as regras do engine no glossary	Aprovação / Reprovação	Alternância nativa por engine
Avaliação por IA de instruções	Se as traduções seguem cada uma das instructions do engine	Aprovação / Reprovação por instrução	Alternância nativa por engine
Avaliadores de IA personalizados	Seus próprios critérios de avaliação, definidos no nível da organização	Aprovação / Reprovação ou 0–100%	Selecione por engine entre os avaliadores definidos no nível da organização

Avaliações por IA nativas#

Todo engine de localização inclui dois tipos nativos de revisão que validam as traduções com base na própria configuração do engine. Ative ou desative esses tipos na aba Reviews do engine.

Avaliação por IA de itens do glossário#

Verifica se a tradução seguiu todas as regras de glossário aplicáveis. Se o engine tiver traduções personalizadas (por exemplo, "Deploy" → "Bereitstellen") ou termos não traduzíveis (por exemplo, "OAuth"), a revisão valida se a tradução as respeitou.

A revisão considera variações gramaticais — uma regra de glossário para um termo em um caso gramatical se aplica a todas as formas desse termo. Se houver regras de glossário conflitantes, a tradução será considerada em conformidade desde que uma delas tenha sido seguida.

O resultado é um único veredito de aprovação/reprovação para toda a solicitação de tradução, com justificativa quando o resultado for reprovação.

Avaliação por IA de instruções#

Avalia cada instrução de forma independente. Se o engine tiver três instruções, a revisão produzirá três vereditos separados de aprovação/reprovação — cada um com sua própria justificativa quando o resultado for reprovação.

Uma instrução pode retornar N/A quando seus critérios não se aplicam ao conteúdo traduzido. Por exemplo, uma instrução sobre tratamento formal retorna N/A quando a tradução contém apenas um nome de produto ou um termo técnico em que a formalidade é irrelevante. Resultados N/A são excluídos das pontuações agregadas.

As duas revisões nativas só são acionadas quando o engine tem configuração relevante — se nenhum item do glossário corresponder ao par de idioma, nenhuma avaliação por IA de itens do glossário será executada.

Configurando revisões por engine#

Abra a aba Reviews do engine para controlar quais revisões serão executadas nesse engine. A aba tem duas seções:

As alternâncias nativas no topo controlam a avaliação por IA de itens do glossário e a avaliação por IA de instruções. Elas são independentes — você pode ativar uma sem ativar a outra, dependendo do que estiver configurado no engine.

Os avaliadores de IA personalizados abaixo das alternâncias listam todos os avaliadores de IA definidos no nível da organização. Ative ou desative cada um para esse engine específico. Assim, você pode manter uma biblioteca compartilhada de verificações de qualidade e aplicá-las de forma seletiva.

Um único engine pode ter revisões nativas e vários avaliadores de IA personalizados rodando ao mesmo tempo. Todas as revisões são executadas de forma assíncrona após cada solicitação de tradução, e os resultados aparecem no log de tradução e em Reports.

Tipos de avaliador de IA#

Avaliadores de IA booleanos#

Retornam um veredito binário: aprovação ou reprovação. Use-os para regras que são cumpridas ou não.

Exemplos:

"A tradução preserva todas as tags e atributos HTML?"
"As regras de pluralização são aplicadas corretamente no idioma de destino?"
"A tradução usa tratamento formal (Sie) em alemão?"

Os resultados são agregados como taxas de aprovação — 75% significa que 3 de 4 traduções avaliadas foram aprovadas.

Avaliadores de IA percentuais#

Retornam uma pontuação de 0 a 100. Use-os para dimensões de qualidade que existem em um espectro.

Exemplos:

"Avalie a naturalidade da tradução para um falante nativo (0–100)"
"Dê uma nota para o quanto a tradução preserva o tom e a intenção originais (0–100)"
"Avalie a correção gramatical em uma escala de 0 a 100"

Os resultados são agregados como médias ao longo do período de avaliação.

Configuração do avaliador de IA#

Campo	Descrição
Nome	Um rótulo que identifica o avaliador de IA (por exemplo, "Verificação de pluralização")
Instrução	Os critérios de avaliação, escritos em linguagem natural
Tipo	`boolean` (aprovação/reprovação) ou `percentage` (0–100)
idioma de origem	O idioma de origem que deve corresponder, ou `*` para qualquer um
idioma de destino	O idioma de destino que deve corresponder, ou `*` para qualquer um
Provedor / Modelo	O LLM usado na avaliação (independente do modelo de tradução)
Sampling	Percentual de solicitações a serem avaliadas (0–100%)
Permitir N/A	Se o avaliador de IA pode retornar "não aplicável" para pares irrelevantes
Ativado	Ativa ou desativa a revisão sem excluir a configuração

Escrevendo instruções para avaliadores de IA#

O campo de instrução é o núcleo de um avaliador de IA. Ele informa ao LLM de avaliação exatamente o que verificar. Escreva-o como um critério específico e testável.

Boas instruções#

Booleano:

text

Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.

Percentual:

text

Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.

O que faz uma instrução ser boa#

Critérios específicos — defina exatamente o que significa aprovação/reprovação, ou o que 0 e 100 representam
Resultados observáveis — o LLM deve conseguir avaliar lendo o texto, não tentando adivinhar a intenção
Uma preocupação por avaliador de IA — divida verificações de qualidade multidimensionais em avaliadores de IA separados

Correspondência de idioma#

Os avaliadores de IA correspondem às solicitações de tradução pelo idioma de origem e pelo idioma de destino. O curinga * corresponde a qualquer idioma.

idioma de origem	idioma de destino	Correspondência
`en`	`de`	Apenas traduções de inglês → alemão
`en`	`*`	Qualquer tradução a partir do inglês
`*`	`ja`	Qualquer tradução para japonês
`*`	`*`	Todas as traduções

Uma única solicitação de tradução pode acionar vários avaliadores de IA se mais de um corresponder ao seu par de idioma.

Sampling#

Nem toda tradução precisa ser revisada. A taxa de sampling controla que percentual das solicitações correspondentes será avaliado.

Sampling	Comportamento
100%	Toda solicitação correspondente é revisada (mais completo, mas com custo maior)
50%	Aproximadamente metade das solicitações correspondentes é revisada
10%	Uma em cada dez — útil para engines de alto volume, em que as tendências importam mais do que as pontuações individuais
0%	O avaliador de IA fica efetivamente pausado sem precisar ser desativado

O sampling é aplicado no momento da solicitação com uma verificação aleatória. Com um volume suficiente de solicitações, a taxa real de avaliação converge para o percentual configurado.

Suporte a N/A#

Quando allowsNA está ativado, o LLM de revisão pode retornar "não aplicável" em vez de uma pontuação. Isso é útil para avaliadores de IA cujos critérios não se aplicam a todos os pares de idioma.

Exemplo: Um avaliador de IA que verifica convenções de tratamento formal retorna N/A para traduções de inglês → inglês (o inglês não tem distinção entre formal e informal), mas retorna uma pontuação para inglês → alemão.

Resultados N/A são excluídos das médias e das taxas de aprovação nos relatórios — eles não reduzem nem inflam as pontuações.

Justificativa#

Os avaliadores de IA fornecem justificativas para resultados imperfeitos para ajudar você a entender o que deu errado:

Pontuação perfeita (aprovação ou 100%) — a justificativa é nula (não há nada a explicar)
N/A — a justificativa é nula
Pontuação imperfeita — uma breve explicação em uma frase

Isso torna os resultados da revisão acionáveis: quando uma tradução falha em uma verificação, a justificativa mostra o motivo sem exigir investigação manual.

Modelo de revisão#

Cada avaliador de IA tem sua própria configuração de provedor e modelo de LLM, independente do modelo de tradução. Essa separação é intencional — o modelo que produz a tradução não deve ser o mesmo que a avalia.

Independência do modelo

Usar um modelo diferente para a revisão e para a tradução fornece uma avaliação independente. Se o GPT-4o produzir a tradução, avaliá-la com Claude Sonnet oferece uma segunda opinião em vez de uma autoavaliação.

Relatórios de avaliadores de IA#

Os resultados da revisão são exibidos no dashboard, na seção de relatórios de avaliadores de IA, mostrando:

Taxas de aprovação ao longo do tempo — para avaliadores de IA booleanos, exibidas como percentuais diários
Pontuações médias ao longo do tempo — para avaliadores de IA percentuais, exibidas como médias diárias
Detalhamento por par de idioma — veja como cada par origem → destino performa de forma independente
Visão agregada — combine todos os pares de idioma em uma única linha de tendência

Os relatórios de avaliadores de IA complementam os Reports focados em volume — juntos, eles oferecem uma visão completa de throughput e qualidade.

Gerenciando avaliadores de IA via MCP#

Se você usa o Lingo.dev MCP server, seu assistente de programação com IA pode criar e configurar avaliadores de IA diretamente:

text

"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations."

text

"Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."

Próximos passos#

Reports

Monitore o volume de traduções, o consumo de tokens e a cobertura de idiomas

LLM Models

Configure os modelos de tradução que os avaliadores de IA avaliam

Glossaries

Configure os termos que os avaliadores de IA de conformidade com o glossário podem verificar

API Referência

Integre a API de localização ao seu workflow

Como funciona#

A aba Reviews do engine controla quais revisões serão executadas nesse engine. Há três categorias:

Categoria	O que verifica	Tipo de resultado	Configuração
Avaliação por IA de itens do glossário	Se as traduções seguem as regras do engine no glossary	Aprovação / Reprovação	Alternância nativa por engine
Avaliação por IA de instruções	Se as traduções seguem cada uma das instructions do engine	Aprovação / Reprovação por instrução	Alternância nativa por engine
Avaliadores de IA personalizados	Seus próprios critérios de avaliação, definidos no nível da organização	Aprovação / Reprovação ou 0–100%	Selecione por engine entre os avaliadores definidos no nível da organização

Avaliações por IA nativas#

Avaliação por IA de itens do glossário#

O resultado é um único veredito de aprovação/reprovação para toda a solicitação de tradução, com justificativa quando o resultado for reprovação.

Avaliação por IA de instruções#

Configurando revisões por engine#

Abra a aba Reviews do engine para controlar quais revisões serão executadas nesse engine. A aba tem duas seções:

Tipos de avaliador de IA#

Avaliadores de IA booleanos#

Retornam um veredito binário: aprovação ou reprovação. Use-os para regras que são cumpridas ou não.

Exemplos:

"A tradução preserva todas as tags e atributos HTML?"
"As regras de pluralização são aplicadas corretamente no idioma de destino?"
"A tradução usa tratamento formal (Sie) em alemão?"

Os resultados são agregados como taxas de aprovação — 75% significa que 3 de 4 traduções avaliadas foram aprovadas.

Avaliadores de IA percentuais#

Retornam uma pontuação de 0 a 100. Use-os para dimensões de qualidade que existem em um espectro.

Exemplos:

"Avalie a naturalidade da tradução para um falante nativo (0–100)"
"Dê uma nota para o quanto a tradução preserva o tom e a intenção originais (0–100)"
"Avalie a correção gramatical em uma escala de 0 a 100"

Os resultados são agregados como médias ao longo do período de avaliação.

Configuração do avaliador de IA#

Campo	Descrição
Nome	Um rótulo que identifica o avaliador de IA (por exemplo, "Verificação de pluralização")
Instrução	Os critérios de avaliação, escritos em linguagem natural
Tipo	`boolean` (aprovação/reprovação) ou `percentage` (0–100)
idioma de origem	O idioma de origem que deve corresponder, ou `*` para qualquer um
idioma de destino	O idioma de destino que deve corresponder, ou `*` para qualquer um
Provedor / Modelo	O LLM usado na avaliação (independente do modelo de tradução)
Sampling	Percentual de solicitações a serem avaliadas (0–100%)
Permitir N/A	Se o avaliador de IA pode retornar "não aplicável" para pares irrelevantes
Ativado	Ativa ou desativa a revisão sem excluir a configuração

Escrevendo instruções para avaliadores de IA#

O campo de instrução é o núcleo de um avaliador de IA. Ele informa ao LLM de avaliação exatamente o que verificar. Escreva-o como um critério específico e testável.

Boas instruções#

Booleano:

text

Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.

Percentual:

text

Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.

O que faz uma instrução ser boa#

Critérios específicos — defina exatamente o que significa aprovação/reprovação, ou o que 0 e 100 representam
Resultados observáveis — o LLM deve conseguir avaliar lendo o texto, não tentando adivinhar a intenção
Uma preocupação por avaliador de IA — divida verificações de qualidade multidimensionais em avaliadores de IA separados

Correspondência de idioma#

Os avaliadores de IA correspondem às solicitações de tradução pelo idioma de origem e pelo idioma de destino. O curinga * corresponde a qualquer idioma.

idioma de origem	idioma de destino	Correspondência
`en`	`de`	Apenas traduções de inglês → alemão
`en`	`*`	Qualquer tradução a partir do inglês
`*`	`ja`	Qualquer tradução para japonês
`*`	`*`	Todas as traduções

Uma única solicitação de tradução pode acionar vários avaliadores de IA se mais de um corresponder ao seu par de idioma.

Sampling#

Nem toda tradução precisa ser revisada. A taxa de sampling controla que percentual das solicitações correspondentes será avaliado.

Sampling	Comportamento
100%	Toda solicitação correspondente é revisada (mais completo, mas com custo maior)
50%	Aproximadamente metade das solicitações correspondentes é revisada
10%	Uma em cada dez — útil para engines de alto volume, em que as tendências importam mais do que as pontuações individuais
0%	O avaliador de IA fica efetivamente pausado sem precisar ser desativado

O sampling é aplicado no momento da solicitação com uma verificação aleatória. Com um volume suficiente de solicitações, a taxa real de avaliação converge para o percentual configurado.

Suporte a N/A#

Resultados N/A são excluídos das médias e das taxas de aprovação nos relatórios — eles não reduzem nem inflam as pontuações.

Justificativa#

Os avaliadores de IA fornecem justificativas para resultados imperfeitos para ajudar você a entender o que deu errado:

Pontuação perfeita (aprovação ou 100%) — a justificativa é nula (não há nada a explicar)
N/A — a justificativa é nula
Pontuação imperfeita — uma breve explicação em uma frase

Isso torna os resultados da revisão acionáveis: quando uma tradução falha em uma verificação, a justificativa mostra o motivo sem exigir investigação manual.

Modelo de revisão#

Independência do modelo

Relatórios de avaliadores de IA#

Os resultados da revisão são exibidos no dashboard, na seção de relatórios de avaliadores de IA, mostrando:

Taxas de aprovação ao longo do tempo — para avaliadores de IA booleanos, exibidas como percentuais diários
Pontuações médias ao longo do tempo — para avaliadores de IA percentuais, exibidas como médias diárias
Detalhamento por par de idioma — veja como cada par origem → destino performa de forma independente
Visão agregada — combine todos os pares de idioma em uma única linha de tendência

Os relatórios de avaliadores de IA complementam os Reports focados em volume — juntos, eles oferecem uma visão completa de throughput e qualidade.

Gerenciando avaliadores de IA via MCP#

Se você usa o Lingo.dev MCP server, seu assistente de programação com IA pode criar e configurar avaliadores de IA diretamente:

text

"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations."

text

"Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."

Próximos passos#

Reports

Monitore o volume de traduções, o consumo de tokens e a cobertura de idiomas

LLM Models

Configure os modelos de tradução que os avaliadores de IA avaliam

Glossaries

Configure os termos que os avaliadores de IA de conformidade com o glossário podem verificar

API Referência

Integre a API de localização ao seu workflow