A localização aumentada por recuperação reduz os erros de terminologia dos LLM em 17-45%

A localização em produção traduz parágrafos e strings isoladas. Um pipeline de CI/CD faz diff face à versão anterior e retraduz o que mudou — uma string da UI, uma tooltip, um parágrafo alterado. Cada pedido chega ao LLM de forma isolada — sem a página à volta, sem o contexto completo do documento, sem qualquer sinal de que este texto é prosa jurídica da UE e não copy de marketing. Sem contexto de domínio injetado no momento da inferência, cada pedido isolado é uma nova oportunidade para derrapagem terminológica.

A localização aumentada por recuperação (RAL) fecha essa lacuna ao enriquecer cada pedido de tradução com termos do glossário, regras de voz da marca e instruções específicas do idioma no momento da inferência — o mesmo padrão de recuperar e injetar por detrás de Retrieval Augmented Generation (RAG). Numa avaliação controlada com cinco fornecedores de LLM e cinco idiomas europeus, a RAL reduziu os erros de terminologia em 16,6-44,6%.

Principais conclusões:

A RAL reduziu os erros de terminologia em 16,6-44,6% nos cinco fornecedores de LLM testados
As pontuações holísticas de qualidade (GEMBA-DA) não conseguiram detetar estas diferenças. Deltas de 0,0007-0,0178, enquanto o MQM contabilizou milhares de erros a menos
Os modelos com pontuações de terminologia de base mais baixas foram os que mais beneficiaram: Mistral (-44,6%) e Deepseek (-42,1%) vs. Anthropic (-24,4%) e Google (-16,6%)
O português mostrou a maior melhoria por idioma; o francês, a menor — quanto mais a terminologia de domínio se afasta dos dados de treino, mais a RAL ajuda

O problema do isolamento#

A unidade da localização em produção é pequena: um parágrafo, uma string, um diff. Raramente ultrapassa as 200 palavras. Muitas vezes fica abaixo das 50. Um ficheiro JSON de idioma contém chaves individuais, cada uma com uma frase ou oração. Uma página de CMS é composta por blocos, cada um traduzido de forma independente.

Quando o modelo encontra "provider" num parágrafo isolado em inglês, tem de decidir: em português é "fornecedor" (o termo mais comum) ou "prestador" (o termo jurídico oficial da UE)? Sem contexto de domínio, escolhe o mais comum. Multiplique-se isto por cada termo específico de domínio em cada idioma, e a derrapagem terminológica torna-se o padrão.

Propusemo-nos medir exatamente a dimensão desta lacuna — e perceber se injetar contexto do glossário no momento da inferência a elimina.

A primeira tentativa não revelou nada#

A nossa experiência inicial usou 37 termos de glossário por par de idiomas e avaliou as traduções ao nível do artigo — cada artigo (200-700 palavras) avaliado como uma única unidade. Os resultados: GEMBA-DA — o prompt holístico de qualidade vencedor da WMT23 — reportou 0,952 para bruto e 0,952 para configurado. A anotação de erros MQM produziu pontuações de 0,985-0,999 para todas as traduções. Nenhum sinal. Nenhuma diferença. Segundo todas as métricas, o output bruto e o output aumentado com glossário eram idênticos.

Quase publicámos um resultado nulo. Depois fomos perceber porquê.

Dois problemas. Primeiro, 37 termos de glossário eram manifestamente insuficientes — muitos parágrafos de teste continham zero ocorrências do glossário, pelo que o motor configurado não tinha qualquer vantagem. Segundo, a avaliação ao nível do artigo comprime matematicamente as diferenças de qualidade até as transformar em ruído. As pontuações MQM são calculadas como 1 - penalty / wordCount. Um único erro terminológico grave num artigo de 500 palavras: 1 - 5/500 = 0.99. O mesmo erro num parágrafo de 50 palavras: 1 - 5/50 = 0.90. O erro é idêntico. A pontuação não. Ao nível do artigo, qualquer diferença real de qualidade desaparece acima de 0,98.

Isto não é apenas um problema de medição do nosso estudo. Aplica-se a qualquer benchmark de tradução que avalie ao nível da página ou do artigo. Os erros estão lá. A métrica é que não os consegue ver.

Mudámos a lente#

Na segunda iteração, fizemos quatro alterações.

Primeiro, alargámos o glossário de 37 para 72 termos por par de idiomas — extraídos de um conjunto de treino de artigos, separado do conjunto de teste usado na avaliação. Segundo, avaliámos ao nível do parágrafo (50-200 palavras), alinhando com a unidade real da tradução em produção. Terceiro, adicionámos traduções humanas de referência ao prompt de pontuação MQM para que os juízes pudessem comparar diretamente a terminologia. Quarto, reduzimos o número de juízes de seis para quatro. Deepseek e QWEN assinalaram apenas 1-3 erros por parágrafo, face a 5-15 dos juízes mais rigorosos — permissivos de mais para acrescentarem sinal.

O sinal apareceu de imediato.

Desenho do estudo#

Conjunto de dados. Queríamos o tipo de texto com maior densidade terminológica disponível para levar ao limite a injeção de glossário em condições exigentes. A Lei da IA da UE (Regulamento 2024/1689) era ideal: texto regulamentar formal, em que cada parágrafo contém termos com traduções específicas e oficialmente definidas. O EUR-Lex publica traduções humanas oficiais nos cinco idiomas de destino, permitindo uma avaliação parágrafo a parágrafo face à referência. 15 artigos, de inglês para alemão, francês, espanhol, português e italiano.

Motores. Cada fornecedor foi testado em duas configurações de motor de localização: um motor bruto (o LLM por si só — sem glossário, sem recuperação, a traduzir apenas com base no conhecimento de treino) e um motor aumentado com RAL (o mesmo modelo, com um glossário de domínio, um perfil de voz da marca e instruções específicas do idioma aplicados no momento da inferência). Dez motores no total, todos com a mesma configuração nos motores aumentados com RAL.

Fornecedor	Modelo	Motor bruto	Motor RAL
Anthropic	claude-opus-4.6	apenas modelo	glossário + voz da marca + instruções
OpenAI	gpt-5.4	apenas modelo	glossário + voz da marca + instruções
Google	gemini-3.1-pro-preview	apenas modelo	glossário + voz da marca + instruções
Mistral	mistral-large-2512	apenas modelo	glossário + voz da marca + instruções
Deepseek	deepseek-v3.2	apenas modelo	glossário + voz da marca + instruções

O QWEN foi inicialmente incluído, mas acabou por sair do conjunto final — as traduções eram lentas e pouco fiáveis, o mesmo problema que o desqualificou como juiz.

Configuração RAL. Cada motor aumentado continha 72 termos de glossário por par de idiomas (70 traduções personalizadas mais 2 não traduzíveis), um perfil de voz da marca (registo regulamentar formal da UE) e 13 instruções específicas do idioma. Os termos do glossário foram extraídos de um conjunto de treino de artigos separado do conjunto de teste usado na avaliação. Exemplos de entradas: EN "provider" → PT "prestador" (não "fornecedor"); EN "high-risk AI system" → PT "sistema de IA de risco elevado" (não "sistema de IA de alto risco"). No momento da inferência, apenas os termos que correspondem ao parágrafo atual são recuperados e passados ao modelo — o tamanho do glossário não faz aumentar a janela de contexto. Os motores foram configurados no Lingo.dev como motores de localização com estado — contexto persistente aplicado a cada pedido.

Pontuação. Cada parágrafo traduzido foi avaliado por quatro juízes LLM, e foi calculada a média para suavizar o viés individual de cada um. Cada juiz avalia os outputs de todos os fornecedores, não apenas os seus:

Juiz	Modelo
Anthropic	claude-sonnet-4.6
OpenAI	gpt-4.1
Google	gemini-2.5-flash
Mistral	mistral-large-2512

GEMBA-MQM. MQM (Multidimensional Quality Metrics) é um framework padrão para avaliação da qualidade da tradução — normalmente realizado por anotadores humanos treinados. GEMBA-MQM, o método de avaliação vencedor da WMT23, substitui os anotadores humanos por um LLM, seguindo o mesmo protocolo MQM: o juiz lê a tradução e assinala cada erro, atribuindo-lhe uma categoria e um nível de gravidade.

Categorias de erro: exatidão, fluência, estilo, terminologia. Os pesos de gravidade seguem a norma oficial MQM: minor = 1, major = 5, critical = 25.

Pontuação MQM por parágrafo: max(0, 1 - weighted penalty / word count). Um parágrafo de 50 palavras com um erro terminológico grave recebe 1 - 5/50 = 0.90. Um parágrafo perfeito recebe 1.0. As contagens de erros nas tabelas de resultados são somadas entre os quatro juízes e todos os parágrafos para um determinado fornecedor e idioma.

Uma alteração face ao prompt padrão do GEMBA-MQM: adicionámos a tradução humana de referência. O GEMBA-MQM é, por definição, reference-free — o juiz avalia a qualidade sem ver a resposta "correta". Adicionámos referências porque o EUR-Lex publica traduções oficiais da Lei da IA da UE nos cinco idiomas de destino, dando aos juízes uma referência objetiva com que comparar a terminologia.

GEMBA-DA. Uma pontuação holística de qualidade de 0-1 com o prompt GEMBA-DA (também vencedor da WMT23). Ao contrário do MQM, produz uma única pontuação sem anotações de erros. Incluímo-lo como verificação de consistência — como os resultados mostram, não consegue detetar diferenças ao nível da terminologia.

O Deepseek foi excluído do painel de juízes devido a uma avaliação excessivamente permissiva (1-3 erros por parágrafo vs. 5-15 nos juízes mais rigorosos). A média entre quatro juízes suaviza o viés individual, e a melhoria relativa entre bruto e RAL é consistente em cada juiz.

Dimensão da amostra. 535 observações emparelhadas de parágrafos por fornecedor (107 parágrafos × 5 idiomas). Mais de 42.000 avaliações individuais de qualidade no total (535 parágrafos × 5 fornecedores × 2 configurações × 8 pontuações cada).

Os erros de terminologia caem 16,6-44,6%#

Fornecedor	Erros brutos	Erros RAL	Redução
Mistral	3,336	1,847	-44.6%
Deepseek	3,672	2,127	-42.1%
OpenAI	2,276	1,508	-33.7%
Anthropic	1,559	1,179	-24.4%
Google	1,901	1,586	-16.6%

Contagens de erros de terminologia segundo o MQM, em 15 artigos, 5 idiomas e 4 juízes.

A melhoria evoluiu de forma inversa à pontuação de base. Mistral e Deepseek — com as contagens de erros brutos mais elevadas — registaram reduções de 42,1-44,6%. Anthropic e Google — que já refletiam mais terminologia jurídica da UE no treino — registaram ganhos menores. O padrão é claro: a RAL compensa aquilo que o modelo ainda não sabe.

Entretanto, o GEMBA-DA — a pontuação holística — reportou um delta de 0,0007-0,0178 entre bruto e RAL em todos os fornecedores. As mesmas traduções que o MQM assinalou por terem 16,6-44,6% mais erros de terminologia receberam pontuações holísticas quase idênticas. Esta é a lacuna de medição: a avaliação holística, em qualquer granularidade, não consegue detetar diferenças de qualidade ao nível da terminologia.

Os erros totais (todas as categorias MQM) mostraram uma redução menor, mas consistente, nos cinco fornecedores:

Fornecedor	Total bruto	Total com RAL	Variação
Deepseek	10,423	9,014	-13.5%
Mistral	8,846	7,812	-11.7%
OpenAI	7,563	7,155	-5.4%
Google	7,793	7,545	-3.2%
Anthropic	6,232	6,039	-3.1%

A diferença entre a redução dos erros terminológicos (16.6-44.6%) e a redução total (3.1-13.5%) explica-se, em grande parte, pelo estilo. Os avaliadores LLM tendem a assinalar texto como "estranho" quando se afasta das preferências dos seus dados de treino, mesmo quando esse afastamento o aproxima da referência oficial — uma limitação conhecida como viés de auto-preferência. A terminologia e a precisão estão ancoradas na referência; o estilo não tem outra âncora para além da perceção do próprio avaliador sobre o que soa natural.

Significância estatística#

A redução dos erros terminológicos foi testada por fornecedor com um teste de Wilcoxon para postos sinalizados emparelhados (unilateral, com correção de Holm-Bonferroni aplicada aos cinco fornecedores). As contagens de erros terminológicos por parágrafo foram somadas entre quatro avaliadores e depois emparelhadas por parágrafo (mesma fonte, mesmos avaliadores, bruto vs. RAL).

Fornecedor	Parágrafos emparelhados	Redução média/parágrafo	IC 95%	d de Cohen	p (ajustado)
Mistral	532	2.80	[2.42, 3.21]	0.60	< 0.001
Deepseek	526	2.94	[2.45, 3.44]	0.50	< 0.001
OpenAI	535	1.44	[1.12, 1.77]	0.37	< 0.001
Anthropic	533	0.71	[0.50, 0.93]	0.28	< 0.001
Google	533	0.59	[0.34, 0.85]	0.20	< 0.001

Os cinco fornecedores mostram reduções estatisticamente significativas nos erros terminológicos (p < 0.001 após a correção de Holm-Bonferroni para comparações múltiplas), com intervalos de confiança a 95% que excluem zero. A dimensão do efeito varia de moderada a elevada (Mistral, d = 0.60) até reduzida (Google, d = 0.20) — em linha com o padrão de que os modelos com menor cobertura terminológica de base beneficiam mais do RAL.

Onde o RAL tem mais impacto#

O português apresentou as maiores melhorias terminológicas em todos os fornecedores. A terminologia jurídica em português diverge significativamente do português do dia a dia, e os termos jurídicos da UE em português estão sub-representados nos dados de treino dos LLM. O francês apresentou as menores melhorias — os termos jurídicos em francês estão bem representados nos corpora de treino.

Caso de estudo: OpenAI em português

O output bruto da OpenAI traduziu o EU AI Act para português usando "alto risco" 71 vezes (o coloquial "high risk"), "fornecedores" 39 vezes e "fornecedor" 36 vezes. As traduções oficiais do EUR-Lex usam "risco elevado" e "prestadores". Com RAL, os erros terminológicos no português da OpenAI desceram de 648 para 266 — uma redução de 59%.

O padrão generaliza-se: os idiomas cuja terminologia de domínio está mais distante da distribuição de treino do LLM beneficiam mais do RAL.

O mecanismo#

O mecanismo é simples. No momento da inferência, o motor de localização decompõe o texto de entrada em sequências n-gram e gera embeddings. Em seguida, faz uma pesquisa por similaridade de cosseno no índice vetorial do glossário para encontrar termos correspondentes. Os termos encontrados são injetados na janela de contexto do LLM juntamente com o texto de origem. O modelo não adivinha "fornecedor" ou "prestador" — vê o mapeamento correto no contexto e usa-o. Estruturalmente, é idêntico ao RAG: embed, retrieve, inject, generate.

Ranking dos fornecedores por qualidade bruta#

Sem RAL — apenas o output bruto do modelo:

Posição	Fornecedor	Média MQM
1	Anthropic	0.955
2	OpenAI	0.942
3	Google	0.938
4	Mistral	0.915
5	Deepseek	0.883

A diferença de 0.072 entre Anthropic e Deepseek representa cerca de 3-4 erros adicionais por parágrafo de 100 palavras. O RAL reduziu essa diferença: a Mistral com RAL (média de 0.940) aproximou-se da qualidade bruta da Google (0.938). Um modelo por uma fração do custo por token, reforçado com um glossário de 72 termos, igualou a precisão terminológica de um modelo mais caro sem glossário.

O que isto significa em produção#

A diferença de qualidade entre o output bruto de um LLM e uma localização pronta para produção é um problema de contexto — e agrava-se com o tempo. Ao fim de dez lançamentos sem RAL, coexistem no produto três traduções erradas diferentes de "provider".

O RAL quebra este padrão. O glossário é persistente — aplica-se a todos os pedidos, independentemente do que mudou. O glossário de 72 termos que reduziu os erros em 16.6-44.6% no nosso estudo não é uma melhoria pontual. É uma camada de consistência aplicada a todos os pedidos de tradução ao longo de todo o ciclo de vida do produto.

Duas conclusões para equipas que lançam traduções com LLM: primeiro, as pontuações holísticas de qualidade não conseguem detetar problemas ao nível da terminologia. O GEMBA-DA — o método vencedor da WMT23 — atribuiu às traduções brutas e às traduções reforçadas com RAL pontuações com uma diferença de apenas 0.0007-0.0178. O MQM contou menos 16.6-44.6% erros terminológicos. Se avaliar ao nível da página com uma única pontuação, não está a ver o quadro completo.

Em segundo lugar, a solução é mais simples do que o problema sugere. Um glossário de domínio injetado no momento da inferência reduziu os erros terminológicos em todos os fornecedores que testámos. O modelo que traduz melhor (Anthropic, MQM 0.955) ainda assim melhorou. O modelo com a taxa de erro de base mais elevada (Deepseek, MQM 0.883) foi o que mais melhorou.

O RAL está para a localização como o RAG está para a geração: a camada de engenharia entre o modelo e a produção.

Próximos passos#

Apresentamos o Lingo.dev v1.0

A plataforma de engenharia de localização criada em torno do RAL

Motores de localização

Configure modelos, glossários e voz da marca por idioma

Principais conclusões:

A RAL reduziu os erros de terminologia em 16,6-44,6% nos cinco fornecedores de LLM testados
As pontuações holísticas de qualidade (GEMBA-DA) não conseguiram detetar estas diferenças. Deltas de 0,0007-0,0178, enquanto o MQM contabilizou milhares de erros a menos
Os modelos com pontuações de terminologia de base mais baixas foram os que mais beneficiaram: Mistral (-44,6%) e Deepseek (-42,1%) vs. Anthropic (-24,4%) e Google (-16,6%)
O português mostrou a maior melhoria por idioma; o francês, a menor — quanto mais a terminologia de domínio se afasta dos dados de treino, mais a RAL ajuda

O problema do isolamento#

Propusemo-nos medir exatamente a dimensão desta lacuna — e perceber se injetar contexto do glossário no momento da inferência a elimina.

A primeira tentativa não revelou nada#

Quase publicámos um resultado nulo. Depois fomos perceber porquê.

Mudámos a lente#

Na segunda iteração, fizemos quatro alterações.

O sinal apareceu de imediato.

Desenho do estudo#

Fornecedor	Modelo	Motor bruto	Motor RAL
Anthropic	claude-opus-4.6	apenas modelo	glossário + voz da marca + instruções
OpenAI	gpt-5.4	apenas modelo	glossário + voz da marca + instruções
Google	gemini-3.1-pro-preview	apenas modelo	glossário + voz da marca + instruções
Mistral	mistral-large-2512	apenas modelo	glossário + voz da marca + instruções
Deepseek	deepseek-v3.2	apenas modelo	glossário + voz da marca + instruções

O QWEN foi inicialmente incluído, mas acabou por sair do conjunto final — as traduções eram lentas e pouco fiáveis, o mesmo problema que o desqualificou como juiz.

Juiz	Modelo
Anthropic	claude-sonnet-4.6
OpenAI	gpt-4.1
Google	gemini-2.5-flash
Mistral	mistral-large-2512

Categorias de erro: exatidão, fluência, estilo, terminologia. Os pesos de gravidade seguem a norma oficial MQM: minor = 1, major = 5, critical = 25.

Os erros de terminologia caem 16,6-44,6%#

Fornecedor	Erros brutos	Erros RAL	Redução
Mistral	3,336	1,847	-44.6%
Deepseek	3,672	2,127	-42.1%
OpenAI	2,276	1,508	-33.7%
Anthropic	1,559	1,179	-24.4%
Google	1,901	1,586	-16.6%

Contagens de erros de terminologia segundo o MQM, em 15 artigos, 5 idiomas e 4 juízes.

Os erros totais (todas as categorias MQM) mostraram uma redução menor, mas consistente, nos cinco fornecedores:

Fornecedor	Total bruto	Total com RAL	Variação
Deepseek	10,423	9,014	-13.5%
Mistral	8,846	7,812	-11.7%
OpenAI	7,563	7,155	-5.4%
Google	7,793	7,545	-3.2%
Anthropic	6,232	6,039	-3.1%

Significância estatística#

Fornecedor	Parágrafos emparelhados	Redução média/parágrafo	IC 95%	d de Cohen	p (ajustado)
Mistral	532	2.80	[2.42, 3.21]	0.60	< 0.001
Deepseek	526	2.94	[2.45, 3.44]	0.50	< 0.001
OpenAI	535	1.44	[1.12, 1.77]	0.37	< 0.001
Anthropic	533	0.71	[0.50, 0.93]	0.28	< 0.001
Google	533	0.59	[0.34, 0.85]	0.20	< 0.001

Posição	Fornecedor	Média MQM
1	Anthropic	0.955
2	OpenAI	0.942
3	Google	0.938
4	Mistral	0.915
5	Deepseek	0.883

O que isto significa em produção#

O RAL está para a localização como o RAG está para a geração: a camada de engenharia entre o modelo e a produção.

Próximos passos#

Apresentamos o Lingo.dev v1.0

A plataforma de engenharia de localização criada em torno do RAL

Motores de localização

Configure modelos, glossários e voz da marca por idioma

A localização aumentada por recuperação reduz os erros de terminologia dos LLM em 17-45%

O problema do isolamento#

A primeira tentativa não revelou nada#

Mudámos a lente#

Desenho do estudo#

Os erros de terminologia caem 16,6-44,6%#

Significância estatística#

Onde o RAL tem mais impacto#

O mecanismo#

Ranking dos fornecedores por qualidade bruta#

O que isto significa em produção#

Próximos passos#

Plataforma

Ferramentas para Programadores

Recursos

Empresa

Comunidade

A localização aumentada por recuperação reduz os erros de terminologia dos LLM em 17-45%

O problema do isolamento#

A primeira tentativa não revelou nada#

Mudámos a lente#

Desenho do estudo#

Os erros de terminologia caem 16,6-44,6%#

Significância estatística#

Onde o RAL tem mais impacto#

O mecanismo#

Ranking dos fornecedores por qualidade bruta#

O que isto significa em produção#

Próximos passos#

Plataforma

Ferramentas para Programadores

Recursos

Empresa

Comunidade