Teste o mesmo conteúdo em duas configurações de engine para avaliar uma mudança antes de implementá-la.
O workflow#
"Compare nosso engine de produção com o engine de staging nestas 5 strings em japonês"
O que acontece:
- O assistente localiza o conteúdo com os dois engines
- Apresenta os resultados em uma tabela lado a lado
- Destaca as diferenças: "O engine de staging aplica o novo termo do glossário para 'onboarding' (オンボーディング), enquanto o de produção ainda usa a localização descritiva (導入手続き)"
Quando usar#
- Depois de um ajuste — valide se a mudança melhorou o resultado antes de promover
- Avaliar mudanças de modelo — mesma configuração, modelo principal diferente
- Testar o impacto do glossário — com e sem novos termos
- Comparar engines para diferentes casos de uso — conteúdo de marketing vs. conteúdo técnico
Exemplos de comparação#
Antes e depois de um ajuste#
"Localize 'Welcome to your new workspace' para alemão com o engine A e o engine B"
Mostra se a entrada do glossário para "workspace" está sendo preservada no engine atualizado.
Avaliação de modelo#
"Troquei o modelo de japonês de GPT-4.1 para Claude Sonnet. Compare os resultados destas 10 strings de UI."
A comparação lado a lado mostra qual modelo lida melhor com strings curtas de UI ou descrições mais longas no seu domínio específico.
Teste de abrangência do glossário#
"Compare o engine com nosso glossário completo de 200 termos com um engine novo, sem glossário, nestas strings jurídicas"
Quantifica o quanto o glossário contribui para a qualidade do resultado em um tipo específico de conteúdo.
