Quando o seu motor de localização traduz texto, parte do prompt que envia para o LLM é idêntica em todos os pedidos, e outra parte muda de pedido para pedido. A cache de prompts permite ao motor reutilizar a parte estável, em vez de pagar para a processar novamente todas as vezes. Esses tokens reutilizados aparecem no seu consumo como tokens de cache e custam uma fração dos tokens normais de entrada.
Como é construído um prompt de tradução#
Cada pedido que o motor envia para um modelo é composto por camadas. Algumas são estáveis em todos os pedidos para o mesmo motor e idioma; uma é dinâmica e muda em cada pedido.
| Camada | Estável ou dinâmica | Em cache |
|---|---|---|
| Prompt de sistema — identidade do motor, regras de localização, gramática | Estável em todos os pedidos do mesmo motor | Sim |
| As suas instruções e voz da marca, por idioma | Estável até editar o motor | Sim |
| Termos do glossário obtidos para este pedido específico | Dinâmica — varia por pedido | Não |
| O texto a traduzir | Dinâmica | Não |
As camadas estáveis formam um prefixo contíguo no início do prompt. O motor assinala o fim desse prefixo como um ponto de corte da cache: tudo o que vem antes pode ser colocado em cache e reutilizado, e tudo o que vem depois — o glossário por pedido, os exemplos e o seu texto de entrada — é enviado de novo em cada pedido.
Porque é que o glossário não fica em cache
O glossário é obtido por pedido, com base no texto exato que está a traduzir, por isso muda de um pedido para o seguinte. Mantê-lo depois do ponto de corte da cache faz com que o resto do prompt continue reutilizável, independentemente dos termos do glossário incluídos em cada pedido.
Porque é que a entrada em cache é mais barata#
O primeiro pedido para um determinado motor e idioma escreve o prefixo estável na cache do fornecedor. Cada pedido seguinte que reutiliza esse prefixo lê-o da cache, em vez de o reprocessar de raiz. Os fornecedores faturam as leituras da cache por uma fração da tarifa normal dos tokens de entrada, por isso a maior parte do seu prompt — a parte que nunca muda — deixa de ser cobrada ao preço total em cada pedido.
A cache é de curta duração e é gerida pelo fornecedor do modelo, não pelo seu motor. Isto significa que o benefício é maior quando traduz muito com o mesmo motor e idioma num curto espaço de tempo: os pedidos chegam enquanto o prefixo ainda está ativo e são lidos diretamente da cache.
A cache é automática
Não precisa de configurar nada. O facto de um pedido usar cache depende do modelo que o processa — os modelos da Anthropic e da Google usam pontos de corte da cache explícitos, os modelos da OpenAI colocam prefixos longos em cache por si, e alguns fornecedores não usam cache de todo. O motor aplica o comportamento certo a cada modelo.
O ganho#
- Menor custo — o prefixo estável é pago uma vez ao preço total e, depois, à tarifa reduzida de leitura da cache em cada pedido repetido.
- Menor latência — os tokens em cache não precisam de ser reprocessados, por isso os pedidos com a cache ativa regressam mais depressa.
- Sem configuração — a cache está ativada por predefinição; não há nada para ativar na configuração do seu motor.
Os ganhos acumulam-se com tráfego constante no mesmo motor e idioma — exatamente o padrão de um pipeline de localização em produção, em que a mesma configuração trata pedido após pedido.
Como ler os tokens de cache no seu consumo#
Cada resposta de tradução apresenta um detalhamento do consumo que separa os tokens de cache da entrada nova:
{
"usage": {
"inputTokens": 1200,
"outputTokens": 800,
"cacheReadTokens": 950,
"cacheWriteTokens": 0
}
}| Campo | Significado |
|---|---|
inputTokens | Tokens do prompt processados de novo neste pedido |
outputTokens | Tokens gerados pelo modelo |
cacheReadTokens | Tokens do prompt servidos a partir da cache do fornecedor. 0 quando nada foi colocado em cache. |
cacheWriteTokens | Tokens do prompt escritos na cache neste pedido — falha de cache / primeira chamada. |
Um primeiro pedido para um motor e idioma mostra normalmente um valor positivo em cacheWriteTokens (o prefixo está a ser escrito) e cacheReadTokens de 0. Os pedidos seguintes, enquanto a cache ainda está ativa, invertem isso: cacheReadTokens aumenta e cacheWriteTokens desce para 0. Acompanhe o consumo agregado de tokens em todos os seus motores em Relatórios.
