Quando seu engine de localização traduz um texto, parte do prompt enviado ao LLM é idêntica em todas as solicitações, e parte muda de uma para outra. O cache de prompts permite que o engine reutilize a parte estável em vez de pagar para processá-la de novo toda vez. Esses tokens reutilizados aparecem no seu consumo como tokens de cache e custam uma fração dos tokens de entrada normais.
Como um prompt de tradução é estruturado#
Cada solicitação que o engine envia a um modelo é montada em camadas. Algumas permanecem estáveis em todas as solicitações para o mesmo engine e idioma; uma é dinâmica e muda a cada solicitação.
| Camada | Estável ou dinâmica | Em cache |
|---|---|---|
| Prompt de sistema — identidade do engine, regras de localização, gramática | Estável em todos os engines | Sim |
| Suas instruções e voz da marca, por idioma | Estável até você editar o engine | Sim |
| Termos do glossário recuperados para esta solicitação específica | Dinâmica — varia a cada solicitação | Não |
| O texto a ser traduzido | Dinâmica | Não |
As camadas estáveis formam um prefixo contínuo no início do prompt. O engine marca o fim desse prefixo como um cache breakpoint: tudo antes dele pode ser armazenado em cache e reutilizado, e tudo depois dele — o glossário da solicitação, exemplos e seu texto de entrada — é enviado como novo a cada solicitação.
Por que o glossário não entra no cache
O glossário é recuperado a cada solicitação com base no texto exato que você está traduzindo, então ele muda de uma solicitação para outra. Mantê-lo depois do cache breakpoint faz com que o restante do prompt continue reutilizável, independentemente dos termos de glossário que cada solicitação trouxer.
Por que a entrada em cache sai mais barata#
A primeira solicitação para um determinado engine e idioma grava o prefixo estável no cache do provedor. Cada solicitação seguinte que reutiliza esse prefixo lê esse conteúdo do cache em vez de reprocessá-lo do zero. Os provedores cobram leituras de cache por uma fração da tarifa normal dos tokens de entrada, então a maior parte do seu prompt — a parte que nunca muda — deixa de ser cobrada pelo preço cheio em toda solicitação.
O cache tem vida curta e é gerenciado pelo provedor do modelo, não pelo seu engine. Isso significa que o benefício é maior quando você traduz bastante com o mesmo engine e idioma em um intervalo curto: as solicitações chegam enquanto o prefixo ainda está aquecido e são lidas direto do cache.
O cache é automático
Você não precisa configurar nada. O uso de cache em uma solicitação depende do modelo que a atende — modelos da Anthropic e do Google usam cache breakpoints explícitos, modelos da OpenAI armazenam prefixos longos em cache por conta própria, e alguns provedores não usam cache. O engine aplica o comportamento certo para cada modelo.
O ganho#
- Menor custo — o prefixo estável é pago uma vez pelo preço cheio e, depois, pela tarifa reduzida de leitura de cache em cada solicitação recorrente.
- Menor latência — tokens em cache não precisam ser reprocessados, então solicitações com o cache aquecido voltam mais rápido.
- Sem configuração — o cache vem ativado por padrão; não há nada para habilitar na configuração do seu engine.
Os ganhos se acumulam com tráfego constante no mesmo engine e idioma — exatamente o formato de um pipeline de localização em produção, em que a mesma configuração atende solicitação após solicitação.
Como interpretar tokens de cache no seu consumo#
Cada resposta de tradução traz um detalhamento de consumo que separa tokens de cache da entrada nova:
{
"usage": {
"inputTokens": 1200,
"outputTokens": 800,
"cacheReadTokens": 950,
"cacheWriteTokens": 0
}
}| Campo | Significado |
|---|---|
inputTokens | Tokens do prompt processados como novos nesta solicitação |
outputTokens | Tokens gerados pelo modelo |
cacheReadTokens | Tokens do prompt servidos a partir do cache do provedor. 0 quando nada foi armazenado em cache. |
cacheWriteTokens | Tokens do prompt gravados no cache nesta solicitação — um cache miss / primeira chamada. |
A primeira solicitação para um engine e idioma normalmente mostra um valor positivo em cacheWriteTokens (o prefixo está sendo gravado) e cacheReadTokens de 0. Nas solicitações seguintes, enquanto o cache ainda está aquecido, isso se inverte: cacheReadTokens sobe e cacheWriteTokens cai para 0. Acompanhe o consumo agregado de tokens em todos os seus engines em Reports.
