Tokens de cache

Quando seu engine de localização traduz um texto, parte do prompt enviado ao LLM é idêntica em todas as solicitações, e parte muda de uma para outra. O cache de prompts permite que o engine reutilize a parte estável em vez de pagar para processá-la de novo toda vez. Esses tokens reutilizados aparecem no seu consumo como tokens de cache e custam uma fração dos tokens de entrada normais.

Como um prompt de tradução é estruturado#

Cada solicitação que o engine envia a um modelo é montada em camadas. Algumas permanecem estáveis em todas as solicitações para o mesmo engine e idioma; uma é dinâmica e muda a cada solicitação.

Camada	Estável ou dinâmica	Em cache
Prompt de sistema — identidade do engine, regras de localização, gramática	Estável em todos os engines	Sim
Suas instruções e voz da marca, por idioma	Estável até você editar o engine	Sim
Termos do glossário recuperados para esta solicitação específica	Dinâmica — varia a cada solicitação	Não
O texto a ser traduzido	Dinâmica	Não

As camadas estáveis formam um prefixo contínuo no início do prompt. O engine marca o fim desse prefixo como um cache breakpoint: tudo antes dele pode ser armazenado em cache e reutilizado, e tudo depois dele — o glossário da solicitação, exemplos e seu texto de entrada — é enviado como novo a cada solicitação.

Por que o glossário não entra no cache

O glossário é recuperado a cada solicitação com base no texto exato que você está traduzindo, então ele muda de uma solicitação para outra. Mantê-lo depois do cache breakpoint faz com que o restante do prompt continue reutilizável, independentemente dos termos de glossário que cada solicitação trouxer.

Por que a entrada em cache sai mais barata#

A primeira solicitação para um determinado engine e idioma grava o prefixo estável no cache do provedor. Cada solicitação seguinte que reutiliza esse prefixo lê esse conteúdo do cache em vez de reprocessá-lo do zero. Os provedores cobram leituras de cache por uma fração da tarifa normal dos tokens de entrada, então a maior parte do seu prompt — a parte que nunca muda — deixa de ser cobrada pelo preço cheio em toda solicitação.

O cache tem vida curta e é gerenciado pelo provedor do modelo, não pelo seu engine. Isso significa que o benefício é maior quando você traduz bastante com o mesmo engine e idioma em um intervalo curto: as solicitações chegam enquanto o prefixo ainda está aquecido e são lidas direto do cache.

O cache é automático

Você não precisa configurar nada. O uso de cache em uma solicitação depende do modelo que a atende — modelos da Anthropic e do Google usam cache breakpoints explícitos, modelos da OpenAI armazenam prefixos longos em cache por conta própria, e alguns provedores não usam cache. O engine aplica o comportamento certo para cada modelo.

O ganho#

Menor custo — o prefixo estável é pago uma vez pelo preço cheio e, depois, pela tarifa reduzida de leitura de cache em cada solicitação recorrente.
Menor latência — tokens em cache não precisam ser reprocessados, então solicitações com o cache aquecido voltam mais rápido.
Sem configuração — o cache vem ativado por padrão; não há nada para habilitar na configuração do seu engine.

Os ganhos se acumulam com tráfego constante no mesmo engine e idioma — exatamente o formato de um pipeline de localização em produção, em que a mesma configuração atende solicitação após solicitação.

Como interpretar tokens de cache no seu consumo#

Cada resposta de tradução traz um detalhamento de consumo que separa tokens de cache da entrada nova:

json

{
  "usage": {
    "inputTokens": 1200,
    "outputTokens": 800,
    "cacheReadTokens": 950,
    "cacheWriteTokens": 0
  }
}

Campo	Significado
`inputTokens`	Tokens do prompt processados como novos nesta solicitação
`outputTokens`	Tokens gerados pelo modelo
`cacheReadTokens`	Tokens do prompt servidos a partir do cache do provedor. `0` quando nada foi armazenado em cache.
`cacheWriteTokens`	Tokens do prompt gravados no cache nesta solicitação — um cache miss / primeira chamada.

A primeira solicitação para um engine e idioma normalmente mostra um valor positivo em cacheWriteTokens (o prefixo está sendo gravado) e cacheReadTokens de 0. Nas solicitações seguintes, enquanto o cache ainda está aquecido, isso se inverte: cacheReadTokens sobe e cacheWriteTokens cai para 0. Acompanhe o consumo agregado de tokens em todos os seus engines em Reports.

Próximos passos#

Modelos de LLM

Escolha o modelo que atende cada par de idiomas

Instruções

Parte do prefixo em cache — reutilizada entre solicitações

Brand Voices

Parte do prefixo em cache — reutilizada entre solicitações

Reports

Acompanhe o consumo de tokens, incluindo tokens de cache

Como um prompt de tradução é estruturado#

Camada	Estável ou dinâmica	Em cache
Prompt de sistema — identidade do engine, regras de localização, gramática	Estável em todos os engines	Sim
Suas instruções e voz da marca, por idioma	Estável até você editar o engine	Sim
Termos do glossário recuperados para esta solicitação específica	Dinâmica — varia a cada solicitação	Não
O texto a ser traduzido	Dinâmica	Não

Por que o glossário não entra no cache

Por que a entrada em cache sai mais barata#

O cache é automático

O ganho#

Menor custo — o prefixo estável é pago uma vez pelo preço cheio e, depois, pela tarifa reduzida de leitura de cache em cada solicitação recorrente.
Menor latência — tokens em cache não precisam ser reprocessados, então solicitações com o cache aquecido voltam mais rápido.
Sem configuração — o cache vem ativado por padrão; não há nada para habilitar na configuração do seu engine.

Como interpretar tokens de cache no seu consumo#

Cada resposta de tradução traz um detalhamento de consumo que separa tokens de cache da entrada nova:

json

{
  "usage": {
    "inputTokens": 1200,
    "outputTokens": 800,
    "cacheReadTokens": 950,
    "cacheWriteTokens": 0
  }
}

Campo	Significado
`inputTokens`	Tokens do prompt processados como novos nesta solicitação
`outputTokens`	Tokens gerados pelo modelo
`cacheReadTokens`	Tokens do prompt servidos a partir do cache do provedor. `0` quando nada foi armazenado em cache.
`cacheWriteTokens`	Tokens do prompt gravados no cache nesta solicitação — um cache miss / primeira chamada.

Próximos passos#

Modelos de LLM

Escolha o modelo que atende cada par de idiomas

Instruções

Parte do prefixo em cache — reutilizada entre solicitações

Brand Voices

Parte do prefixo em cache — reutilizada entre solicitações

Reports

Acompanhe o consumo de tokens, incluindo tokens de cache