Tokens de cache

Quando o seu motor de localização traduz texto, parte do prompt que envia para o LLM é idêntica em todos os pedidos, e outra parte muda de pedido para pedido. A cache de prompts permite ao motor reutilizar a parte estável, em vez de pagar para a processar novamente todas as vezes. Esses tokens reutilizados aparecem no seu consumo como tokens de cache e custam uma fração dos tokens normais de entrada.

Como é construído um prompt de tradução#

Cada pedido que o motor envia para um modelo é composto por camadas. Algumas são estáveis em todos os pedidos para o mesmo motor e idioma; uma é dinâmica e muda em cada pedido.

Camada	Estável ou dinâmica	Em cache
Prompt de sistema — identidade do motor, regras de localização, gramática	Estável em todos os pedidos do mesmo motor	Sim
As suas instruções e voz da marca, por idioma	Estável até editar o motor	Sim
Termos do glossário obtidos para este pedido específico	Dinâmica — varia por pedido	Não
O texto a traduzir	Dinâmica	Não

As camadas estáveis formam um prefixo contíguo no início do prompt. O motor assinala o fim desse prefixo como um ponto de corte da cache: tudo o que vem antes pode ser colocado em cache e reutilizado, e tudo o que vem depois — o glossário por pedido, os exemplos e o seu texto de entrada — é enviado de novo em cada pedido.

Porque é que o glossário não fica em cache

O glossário é obtido por pedido, com base no texto exato que está a traduzir, por isso muda de um pedido para o seguinte. Mantê-lo depois do ponto de corte da cache faz com que o resto do prompt continue reutilizável, independentemente dos termos do glossário incluídos em cada pedido.

Porque é que a entrada em cache é mais barata#

O primeiro pedido para um determinado motor e idioma escreve o prefixo estável na cache do fornecedor. Cada pedido seguinte que reutiliza esse prefixo lê-o da cache, em vez de o reprocessar de raiz. Os fornecedores faturam as leituras da cache por uma fração da tarifa normal dos tokens de entrada, por isso a maior parte do seu prompt — a parte que nunca muda — deixa de ser cobrada ao preço total em cada pedido.

A cache é de curta duração e é gerida pelo fornecedor do modelo, não pelo seu motor. Isto significa que o benefício é maior quando traduz muito com o mesmo motor e idioma num curto espaço de tempo: os pedidos chegam enquanto o prefixo ainda está ativo e são lidos diretamente da cache.

A cache é automática

Não precisa de configurar nada. O facto de um pedido usar cache depende do modelo que o processa — os modelos da Anthropic e da Google usam pontos de corte da cache explícitos, os modelos da OpenAI colocam prefixos longos em cache por si, e alguns fornecedores não usam cache de todo. O motor aplica o comportamento certo a cada modelo.

O ganho#

Menor custo — o prefixo estável é pago uma vez ao preço total e, depois, à tarifa reduzida de leitura da cache em cada pedido repetido.
Menor latência — os tokens em cache não precisam de ser reprocessados, por isso os pedidos com a cache ativa regressam mais depressa.
Sem configuração — a cache está ativada por predefinição; não há nada para ativar na configuração do seu motor.

Os ganhos acumulam-se com tráfego constante no mesmo motor e idioma — exatamente o padrão de um pipeline de localização em produção, em que a mesma configuração trata pedido após pedido.

Como ler os tokens de cache no seu consumo#

Cada resposta de tradução apresenta um detalhamento do consumo que separa os tokens de cache da entrada nova:

json

{
  "usage": {
    "inputTokens": 1200,
    "outputTokens": 800,
    "cacheReadTokens": 950,
    "cacheWriteTokens": 0
  }
}

Campo	Significado
`inputTokens`	Tokens do prompt processados de novo neste pedido
`outputTokens`	Tokens gerados pelo modelo
`cacheReadTokens`	Tokens do prompt servidos a partir da cache do fornecedor. `0` quando nada foi colocado em cache.
`cacheWriteTokens`	Tokens do prompt escritos na cache neste pedido — falha de cache / primeira chamada.

Um primeiro pedido para um motor e idioma mostra normalmente um valor positivo em cacheWriteTokens (o prefixo está a ser escrito) e cacheReadTokens de 0. Os pedidos seguintes, enquanto a cache ainda está ativa, invertem isso: cacheReadTokens aumenta e cacheWriteTokens desce para 0. Acompanhe o consumo agregado de tokens em todos os seus motores em Relatórios.

Próximos passos#

Modelos LLM

Escolha o modelo que trata cada par de idiomas

Instruções

Parte do prefixo em cache — reutilizada entre pedidos

Vozes da Marca

Parte do prefixo em cache — reutilizada entre pedidos

Relatórios

Acompanhe o consumo de tokens, incluindo os tokens de cache

Como é construído um prompt de tradução#

Cada pedido que o motor envia para um modelo é composto por camadas. Algumas são estáveis em todos os pedidos para o mesmo motor e idioma; uma é dinâmica e muda em cada pedido.

Camada	Estável ou dinâmica	Em cache
Prompt de sistema — identidade do motor, regras de localização, gramática	Estável em todos os pedidos do mesmo motor	Sim
As suas instruções e voz da marca, por idioma	Estável até editar o motor	Sim
Termos do glossário obtidos para este pedido específico	Dinâmica — varia por pedido	Não
O texto a traduzir	Dinâmica	Não

Porque é que o glossário não fica em cache

Porque é que a entrada em cache é mais barata#

A cache é automática

O ganho#

Menor custo — o prefixo estável é pago uma vez ao preço total e, depois, à tarifa reduzida de leitura da cache em cada pedido repetido.
Menor latência — os tokens em cache não precisam de ser reprocessados, por isso os pedidos com a cache ativa regressam mais depressa.
Sem configuração — a cache está ativada por predefinição; não há nada para ativar na configuração do seu motor.

Os ganhos acumulam-se com tráfego constante no mesmo motor e idioma — exatamente o padrão de um pipeline de localização em produção, em que a mesma configuração trata pedido após pedido.

Como ler os tokens de cache no seu consumo#

Cada resposta de tradução apresenta um detalhamento do consumo que separa os tokens de cache da entrada nova:

json

{
  "usage": {
    "inputTokens": 1200,
    "outputTokens": 800,
    "cacheReadTokens": 950,
    "cacheWriteTokens": 0
  }
}

Campo	Significado
`inputTokens`	Tokens do prompt processados de novo neste pedido
`outputTokens`	Tokens gerados pelo modelo
`cacheReadTokens`	Tokens do prompt servidos a partir da cache do fornecedor. `0` quando nada foi colocado em cache.
`cacheWriteTokens`	Tokens do prompt escritos na cache neste pedido — falha de cache / primeira chamada.

Próximos passos#

Modelos LLM

Escolha o modelo que trata cada par de idiomas

Instruções

Parte do prefixo em cache — reutilizada entre pedidos

Vozes da Marca

Parte do prefixo em cache — reutilizada entre pedidos

Relatórios

Acompanhe o consumo de tokens, incluindo os tokens de cache