|
Documentação
Agende uma demoPlataforma
Plataforma
MCPCLIAPIWorkflows
GuiasChangelog

Primeiros passos

  • Introdução
  • Conecte seu engine

Engine de localização

  • Visão geral
  • Voz da marca
  • Instruções
  • Glossários
  • Modelos de LLM
  • Tokens de cache
  • Resolução de idioma

Qualidade

  • Relatórios
  • Avaliadores de IA
  • Playground
  • Sugestões de engine

Admin

  • Chaves de API
  • Equipe
  • Funções e permissões
  • Logs de auditoria

Tokens de cache

Quando seu engine de localização traduz um texto, parte do prompt enviado ao LLM é idêntica em todas as solicitações, e parte muda de uma para outra. O cache de prompts permite que o engine reutilize a parte estável em vez de pagar para processá-la de novo toda vez. Esses tokens reutilizados aparecem no seu consumo como tokens de cache e custam uma fração dos tokens de entrada normais.

Como um prompt de tradução é estruturado#

Cada solicitação que o engine envia a um modelo é montada em camadas. Algumas permanecem estáveis em todas as solicitações para o mesmo engine e idioma; uma é dinâmica e muda a cada solicitação.

CamadaEstável ou dinâmicaEm cache
Prompt de sistema — identidade do engine, regras de localização, gramáticaEstável em todos os enginesSim
Suas instruções e voz da marca, por idiomaEstável até você editar o engineSim
Termos do glossário recuperados para esta solicitação específicaDinâmica — varia a cada solicitaçãoNão
O texto a ser traduzidoDinâmicaNão

As camadas estáveis formam um prefixo contínuo no início do prompt. O engine marca o fim desse prefixo como um cache breakpoint: tudo antes dele pode ser armazenado em cache e reutilizado, e tudo depois dele — o glossário da solicitação, exemplos e seu texto de entrada — é enviado como novo a cada solicitação.

Por que o glossário não entra no cache

O glossário é recuperado a cada solicitação com base no texto exato que você está traduzindo, então ele muda de uma solicitação para outra. Mantê-lo depois do cache breakpoint faz com que o restante do prompt continue reutilizável, independentemente dos termos de glossário que cada solicitação trouxer.

Por que a entrada em cache sai mais barata#

A primeira solicitação para um determinado engine e idioma grava o prefixo estável no cache do provedor. Cada solicitação seguinte que reutiliza esse prefixo lê esse conteúdo do cache em vez de reprocessá-lo do zero. Os provedores cobram leituras de cache por uma fração da tarifa normal dos tokens de entrada, então a maior parte do seu prompt — a parte que nunca muda — deixa de ser cobrada pelo preço cheio em toda solicitação.

O cache tem vida curta e é gerenciado pelo provedor do modelo, não pelo seu engine. Isso significa que o benefício é maior quando você traduz bastante com o mesmo engine e idioma em um intervalo curto: as solicitações chegam enquanto o prefixo ainda está aquecido e são lidas direto do cache.

O cache é automático

Você não precisa configurar nada. O uso de cache em uma solicitação depende do modelo que a atende — modelos da Anthropic e do Google usam cache breakpoints explícitos, modelos da OpenAI armazenam prefixos longos em cache por conta própria, e alguns provedores não usam cache. O engine aplica o comportamento certo para cada modelo.

O ganho#

  • Menor custo — o prefixo estável é pago uma vez pelo preço cheio e, depois, pela tarifa reduzida de leitura de cache em cada solicitação recorrente.
  • Menor latência — tokens em cache não precisam ser reprocessados, então solicitações com o cache aquecido voltam mais rápido.
  • Sem configuração — o cache vem ativado por padrão; não há nada para habilitar na configuração do seu engine.

Os ganhos se acumulam com tráfego constante no mesmo engine e idioma — exatamente o formato de um pipeline de localização em produção, em que a mesma configuração atende solicitação após solicitação.

Como interpretar tokens de cache no seu consumo#

Cada resposta de tradução traz um detalhamento de consumo que separa tokens de cache da entrada nova:

json
{
  "usage": {
    "inputTokens": 1200,
    "outputTokens": 800,
    "cacheReadTokens": 950,
    "cacheWriteTokens": 0
  }
}
CampoSignificado
inputTokensTokens do prompt processados como novos nesta solicitação
outputTokensTokens gerados pelo modelo
cacheReadTokensTokens do prompt servidos a partir do cache do provedor. 0 quando nada foi armazenado em cache.
cacheWriteTokensTokens do prompt gravados no cache nesta solicitação — um cache miss / primeira chamada.

A primeira solicitação para um engine e idioma normalmente mostra um valor positivo em cacheWriteTokens (o prefixo está sendo gravado) e cacheReadTokens de 0. Nas solicitações seguintes, enquanto o cache ainda está aquecido, isso se inverte: cacheReadTokens sobe e cacheWriteTokens cai para 0. Acompanhe o consumo agregado de tokens em todos os seus engines em Reports.

Próximos passos#

Modelos de LLM
Escolha o modelo que atende cada par de idiomas
Instruções
Parte do prefixo em cache — reutilizada entre solicitações
Brand Voices
Parte do prefixo em cache — reutilizada entre solicitações
Reports
Acompanhe o consumo de tokens, incluindo tokens de cache

Esta página foi útil?

Max PrilutskiyMax Prilutskiy·Atualizado há 6 dias·4 min de leitura