|
Documentação
Marcar uma demonstraçãoPlataforma
Plataforma
MCPCLIAPIWorkflows
GuiasChangelog

Introdução

  • Introdução
  • Ligue o seu motor

Motor de Localização

  • Visão geral
  • Vozes da Marca
  • Instruções
  • Glossários
  • Modelos LLM
  • Tokens de cache
  • Resolução de idiomas

Qualidade

  • Relatórios
  • Avaliadores de IA
  • Playground
  • Sugestões do Motor

Administração

  • Chaves de API
  • Equipa
  • Funções e Permissões
  • Registos de auditoria

Tokens de cache

Quando o seu motor de localização traduz texto, parte do prompt que envia para o LLM é idêntica em todos os pedidos, e outra parte muda de pedido para pedido. A cache de prompts permite ao motor reutilizar a parte estável, em vez de pagar para a processar novamente todas as vezes. Esses tokens reutilizados aparecem no seu consumo como tokens de cache e custam uma fração dos tokens normais de entrada.

Como é construído um prompt de tradução#

Cada pedido que o motor envia para um modelo é composto por camadas. Algumas são estáveis em todos os pedidos para o mesmo motor e idioma; uma é dinâmica e muda em cada pedido.

CamadaEstável ou dinâmicaEm cache
Prompt de sistema — identidade do motor, regras de localização, gramáticaEstável em todos os pedidos do mesmo motorSim
As suas instruções e voz da marca, por idiomaEstável até editar o motorSim
Termos do glossário obtidos para este pedido específicoDinâmica — varia por pedidoNão
O texto a traduzirDinâmicaNão

As camadas estáveis formam um prefixo contíguo no início do prompt. O motor assinala o fim desse prefixo como um ponto de corte da cache: tudo o que vem antes pode ser colocado em cache e reutilizado, e tudo o que vem depois — o glossário por pedido, os exemplos e o seu texto de entrada — é enviado de novo em cada pedido.

Porque é que o glossário não fica em cache

O glossário é obtido por pedido, com base no texto exato que está a traduzir, por isso muda de um pedido para o seguinte. Mantê-lo depois do ponto de corte da cache faz com que o resto do prompt continue reutilizável, independentemente dos termos do glossário incluídos em cada pedido.

Porque é que a entrada em cache é mais barata#

O primeiro pedido para um determinado motor e idioma escreve o prefixo estável na cache do fornecedor. Cada pedido seguinte que reutiliza esse prefixo lê-o da cache, em vez de o reprocessar de raiz. Os fornecedores faturam as leituras da cache por uma fração da tarifa normal dos tokens de entrada, por isso a maior parte do seu prompt — a parte que nunca muda — deixa de ser cobrada ao preço total em cada pedido.

A cache é de curta duração e é gerida pelo fornecedor do modelo, não pelo seu motor. Isto significa que o benefício é maior quando traduz muito com o mesmo motor e idioma num curto espaço de tempo: os pedidos chegam enquanto o prefixo ainda está ativo e são lidos diretamente da cache.

A cache é automática

Não precisa de configurar nada. O facto de um pedido usar cache depende do modelo que o processa — os modelos da Anthropic e da Google usam pontos de corte da cache explícitos, os modelos da OpenAI colocam prefixos longos em cache por si, e alguns fornecedores não usam cache de todo. O motor aplica o comportamento certo a cada modelo.

O ganho#

  • Menor custo — o prefixo estável é pago uma vez ao preço total e, depois, à tarifa reduzida de leitura da cache em cada pedido repetido.
  • Menor latência — os tokens em cache não precisam de ser reprocessados, por isso os pedidos com a cache ativa regressam mais depressa.
  • Sem configuração — a cache está ativada por predefinição; não há nada para ativar na configuração do seu motor.

Os ganhos acumulam-se com tráfego constante no mesmo motor e idioma — exatamente o padrão de um pipeline de localização em produção, em que a mesma configuração trata pedido após pedido.

Como ler os tokens de cache no seu consumo#

Cada resposta de tradução apresenta um detalhamento do consumo que separa os tokens de cache da entrada nova:

json
{
  "usage": {
    "inputTokens": 1200,
    "outputTokens": 800,
    "cacheReadTokens": 950,
    "cacheWriteTokens": 0
  }
}
CampoSignificado
inputTokensTokens do prompt processados de novo neste pedido
outputTokensTokens gerados pelo modelo
cacheReadTokensTokens do prompt servidos a partir da cache do fornecedor. 0 quando nada foi colocado em cache.
cacheWriteTokensTokens do prompt escritos na cache neste pedido — falha de cache / primeira chamada.

Um primeiro pedido para um motor e idioma mostra normalmente um valor positivo em cacheWriteTokens (o prefixo está a ser escrito) e cacheReadTokens de 0. Os pedidos seguintes, enquanto a cache ainda está ativa, invertem isso: cacheReadTokens aumenta e cacheWriteTokens desce para 0. Acompanhe o consumo agregado de tokens em todos os seus motores em Relatórios.

Próximos passos#

Modelos LLM
Escolha o modelo que trata cada par de idiomas
Instruções
Parte do prefixo em cache — reutilizada entre pedidos
Vozes da Marca
Parte do prefixo em cache — reutilizada entre pedidos
Relatórios
Acompanhe o consumo de tokens, incluindo os tokens de cache

Esta página foi útil?

Max PrilutskiyMax Prilutskiy·Atualizado há 6 dias·4 min de leitura