|
Dokumentace
Rezervovat demoPlatforma
Platforma
MCPCLIAPIWorkflows
NávodyChangelog

Začínáme

  • Úvod
  • Propojte svůj engine

Lokalizační engine

  • Přehled
  • Hlas značky
  • Instrukce
  • Glosáře
  • LLM modely
  • Cache tokeny
  • Rozhodování jazyků

Kvalita

  • Přehledy
  • AI hodnotitelé
  • Playground
  • Návrhy pro engine

Administrace

  • API klíče
  • Tým
  • Role a oprávnění
  • Auditní logy

Cache tokeny

Když váš lokalizační engine překládá text, část promptu, který posílá do LLM, je u každého požadavku stejná a část se mezi požadavky mění. Cache promptů umožňuje engine znovu použít stabilní část, místo aby se její zpracování pokaždé účtovalo znovu. Tyto znovu použité tokeny se ve vaší spotřebě zobrazují jako cache tokeny a stojí jen zlomek ceny běžných vstupních tokenů.

Jak se skládá překladový prompt#

Každý požadavek, který engine posílá modelu, se skládá z několika vrstev. Některé jsou stabilní napříč všemi požadavky pro stejný engine a jazyk, jedna je dynamická a mění se s každým požadavkem.

VrstvaStabilní nebo dynamickáV cache
Systémový prompt – identita engine, lokalizační pravidla, gramatikaStabilní pro každý engineAno
Vaše instrukce a hlas značky pro každý jazykStabilní, dokud engine neupravíteAno
Termíny ze slovníčku načtené pro tento konkrétní požadavekDynamická – liší se podle požadavkuNe
Text k překladuDynamickáNe

Stabilní vrstvy tvoří souvislý prefix na začátku promptu. Engine označí konec tohoto prefixu jako cache breakpoint: vše před ním lze uložit do cache a znovu použít, zatímco vše za ním – slovníček pro konkrétní požadavek, příklady a váš vstupní text – se při každém požadavku posílá znovu.

Proč se slovníček neukládá do cache

Slovníček se načítá pro každý požadavek podle konkrétního textu, který překládáte, takže se mezi jednotlivými požadavky mění. Když zůstane za cache breakpointem, zbytek promptu lze znovu použít bez ohledu na to, které termíny ze slovníčku si daný požadavek natáhne.

Proč je vstup z cache levnější#

První požadavek pro daný engine a jazyk stabilní prefix zapíše do cache poskytovatele. Každý další požadavek, který tento prefix znovu použije, ho z cache načte, místo aby ho zpracovával od nuly. Poskytovatelé účtují čtení z cache jen jako zlomek běžné sazby za vstupní tokeny, takže hlavní část vašeho promptu – ta, která se nikdy nemění – se při každém požadavku přestane znovu účtovat v plné ceně.

Cache má krátkou životnost a spravuje ji poskytovatel modelu, ne váš engine. Největší přínos proto má ve chvíli, kdy během krátkého okna překládáte hodně textu ve stejném engine a jazyce: požadavky přicházejí, zatímco je prefix stále warm, a načítají se rovnou z cache.

Cachování je automatické

Nemusíte nic nastavovat. To, jestli požadavek využije cache, závisí na modelu, který ho zpracovává – modely Anthropic a Google používají explicitní cache breakpointy, modely OpenAI si dlouhé prefixy cachují samy a někteří poskytovatelé necachují vůbec. Engine pro každý model použije správné chování.

Co tím získáte#

  • Nižší náklady – stabilní prefix zaplatíte jednou za plnou cenu a pak při každém opakovaném požadavku už jen za sníženou sazbu za čtení z cache.
  • Nižší latence – cache tokeny není potřeba znovu zpracovávat, takže warm požadavky se vracejí rychleji.
  • Bez nastavování – cachování je zapnuté ve výchozím nastavení; v konfiguraci engine není co aktivovat.

Přínosy se násobí při stabilním provozu na stejném engine a jazyce – přesně tak vypadá produkční lokalizační pipeline, kde stejná konfigurace obsluhuje jeden požadavek za druhým.

Jak číst cache tokeny ve své spotřebě#

Každá odpověď z překladu obsahuje rozpad spotřeby, který odděluje cache tokeny od nových vstupů:

json
{
  "usage": {
    "inputTokens": 1200,
    "outputTokens": 800,
    "cacheReadTokens": 950,
    "cacheWriteTokens": 0
  }
}
PoleVýznam
inputTokensTokeny promptu nově zpracované v tomto požadavku
outputTokensTokeny vygenerované modelem
cacheReadTokensTokeny promptu obsloužené z cache poskytovatele. 0, když se nic nenačetlo z cache.
cacheWriteTokensTokeny promptu zapsané do cache při tomto požadavku – cache miss / první volání.

První požadavek pro daný engine a jazyk obvykle ukazuje kladnou hodnotu cacheWriteTokens (prefix se zapisuje) a cacheReadTokens ve výši 0. Následné požadavky, zatímco je cache stále warm, to obrátí: cacheReadTokens roste a cacheWriteTokens klesá na 0. Souhrnnou spotřebu tokenů napříč svými enginy sledujte v Reportech.

Další kroky#

LLM modely
Vyberte model pro každou dvojici jazyků
Instrukce
Součást prefixu v cache – znovu se používá napříč požadavky
Hlasy značky
Součást prefixu v cache – znovu se používá napříč požadavky
Reporty
Sledujte spotřebu tokenů včetně cache tokenů

Byla tato stránka užitečná?

Max PrilutskiyMax Prilutskiy·Aktualizováno před 6 dny·3 min čtení