Retrieval-Augmented Localization snižuje terminologické chyby LLM o 17–45 %

Produkční lokalizace překládá izolované odstavce a řetězce. CI/CD pipeline porovnává změny oproti předchozí verzi a znovu překládá to, co se změnilo — řetězec v UI, tooltip, upravený odstavec. Každý požadavek přichází do LLM izolovaně — bez okolní stránky, bez plného kontextu dokumentu, bez jakéhokoli signálu, jestli jde o právní text EU, nebo marketingový obsah. Bez doménového kontextu přidaného při inferenci je každý izolovaný požadavek novou příležitostí k terminologickému driftu.

Retrieval Augmented Localization (RAL) tuto mezeru uzavírá tím, že při inferenci obohacuje každý požadavek na překlad o termíny z glosáře, pravidla hlasu značky a jazykově specifické instrukce — jde o stejný retrieve-inject pattern, na kterém stojí Retrieval Augmented Generation (RAG). V kontrolovaném vyhodnocení napříč pěti poskytovateli LLM a pěti evropskými jazyky RAL snížil počet terminologických chyb o 16,6–44,6 %.

Klíčová zjištění:

RAL snížil počet terminologických chyb o 16,6–44,6 % u všech pěti testovaných poskytovatelů LLM
Holistické skóre kvality (GEMBA-DA) tyto rozdíly nedokázalo zachytit. Rozdíly byly jen 0,0007–0,0178, zatímco MQM napočítalo o tisíce méně chyb
Nejvíc získaly modely s nižším výchozím terminologickým skóre: Mistral (-44,6 %) a Deepseek (-42,1 %) oproti Anthropic (-24,4 %) a Google (-16,6 %)
Největší zlepšení podle jazyka vykázala portugalština, nejmenší francouzština — čím víc se doménová terminologie liší od trénovacích dat, tím víc RAL pomáhá

Problém izolace#

Jednotka produkční lokalizace je malá: odstavec, řetězec, diff. Zřídka má víc než 200 slov. Často méně než 50. JSON soubor pro daný jazyk obsahuje jednotlivé klíče, z nichž každý nese frázi nebo větu. Stránka v CMS se skládá z bloků, z nichž se každý překládá samostatně.

Když model v izolovaném anglickém odstavci narazí na slovo „provider“, musí se rozhodnout: je to v portugalštině „fornecedor“ (běžné slovo), nebo „prestador“ (oficiální právní termín EU)? Bez doménového kontextu zvolí to běžné. Když to vynásobíte všemi doménově specifickými termíny v každém jazyce, terminologický drift se stane výchozím stavem.

Naším cílem bylo přesně změřit, jak velká tato mezera je — a jestli ji přidání kontextu glosáře při inferenci dokáže uzavřít.

První pokus neukázal nic#

Náš původní experiment používal 37 termínů glosáře pro každou jazykovou dvojici a hodnotil překlady na úrovni článku — každý článek (200–700 slov) byl vyhodnocen jako jedna jednotka. Výsledky: GEMBA-DA — vítězný prompt pro holistické hodnocení z WMT23 — vykázal 0,952 pro raw i 0,952 pro konfigurovanou variantu. Anotace chyb MQM vytvořila skóre 0,985–0,999 pro každý překlad. Žádný signál. Žádný rozdíl. Podle všech metrik byl raw a glosářem rozšířený výstup totožný.

Málem jsme publikovali nulový výsledek. Pak jsme se podívali proč.

Dva problémy. Za prvé, 37 termínů glosáře bylo příliš málo — mnoho testovacích odstavců neobsahovalo žádný zásah glosáře, takže konfigurovaný engine neměl žádnou výhodu. Za druhé, hodnocení na úrovni článku matematicky stlačuje rozdíly v kvalitě do šumu. Skóre MQM se počítá jako 1 - penalty / wordCount. Jedna závažná terminologická chyba v článku o 500 slovech: 1 - 5/500 = 0.99. Ta samá chyba v odstavci o 50 slovech: 1 - 5/50 = 0.90. Chyba je stejná. Skóre ne. Na úrovni článku každý skutečný rozdíl v kvalitě mizí nad 0,98.

To není jen problém měření v naší studii. Platí to pro každý benchmark překladu, který hodnotí na úrovni stránky nebo článku. Chyby tam jsou. Metrika je nevidí.

Změnili jsme optiku#

Ve druhé iteraci jsme udělali čtyři změny.

Za prvé jsme rozšířili glosář z 37 na 72 termínů pro každou jazykovou dvojici — extrahovaných z trénovací sady článků, oddělené od testovací sady použité pro vyhodnocení. Za druhé jsme hodnotili na úrovni odstavce (50–200 slov), což odpovídá skutečné jednotce produkčního překladu. Za třetí jsme do promptu pro hodnocení MQM přidali lidské referenční překlady, aby porotci mohli terminologii porovnávat přímo. Za čtvrté jsme snížili počet porotců ze šesti na čtyři. Deepseek a QWEN označovaly jen 1–3 chyby na odstavec oproti 5–15 u přísnějších porotců — byly příliš benevolentní na to, aby přidaly signál.

Signál se objevil okamžitě.

Návrh studie#

Datová sada. Chtěli jsme co nejvíc terminologicky nasycený typ textu, abychom v náročných podmínkách otestovali přidávání glosáře. EU AI Act (nařízení 2024/1689) se ukázal jako ideální volba: formální regulatorní text, v němž každý odstavec obsahuje termíny se specifickými, oficiálně definovanými překlady. EUR-Lex publikuje oficiální lidské překlady ve všech pěti cílových jazycích, což umožňuje hodnocení odstavec po odstavci vůči ground truth. 15 článků, překlad z angličtiny do němčiny, francouzštiny, španělštiny, portugalštiny a italštiny.

Engines. Každý poskytovatel byl testován ve dvou konfiguracích lokalizačního engine: raw engine (samotné LLM — bez glosáře, bez retrievalu, překládající pouze na základě znalostí z tréninku) a RAL-augmented engine (stejný model, s doménovým glosářem, profilem hlasu značky a jazykově specifickými instrukcemi použitými při inferenci). Celkem deset enginů, které sdílely stejnou konfiguraci napříč všemi RAL-augmented enginy.

Poskytovatel	Model	Raw engine	RAL engine
Anthropic	claude-opus-4.6	jen model	glosář + hlas značky + instrukce
OpenAI	gpt-5.4	jen model	glosář + hlas značky + instrukce
Google	gemini-3.1-pro-preview	jen model	glosář + hlas značky + instrukce
Mistral	mistral-large-2512	jen model	glosář + hlas značky + instrukce
Deepseek	deepseek-v3.2	jen model	glosář + hlas značky + instrukce

QWEN byl zpočátku zahrnutý, ale z finální sady vypadl — překlady byly pomalé a nespolehlivé, což je stejný problém, kvůli kterému byl diskvalifikován i jako porotce.

Konfigurace RAL. Každý rozšířený engine obsahoval 72 termínů glosáře pro každou jazykovou dvojici (70 vlastních překladů plus 2 nepřekládatelné výrazy), profil hlasu značky (formální regulatorní styl EU) a 13 jazykově specifických instrukcí. Termíny glosáře byly extrahovány z trénovací sady článků oddělené od testovací sady použité pro vyhodnocení. Příklady položek: EN „provider“ → PT „prestador“ (ne „fornecedor“); EN „high-risk AI system“ → PT „sistema de IA de risco elevado“ (ne „sistema de IA de alto risco“). Při inferenci se vyhledají a modelu předají jen termíny odpovídající aktuálnímu odstavci — velikost glosáře tedy nenafukuje kontextové okno. Enginy byly nakonfigurovány na Lingo.dev jako stavové lokalizační enginy — trvalý kontext aplikovaný na každý požadavek.

Hodnocení. Každý přeložený odstavec hodnotili čtyři LLM porotci a výsledky se zprůměrovaly, aby se omezilo individuální zkreslení. Každý porotce hodnotí výstupy všech poskytovatelů, nejen své vlastní:

Porotce	Model
Anthropic	claude-sonnet-4.6
OpenAI	gpt-4.1
Google	gemini-2.5-flash
Mistral	mistral-large-2512

GEMBA-MQM. MQM (Multidimensional Quality Metrics) je standardní rámec pro hodnocení kvality překladu — obvykle ho provádějí vyškolení lidští anotátoři. GEMBA-MQM, vítězná evaluační metoda z WMT23, nahrazuje lidské anotátory LLM, ale drží se stejného protokolu MQM: porotce si přečte překlad a označí každou chybu, přičemž každé přiřadí kategorii a závažnost.

Kategorie chyb: přesnost, plynulost, styl, terminologie. Váhy závažnosti se řídí oficiálním standardem MQM: minor = 1, major = 5, critical = 25.

Skóre MQM na odstavec: max(0, 1 - weighted penalty / word count). Odstavec o 50 slovech s jednou závažnou terminologickou chybou dosáhne skóre 1 - 5/50 = 0.90. Bezchybný odstavec má skóre 1.0. Počty chyb v tabulkách výsledků jsou sečtené napříč všemi čtyřmi porotci a všemi odstavci pro daného poskytovatele a jazyk.

Jedna změna oproti standardnímu promptu GEMBA-MQM: přidali jsme lidský referenční překlad. GEMBA-MQM je z principu bezreferenční — porotce hodnotí kvalitu, aniž by viděl „správnou“ odpověď. Reference jsme přidali, protože EUR-Lex publikuje oficiální překlady EU AI Act ve všech pěti cílových jazycích, takže porotci měli ground truth, se kterým mohli porovnat terminologii.

GEMBA-DA. Holistické skóre kvality 0–1 používající prompt GEMBA-DA (také vítězný ve WMT23). Na rozdíl od MQM vytváří jediné skóre bez anotací chyb. Uvádíme ho jako sanity check — jak ukazují výsledky, terminologické rozdíly nedokáže zachytit.

Deepseek byl z panelu porotců vyloučen kvůli příliš benevolentnímu hodnocení (1–3 chyby na odstavec oproti 5–15 u přísnějších porotců). Průměrování napříč čtyřmi porotci omezuje individuální zkreslení a relativní zlepšení raw vs. RAL je konzistentní u každého porotce.

Velikost vzorku. 535 párových pozorování odstavců na poskytovatele (107 odstavců × 5 jazyků). Celkem přes 42 000 individuálních hodnocení kvality (535 odstavců × 5 poskytovatelů × 2 konfigurace × 8 skóre každé).

Terminologické chyby klesají o 16,6–44,6 %#

Poskytovatel	Raw chyby	RAL chyby	Pokles
Mistral	3,336	1,847	-44.6%
Deepseek	3,672	2,127	-42.1%
OpenAI	2,276	1,508	-33.7%
Anthropic	1,559	1,179	-24.4%
Google	1,901	1,586	-16.6%

Počty terminologických chyb podle MQM napříč 15 články, 5 jazyky a 4 porotci.

Zlepšení se vyvíjelo nepřímo úměrně vůči výchozímu skóre. Mistral a Deepseek — s nejvyšším počtem raw chyb — zaznamenaly pokles o 42,1–44,6 %. Anthropic a Google — které už v tréninku lépe odrážely právní terminologii EU — zaznamenaly menší zlepšení. Vzorec je jasný: RAL kompenzuje to, co model ještě nezná.

Mezitím GEMBA-DA — holistické skóre — vykázalo napříč všemi poskytovateli rozdíl 0,0007–0,0178 mezi raw a RAL. Ty samé překlady, u nichž MQM označilo o 16,6–44,6 % více terminologických chyb, dostaly téměř totožná holistická skóre. To je mezera v měření: holistické hodnocení v jakékoli granularitě nedokáže zachytit rozdíly v kvalitě na úrovni terminologie.

Celkový počet chyb (ve všech kategoriích MQM) také vykázal menší, ale konzistentní pokles napříč všemi pěti poskytovateli:

Poskytovatel	Raw celkem	RAL celkem	Změna
Deepseek	10,423	9,014	-13.5%
Mistral	8,846	7,812	-11.7%
OpenAI	7,563	7,155	-5.4%
Google	7,793	7,545	-3.2%
Anthropic	6,232	6,039	-3.1%

Rozdíl mezi snížením terminologických chyb (16.6–44.6 %) a celkovým snížením chyb (3.1–13.5 %) z velké části vysvětluje styl. LLM hodnotitelé mají tendenci označovat text jako „neobratný“, když se odchyluje od preferencí jejich tréninkových dat — i když ho tato odchylka přibližuje oficiálnímu referenčnímu znění. Jde o známé omezení označované jako self-preference bias. Terminologie a přesnost jsou ukotvené vůči referenci; styl nemá jinou oporu než vlastní úsudek hodnotitele o tom, co zní přirozeně.

Statistická významnost#

Snížení terminologických chyb jsme u každého poskytovatele testovali párovým Wilcoxonovým testem se znaménkovými pořadími (jednostranný test, s Holm-Bonferroniho korekcí napříč pěti poskytovateli). Počty terminologických chyb na úrovni odstavců byly sečteny napříč čtyřmi hodnotiteli a následně spárovány podle odstavce (stejný zdroj, stejní hodnotitelé, raw vs. RAL).

Poskytovatel	Párované odstavce	Průměrné snížení na odstavec	95% CI	Cohenovo d	p (upravené)
Mistral	532	2.80	[2.42, 3.21]	0.60	< 0.001
Deepseek	526	2.94	[2.45, 3.44]	0.50	< 0.001
OpenAI	535	1.44	[1.12, 1.77]	0.37	< 0.001
Anthropic	533	0.71	[0.50, 0.93]	0.28	< 0.001
Google	533	0.59	[0.34, 0.85]	0.20	< 0.001

Všech pět poskytovatelů vykazuje statisticky významné snížení terminologických chyb (p < 0.001 po Holm-Bonferroniho korekci na vícenásobná porovnání), přičemž 95% intervaly spolehlivosti vylučují nulu. Velikost efektu se pohybuje od středně velké až větší (Mistral, d = 0.60) po malou (Google, d = 0.20) — v souladu se vzorcem, podle kterého modely s nižším výchozím pokrytím terminologie těží z RAL více.

Kde RAL přináší nejvíc#

Největší zlepšení v terminologii napříč všemi poskytovateli přinesla portugalština. Portugalská právní terminologie se výrazně liší od běžné portugalštiny a právní termíny EU jsou v portugalštině v tréninkových datech LLM zastoupené nedostatečně. Naopak nejmenší zlepšení vykázala francouzština — francouzské právní termíny jsou v tréninkových korpusech dobře zastoupené.

Případová studie: OpenAI a portugalština

Raw výstup OpenAI přeložil AI Act EU do portugalštiny s použitím výrazu „alto risco“ 71krát (hovorové „high risk“), „fornecedores“ 39krát a „fornecedor“ 36krát. Oficiální překlady v EUR-Lex používají „risco elevado“ a „prestadores“. S RAL klesl u OpenAI počet terminologických chyb v portugalštině z 648 na 266 — tedy o 59 %.

Tento vzorec platí obecně: jazyky, jejichž oborová terminologie je vzdálenější od tréninkové distribuce LLM, těží z RAL více.

Mechanismus#

Mechanismus je jednoduchý. V čase inference engine rozloží vstupní text na n-gramové fráze a vytvoří jejich embeddingy. Poté spustí vyhledávání podle kosinové podobnosti nad vektorovým indexem glosáře, aby našel odpovídající termíny. Nalezené termíny se vloží do kontextového okna LLM spolu se zdrojovým textem. Model neháda „fornecedor“ nebo „prestador“ — správné mapování vidí v kontextu a použije ho. Strukturálně je to totožné s RAG: embed, retrieve, inject, generate.

Pořadí poskytovatelů podle raw kvality#

Bez RAL — pouze raw výstup modelu:

Pořadí	Poskytovatel	Průměr MQM
1	Anthropic	0.955
2	OpenAI	0.942
3	Google	0.938
4	Mistral	0.915
5	Deepseek	0.883

Rozdíl 0.072 mezi Anthropic a Deepseek představuje zhruba 3–4 chyby navíc na odstavec o 100 slovech. RAL tuto mezeru zúžil: Mistral s RAL (průměr 0.940) se přiblížil raw kvalitě Googlu (0.938). Model za zlomek ceny za token, rozšířený o glosář se 72 termíny, dorovnal terminologickou přesnost dražšího modelu bez glosáře.

Co to znamená v produkci#

Rozdíl mezi raw výstupem LLM a lokalizací připravenou pro produkci je problém kontextu — a ten se vrství. Po deseti releasech bez RAL vedle sebe v produktu koexistují tři různé chybné překlady slova „provider“.

RAL tento vzorec narušuje. Glosář je perzistentní — použije se na každý požadavek bez ohledu na to, co se změnilo. Glosář se 72 termíny, který v naší studii snížil počet chyb o 16.6–44.6 %, není jednorázové zlepšení. Je to vrstva konzistence pro každý požadavek na překlad po celou dobu životnosti produktu.

Pro týmy, které nasazují překlady pomocí LLM, z toho plynou dvě zjištění: zaprvé, holistická skóre kvality nedokážou odhalit problémy na úrovni terminologie. GEMBA-DA — metoda, která zvítězila ve WMT23 — hodnotila raw a RAL-rozšířené překlady s rozdílem jen 0.0007–0.0178. MQM napočítalo o 16.6–44.6 % méně terminologických chyb. Pokud vyhodnocujete kvalitu na úrovni stránky jedním skóre, nevidíte celý obraz.

Zadruhé, řešení je jednodušší, než problém napovídá. Oborový glosář vložený v čase inference snížil počet terminologických chyb u každého poskytovatele, kterého jsme testovali. I model, který překládá nejlépe (Anthropic, MQM 0.955), se ještě zlepšil. A model s nejvyšší výchozí chybovostí (Deepseek, MQM 0.883) se zlepšil nejvíc.

RAL je pro lokalizaci tím, čím je RAG pro generování: inženýringová vrstva mezi modelem a produkcí.

Další kroky#

Představujeme Lingo.dev v1.0

Platforma pro lokalizační inženýring postavená na RAL

Lokalizační enginy

Konfigurujte modely, glosáře a hlas značky pro každý jazyk

Klíčová zjištění:

RAL snížil počet terminologických chyb o 16,6–44,6 % u všech pěti testovaných poskytovatelů LLM
Holistické skóre kvality (GEMBA-DA) tyto rozdíly nedokázalo zachytit. Rozdíly byly jen 0,0007–0,0178, zatímco MQM napočítalo o tisíce méně chyb
Nejvíc získaly modely s nižším výchozím terminologickým skóre: Mistral (-44,6 %) a Deepseek (-42,1 %) oproti Anthropic (-24,4 %) a Google (-16,6 %)
Největší zlepšení podle jazyka vykázala portugalština, nejmenší francouzština — čím víc se doménová terminologie liší od trénovacích dat, tím víc RAL pomáhá

Problém izolace#

Naším cílem bylo přesně změřit, jak velká tato mezera je — a jestli ji přidání kontextu glosáře při inferenci dokáže uzavřít.

První pokus neukázal nic#

Málem jsme publikovali nulový výsledek. Pak jsme se podívali proč.

To není jen problém měření v naší studii. Platí to pro každý benchmark překladu, který hodnotí na úrovni stránky nebo článku. Chyby tam jsou. Metrika je nevidí.

Změnili jsme optiku#

Ve druhé iteraci jsme udělali čtyři změny.

Signál se objevil okamžitě.

Návrh studie#

Poskytovatel	Model	Raw engine	RAL engine
Anthropic	claude-opus-4.6	jen model	glosář + hlas značky + instrukce
OpenAI	gpt-5.4	jen model	glosář + hlas značky + instrukce
Google	gemini-3.1-pro-preview	jen model	glosář + hlas značky + instrukce
Mistral	mistral-large-2512	jen model	glosář + hlas značky + instrukce
Deepseek	deepseek-v3.2	jen model	glosář + hlas značky + instrukce

QWEN byl zpočátku zahrnutý, ale z finální sady vypadl — překlady byly pomalé a nespolehlivé, což je stejný problém, kvůli kterému byl diskvalifikován i jako porotce.

Porotce	Model
Anthropic	claude-sonnet-4.6
OpenAI	gpt-4.1
Google	gemini-2.5-flash
Mistral	mistral-large-2512

Kategorie chyb: přesnost, plynulost, styl, terminologie. Váhy závažnosti se řídí oficiálním standardem MQM: minor = 1, major = 5, critical = 25.

Terminologické chyby klesají o 16,6–44,6 %#

Poskytovatel	Raw chyby	RAL chyby	Pokles
Mistral	3,336	1,847	-44.6%
Deepseek	3,672	2,127	-42.1%
OpenAI	2,276	1,508	-33.7%
Anthropic	1,559	1,179	-24.4%
Google	1,901	1,586	-16.6%

Počty terminologických chyb podle MQM napříč 15 články, 5 jazyky a 4 porotci.

Celkový počet chyb (ve všech kategoriích MQM) také vykázal menší, ale konzistentní pokles napříč všemi pěti poskytovateli:

Poskytovatel	Raw celkem	RAL celkem	Změna
Deepseek	10,423	9,014	-13.5%
Mistral	8,846	7,812	-11.7%
OpenAI	7,563	7,155	-5.4%
Google	7,793	7,545	-3.2%
Anthropic	6,232	6,039	-3.1%

Statistická významnost#

Poskytovatel	Párované odstavce	Průměrné snížení na odstavec	95% CI	Cohenovo d	p (upravené)
Mistral	532	2.80	[2.42, 3.21]	0.60	< 0.001
Deepseek	526	2.94	[2.45, 3.44]	0.50	< 0.001
OpenAI	535	1.44	[1.12, 1.77]	0.37	< 0.001
Anthropic	533	0.71	[0.50, 0.93]	0.28	< 0.001
Google	533	0.59	[0.34, 0.85]	0.20	< 0.001

Pořadí	Poskytovatel	Průměr MQM
1	Anthropic	0.955
2	OpenAI	0.942
3	Google	0.938
4	Mistral	0.915
5	Deepseek	0.883

Co to znamená v produkci#

RAL je pro lokalizaci tím, čím je RAG pro generování: inženýringová vrstva mezi modelem a produkcí.

Další kroky#

Představujeme Lingo.dev v1.0

Platforma pro lokalizační inženýring postavená na RAL

Lokalizační enginy

Konfigurujte modely, glosáře a hlas značky pro každý jazyk

Retrieval-Augmented Localization snižuje terminologické chyby LLM o 17–45 %

Problém izolace#

První pokus neukázal nic#

Změnili jsme optiku#

Návrh studie#

Terminologické chyby klesají o 16,6–44,6 %#

Statistická významnost#

Kde RAL přináší nejvíc#

Mechanismus#

Pořadí poskytovatelů podle raw kvality#

Co to znamená v produkci#

Další kroky#

Platforma

Nástroje pro vývojáře

Zdroje

Společnost

Komunita

Retrieval-Augmented Localization snižuje terminologické chyby LLM o 17–45 %

Problém izolace#

První pokus neukázal nic#

Změnili jsme optiku#

Návrh studie#

Terminologické chyby klesají o 16,6–44,6 %#

Statistická významnost#

Kde RAL přináší nejvíc#

Mechanismus#

Pořadí poskytovatelů podle raw kvality#

Co to znamená v produkci#

Další kroky#

Platforma

Nástroje pro vývojáře

Zdroje

Společnost

Komunita