AI hodnocení jsou automatizované kontroly kvality, které vyhodnocují překlady vytvořené vaším lokalizačním enginem. Po každém požadavku na překlad Lingo.dev spustí nezávislé vyhodnocení pomocí LLM, které ověří výstup – zkontroluje soulad se slovníkem, dodržování instrukcí i všechna vlastní kritéria, která definujete. Hodnocení běží asynchronně a nikdy neblokují odpověď s překladem.
Jak to funguje#
Když lokalizační engine dokončí požadavek na překlad, zařadí příslušná hodnocení do fronty k asynchronnímu vyhodnocení. Každé hodnocení používá nezávislý LLM, který dostane zdrojový text, přeložený výstup, kontext a hodnoticí kritéria. Vrátí strukturovaný výsledek – splnil/nesplnil nebo procentuální skóre – včetně zdůvodnění u ne zcela vyhovujících výsledků.
Karta Reviews v engine určuje, která hodnocení se pro daný engine spouštějí. Jsou tu tři kategorie:
| Kategorie | Co kontroluje | Typ výsledku | Konfigurace |
|---|---|---|---|
| AI hodnocení položek slovníku | Zda překlady dodržují pravidla glossary daného engine | Splnil / Nesplnil | Vestavěný přepínač pro každý engine |
| AI hodnocení instrukcí | Zda překlady dodržují všechny instructions daného engine | Splnil / Nesplnil pro každou instrukci | Vestavěný přepínač pro každý engine |
| Vlastní AI hodnotitelé | Vaše vlastní hodnoticí kritéria definovaná na úrovni organizace | Splnil / Nesplnil nebo 0–100 % | Výběr pro každý engine z hodnotitelů na úrovni organizace |
Vestavěná AI hodnocení#
Každý lokalizační engine obsahuje dva vestavěné typy kontroly, které ověřují překlady podle vlastní konfigurace engine. Můžete je zapnout nebo vypnout na kartě Reviews daného engine.
AI hodnocení položek slovníku#
Kontroluje, zda překlad dodržel všechna relevantní pravidla slovníku. Pokud má engine vlastní překlady (např. "Deploy" → "Bereitstellen") nebo nepřekládané termíny (např. "OAuth"), hodnocení ověří, že je překlad respektoval.
Kontrola zohledňuje gramatické varianty – pravidlo slovníku pro termín v jednom gramatickém pádě platí pro všechny tvary daného termínu. Pokud existují konfliktní pravidla slovníku, překlad se stále považuje za vyhovující, pokud bylo dodrženo alespoň jedno z nich.
Výsledkem je jeden celkový verdikt splnil/nesplnil pro celý požadavek na překlad, včetně zdůvodnění, pokud je výsledkem nesplnil.
AI hodnocení instrukcí#
Vyhodnocuje každou instrukci samostatně. Pokud má engine tři instrukce, kontrola vrátí tři samostatné verdikty splnil/nesplnil – každý s vlastním zdůvodněním, pokud je výsledkem nesplnil.
Instrukce může vrátit N/A, pokud se její kritéria na překládaný obsah nevztahují. Například instrukce pro formální oslovení vrátí N/A, pokud překlad obsahuje jen název produktu nebo technický termín, kde formálnost není relevantní. Výsledky N/A se do souhrnných skóre nezapočítávají.
Obě vestavěná hodnocení se spustí jen tehdy, když má engine relevantní konfiguraci – pokud se žádné položky slovníku neshodují s dvojicí jazyků, AI hodnocení položek slovníku se nespustí.
Konfigurace hodnocení pro jednotlivé enginy#
Na kartě Reviews v engine určíte, která hodnocení se mají pro daný engine spouštět. Karta má dvě části:
Vestavěné přepínače nahoře ovládají AI hodnocení položek slovníku a AI hodnocení instrukcí. Jsou na sobě nezávislé – podle konfigurace engine můžete zapnout jedno i bez druhého.
Vlastní AI hodnotitelé pod přepínači zobrazují všechny AI hodnotitele definované na úrovni organizace. Každého z nich můžete pro konkrétní engine zapnout nebo vypnout. Díky tomu můžete udržovat sdílenou knihovnu kontrol kvality a nasazovat je selektivně.
Jeden engine může současně používat vestavěná hodnocení i více vlastních AI hodnotitelů. Všechna hodnocení běží asynchronně po každém požadavku na překlad a výsledky se zobrazují v translation logu a v Reports.
Typy AI hodnotitelů#
Booleovské AI hodnotitele#
Vrací binární verdikt: splnil nebo nesplnil. Hodí se pro pravidla, která buď platí, nebo ne.
Příklady:
- "Zachovává překlad všechny HTML tagy a atributy?"
- "Jsou pravidla pluralizace správně použita pro cílový jazyk?"
- "Používá překlad v němčině formální oslovení (Sie)?"
Výsledky se agregují jako míra splnění – 75 % znamená, že 3 ze 4 vyhodnocených překladů kontrolou prošly.
Procentuální AI hodnotitelé#
Vrací skóre od 0 do 100. Hodí se pro dimenze kvality, které leží na škále.
Příklady:
- "Ohodnoťte přirozenost překladu pro rodilého mluvčího (0–100)"
- "Ohodnoťte, jak dobře překlad zachovává původní tón a záměr (0–100)"
- "Vyhodnoťte gramatickou správnost na škále 0–100"
Výsledky se agregují jako průměry za celé období hodnocení.
Konfigurace AI hodnotitele#
| Pole | Popis |
|---|---|
| Název | Štítek identifikující AI hodnotitele (např. "Kontrola pluralizace") |
| Instrukce | Hodnoticí kritéria napsaná přirozeným jazykem |
| Typ | boolean (splnil/nesplnil) nebo percentage (0–100) |
| Zdrojový jazyk | Zdrojový jazyk, který se má shodovat, nebo * pro libovolný |
| Cílový jazyk | Cílový jazyk, který se má shodovat, nebo * pro libovolný |
| Poskytovatel / model | LLM používaný pro hodnocení (nezávisle na překladovém modelu) |
| Vzorkování | Procento požadavků k vyhodnocení (0–100 %) |
| Povolit N/A | Zda může AI hodnotitel vrátit „not applicable“ pro nerelevantní dvojice |
| aktivní | Zapne nebo vypne kontrolu bez smazání konfigurace |
Jak psát instrukce pro AI hodnotitele#
Pole instrukce je jádrem AI hodnotitele. Říká hodnoticímu LLM přesně, co má kontrolovat. Pište ji jako konkrétní, ověřitelné kritérium.
Dobré instrukce#
Booleovské:
Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.Procentuální:
Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.Co dělá instrukci dobrou#
- Konkrétní kritéria – přesně definujte, co znamená splnil/nesplnil nebo co představují hodnoty 0 a 100
- Pozorovatelné výsledky – LLM musí být schopen hodnotit na základě textu, ne odhadovat záměr
- Jedna oblast na AI hodnotitele – rozdělte vícerozměrné kontroly kvality do samostatných AI hodnotitelů
Párování jazyků#
AI hodnotitelé párují požadavky na překlad podle zdrojového a cílového jazyka. Zástupný znak * odpovídá libovolnému jazyku.
| Zdrojový jazyk | Cílový jazyk | Odpovídá |
|---|---|---|
en | de | Pouze překladům z angličtiny do němčiny |
en | * | Jakémukoli překladu z angličtiny |
* | ja | Jakémukoli překladu do japonštiny |
* | * | Všem překladům |
Jeden požadavek na překlad může spustit více AI hodnotitelů, pokud se jich s danou dvojicí jazyků shoduje více.
Vzorkování#
Ne každý překlad musí projít kontrolou. Míra vzorkování určuje, jaké procento odpovídajících požadavků bude vyhodnoceno.
| Vzorkování | Chování |
|---|---|
| 100 % | Zkontroluje se každý odpovídající požadavek (důkladné, ale nákladnější) |
| 50 % | Zkontroluje se přibližně polovina odpovídajících požadavků |
| 10 % | Jeden z deseti – užitečné pro enginy s vysokým objemem, kde jsou trendy důležitější než jednotlivá skóre |
| 0 % | AI hodnotitel je fakticky pozastavený, aniž byste ho museli vypnout |
Vzorkování se uplatňuje při zpracování požadavku pomocí náhodné kontroly. Při dostatečném objemu požadavků se skutečná míra vyhodnocení přiblíží nakonfigurovanému procentu.
Podpora N/A#
Když je allowsNA aktivní, může hodnoticí LLM vrátit „not applicable“ místo skóre. To je užitečné pro AI hodnotitele, jejichž kritéria se nevztahují na každou dvojici jazyků.
Příklad: AI hodnotitel kontrolující pravidla formálního oslovení vrátí N/A pro překlady z angličtiny do angličtiny (angličtina nerozlišuje formální a neformální oslovení), ale vrátí skóre pro překlady z angličtiny do němčiny.
Výsledky N/A se v reportech nezapočítávají do průměrů ani míry splnění – nesnižují skóre ani je uměle nenavyšují.
Zdůvodnění#
AI hodnotitelé poskytují u ne zcela vyhovujících výsledků zdůvodnění, abyste snáz pochopili, co se pokazilo:
- Perfektní skóre (splnil nebo 100 %) – zdůvodnění je null (není co vysvětlovat)
- N/A – zdůvodnění je null
- Ne zcela vyhovující skóre – stručné jednověté vysvětlení
Díky tomu jsou výsledky kontroly prakticky použitelné: když překlad kontrolou neprojde, zdůvodnění vám bez nutnosti ručního pátrání řekne proč.
Model pro kontrolu#
Každý AI hodnotitel má vlastní konfiguraci poskytovatele LLM a modelu, nezávislou na překladovém modelu. Toto oddělení je záměrné – model, který překlad vytváří, by neměl být stejný jako model, který ho vyhodnocuje.
Nezávislost modelu
Použití jiného modelu pro kontrolu než pro překlad přináší nezávislé posouzení. Pokud překlad vytváří GPT-4o, vyhodnocení pomocí Claude Sonnet vám dá druhý názor místo sebehodnocení.
Reporty AI hodnotitelů#
Výsledky kontroly se v dashboardu zobrazují v sekci reportů AI hodnotitelů a ukazují:
- Míra splnění v čase – u booleovských AI hodnotitelů vykreslená jako denní procenta
- Průměrné skóre v čase – u procentuálních AI hodnotitelů vykreslené jako denní průměry
- Rozpis podle dvojic jazyků – uvidíte, jak si jednotlivé dvojice zdroj → cíl vedou samostatně
- Souhrnné zobrazení – spojí všechny dvojice jazyků do jedné trendové čáry
Reporty AI hodnotitelů doplňují Reports zaměřené na objem – dohromady vám dávají úplný přehled o propustnosti i kvalitě.
Správa AI hodnotitelů přes MCP#
Pokud používáte Lingo.dev MCP server, váš AI asistent pro psaní kódu může AI hodnotitele vytvářet a konfigurovat přímo:
"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations.""Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."