Otestujte stejný obsah ve dvou konfiguracích engine a vyhodnoťte změnu ještě před finálním potvrzením.
Workflow#
„Porovnej náš produkční engine se staging enginem na těchto 5 řetězcích pro japonštinu“
Co se stane:
- Asistent lokalizuje obsah přes oba enginy
- Zobrazí výsledky v přehledné tabulce vedle sebe
- Zvýrazní rozdíly: „Staging engine používá nový termín ze slovníčku pro ‚onboarding‘ (オンボーディング), zatímco produkční engine stále používá popisnou lokalizaci (導入手続き)“
Kdy to použít#
- Po ladění — ověřte si, že změna zlepšila výstup, než ji nasadíte
- Vyhodnocení změn modelu — stejná konfigurace, jiný primární model
- Testování dopadu slovníčku — s novými termíny i bez nich
- Porovnání engineů pro různé use casy — marketingový vs. technický obsah
Příklady porovnání#
Před a po ladění#
„Lokalizuj ‚Welcome to your new workspace‘ do němčiny přes engine A a engine B“
Ukáže, jestli se v aktualizovaném engine zachovává položka slovníčku pro „workspace“.
Vyhodnocení modelu#
„Přepnul jsem japonský model z GPT-4.1 na Claude Sonnet. Porovnej výstupy pro těchto 10 UI řetězců.“
Porovnání vedle sebe odhalí, který model si ve vaší konkrétní doméně lépe poradí s krátkými UI řetězci a který s delšími popisy.
Testování hloubky slovníčku#
„Porovnej engine s naším kompletním slovníčkem o 200 termínech s novým enginem bez slovníčku na těchto právních řetězcích“
Ukáže, jak velký vliv má slovníček na kvalitu výstupu u konkrétního typu obsahu.
