Teste dieselben Inhalte mit zwei Engine-Konfigurationen, um eine Änderung zu bewerten, bevor du sie übernimmst.
Der Workflow#
"Vergleiche unsere Produktions-Engine mit der Staging-Engine anhand dieser 5 Strings für Japanisch"
Das passiert:
- Der Assistent lokalisiert die Inhalte über beide Engines
- Stellt die Ergebnisse in einer Tabelle direkt nebeneinander dar
- Hebt Unterschiede hervor: "Die Staging-Engine verwendet den neuen Glossarbegriff für 'onboarding' (オンボーディング), während die Produktions-Engine noch die beschreibende Lokalisierung (導入手続き) nutzt"
Wann du das einsetzen solltest#
- Nach einem Tuning – prüfen, ob die Änderung die Ausgabe verbessert hat, bevor du sie übernimmst
- Modelländerungen bewerten – gleiche Konfiguration, anderes primäres Modell
- Glossareinfluss testen – mit und ohne neue Begriffe
- Engines für unterschiedliche Anwendungsfälle vergleichen – Marketing- vs. technische Inhalte
Beispielvergleiche#
Vor und nach einem Tuning#
"Lokalisiere 'Welcome to your new workspace' über Engine A und Engine B ins Deutsche"
Zeigt, ob der Glossareintrag für "Workspace" in der aktualisierten Engine erhalten bleibt.
Modellbewertung#
"Ich habe das japanische Modell von GPT-4.1 auf Claude Sonnet umgestellt. Vergleiche die Ausgaben für diese 10 UI-Strings."
Der direkte Vergleich zeigt, welches Modell in deiner spezifischen Domäne besser mit kurzen UI-Strings bzw. längeren Beschreibungen zurechtkommt.
Glossartiefe testen#
"Vergleiche die Engine mit unserem vollständigen Glossar mit 200 Begriffen mit einer neuen Engine ohne Glossar anhand dieser juristischen Strings"
Macht messbar, wie stark das Glossar bei einer bestimmten Inhaltsart zur Ausgabequalität beiträgt.
