Qualität von Lokalisierungen debuggen

Wenn eine Lokalisierung nicht stimmt, gibt der MCP-Server Ihrem KI-Assistenten Zugriff auf den kompletten Observability-Stack – Anfrageprotokolle, Scorer-Urteile, Glossartrefferberichte und Ergebnisse der Anweisungsprüfung. So debuggen Sie Qualität, ohne die Unterhaltung zu verlassen.

Anfrageprotokolle#

Jede Lokalisierungsanfrage erzeugt einen Protokolleintrag mit dem vollständigen Ausführungskontext: welches Modell sie verarbeitet hat, Eingabe- und Ausgabetokens, die Dauer, ob ein Fallback ausgelöst wurde und die vollständigen Ein- und Ausgabedaten.

"Zeig mir das letzte Anfrageprotokoll für die deutsche Engine"

Der Assistent ruft das Protokoll ab und kann Rückfragen beantworten: "Wurde das Fallback-Modell verwendet?" "Wie viele Tokens wurden verbraucht?" "Wie lautete die Rohausgabe?"

Was jedes Protokoll enthält#

Feld	Was es Ihnen sagt
Anbieter / Modell	Welches LLM die Anfrage verarbeitet hat
Ein- / Ausgabedaten	Die exakt gesendete Eingabe und die erhaltene Lokalisierung
Ein- / Ausgabetokens	Tokenverbrauch
Dauer	Verarbeitungszeit in Millisekunden
Fallback verwendet	Ob das primäre Modell fehlgeschlagen ist und das Fallback übernommen hat
Status	`success`, `error` oder `in_progress`
Fehlertext	Fehlerdetails, wenn der Status `error` ist
Triggertyp	Ob die Anfrage über API, CLI, CI, Playground oder eine Integration kam

KI-Bewerter-Urteile#

Jedes Anfrageprotokoll verweist auf Scorer-Ausführungsprotokolle – die unabhängigen KI-Bewerter-Auswertungen, die nach der Erstellung der Lokalisierung ausgeführt wurden.

"Hat die letzte deutsche Lokalisierung alle Scorer bestanden?"

Der Assistent ruft die Scorer-Ausführungsprotokolle für eine bestimmte Anfrage ab und meldet das Urteil jedes Scorers: bestanden/nicht bestanden (binäre Scorer) oder einen Prozentwert – zusammen mit der Begründung des Bewerters.

Felder im Scorer-Ausführungsprotokoll#

Feld	Was es Ihnen sagt
Scorer-Name	Welcher KI-Bewerter ausgeführt wurde
Scorer-Typ	`boolean` (bestanden/nicht bestanden) oder `percentage` (0–100)
Bewertungsergebnis	Das Urteil und die Begründung
Anbieter / Modell	Welches Modell die Prüfung durchgeführt hat
Dauer	Wie lange die Prüfung gedauert hat

Glossarkonformität#

"Wurden alle Glossarbegriffe in dieser Lokalisierung korrekt angewendet?"

Der Assistent ruft das Glossar-Prüfungsprotokoll für eine Anfrage ab und zeigt jeden Glossartreffer, ob er angewendet wurde und – falls nicht – die Begründung.

Der Bericht enthält:

Jeden abgeglichenen Quellbegriff
Die erwartete Ziel-Lokalisierung
Ob der Begriff eine benutzerdefinierte Lokalisierung ist oder nicht übersetzt werden darf
Ob der Begriff angewendet wurde oder nicht
Die Begründung, wenn ein Begriff nicht angewendet wurde
Die gesamte Konformitätsrate

Anweisungsbefolgung#

"Hat die französische Lokalisierung die Anweisung zum geschützten Leerzeichen befolgt?"

Der Assistent ruft Anweisungsprüfungsprotokolle ab – einen Eintrag pro Anweisung, die anhand der Lokalisierungsausgabe ausgewertet wurde. Jeder Eintrag zeigt den Namen der Anweisung, den Regeltext und ein Bestanden/Nicht-bestanden-Urteil mit Begründung.

Der Debugging-Workflow#

Eine typische Post-Mortem-Unterhaltung:

"Die deutsche Lokalisierung von 'checkout flow' sieht falsch aus"
"Zeig mir das Anfrageprotokoll dazu" – sehen, was rein- und rausging
"Wurde das Glossar angewendet?" – prüfen, ob 'checkout' abgeglichen und beibehalten wurde
"Was haben die Scorer gesagt?" – sehen, ob ein KI-Bewerter es markiert hat
"Der Glossarbegriff wurde nicht abgeglichen – aktualisiere ihn, damit er auch 'checkout flow' abdeckt" – die Grundursache beheben

Der gesamte Ablauf passiert in einer einzigen Unterhaltung, ohne das Dashboard zu öffnen.