Wenn eine Lokalisierung nicht stimmt, gibt der MCP-Server Ihrem KI-Assistenten Zugriff auf den kompletten Observability-Stack – Anfrageprotokolle, Scorer-Urteile, Glossartrefferberichte und Ergebnisse der Anweisungsprüfung. So debuggen Sie Qualität, ohne die Unterhaltung zu verlassen.
Anfrageprotokolle#
Jede Lokalisierungsanfrage erzeugt einen Protokolleintrag mit dem vollständigen Ausführungskontext: welches Modell sie verarbeitet hat, Eingabe- und Ausgabetokens, die Dauer, ob ein Fallback ausgelöst wurde und die vollständigen Ein- und Ausgabedaten.
"Zeig mir das letzte Anfrageprotokoll für die deutsche Engine"
Der Assistent ruft das Protokoll ab und kann Rückfragen beantworten: "Wurde das Fallback-Modell verwendet?" "Wie viele Tokens wurden verbraucht?" "Wie lautete die Rohausgabe?"
Was jedes Protokoll enthält#
| Feld | Was es Ihnen sagt |
|---|---|
| Anbieter / Modell | Welches LLM die Anfrage verarbeitet hat |
| Ein- / Ausgabedaten | Die exakt gesendete Eingabe und die erhaltene Lokalisierung |
| Ein- / Ausgabetokens | Tokenverbrauch |
| Dauer | Verarbeitungszeit in Millisekunden |
| Fallback verwendet | Ob das primäre Modell fehlgeschlagen ist und das Fallback übernommen hat |
| Status | success, error oder in_progress |
| Fehlertext | Fehlerdetails, wenn der Status error ist |
| Triggertyp | Ob die Anfrage über API, CLI, CI, Playground oder eine Integration kam |
KI-Bewerter-Urteile#
Jedes Anfrageprotokoll verweist auf Scorer-Ausführungsprotokolle – die unabhängigen KI-Bewerter-Auswertungen, die nach der Erstellung der Lokalisierung ausgeführt wurden.
"Hat die letzte deutsche Lokalisierung alle Scorer bestanden?"
Der Assistent ruft die Scorer-Ausführungsprotokolle für eine bestimmte Anfrage ab und meldet das Urteil jedes Scorers: bestanden/nicht bestanden (binäre Scorer) oder einen Prozentwert – zusammen mit der Begründung des Bewerters.
Felder im Scorer-Ausführungsprotokoll#
| Feld | Was es Ihnen sagt |
|---|---|
| Scorer-Name | Welcher KI-Bewerter ausgeführt wurde |
| Scorer-Typ | boolean (bestanden/nicht bestanden) oder percentage (0–100) |
| Bewertungsergebnis | Das Urteil und die Begründung |
| Anbieter / Modell | Welches Modell die Prüfung durchgeführt hat |
| Dauer | Wie lange die Prüfung gedauert hat |
Glossarkonformität#
"Wurden alle Glossarbegriffe in dieser Lokalisierung korrekt angewendet?"
Der Assistent ruft das Glossar-Prüfungsprotokoll für eine Anfrage ab und zeigt jeden Glossartreffer, ob er angewendet wurde und – falls nicht – die Begründung.
Der Bericht enthält:
- Jeden abgeglichenen Quellbegriff
- Die erwartete Ziel-Lokalisierung
- Ob der Begriff eine benutzerdefinierte Lokalisierung ist oder nicht übersetzt werden darf
- Ob der Begriff angewendet wurde oder nicht
- Die Begründung, wenn ein Begriff nicht angewendet wurde
- Die gesamte Konformitätsrate
Anweisungsbefolgung#
"Hat die französische Lokalisierung die Anweisung zum geschützten Leerzeichen befolgt?"
Der Assistent ruft Anweisungsprüfungsprotokolle ab – einen Eintrag pro Anweisung, die anhand der Lokalisierungsausgabe ausgewertet wurde. Jeder Eintrag zeigt den Namen der Anweisung, den Regeltext und ein Bestanden/Nicht-bestanden-Urteil mit Begründung.
Der Debugging-Workflow#
Eine typische Post-Mortem-Unterhaltung:
- "Die deutsche Lokalisierung von 'checkout flow' sieht falsch aus"
- "Zeig mir das Anfrageprotokoll dazu" – sehen, was rein- und rausging
- "Wurde das Glossar angewendet?" – prüfen, ob 'checkout' abgeglichen und beibehalten wurde
- "Was haben die Scorer gesagt?" – sehen, ob ein KI-Bewerter es markiert hat
- "Der Glossarbegriff wurde nicht abgeglichen – aktualisiere ihn, damit er auch 'checkout flow' abdeckt" – die Grundursache beheben
Der gesamte Ablauf passiert in einer einzigen Unterhaltung, ohne das Dashboard zu öffnen.
