Déboguer la qualité des localisations

Lorsqu’une localisation ne donne pas le bon résultat, le serveur MCP donne à votre assistant IA accès à toute la pile d’observabilité : journaux de requêtes, verdicts des scorers, rapports de correspondance du glossaire et résultats de relecture des instructions. Déboguez la qualité sans quitter la conversation.

Journaux de requêtes#

Chaque requête de localisation génère une entrée de journal avec tout le contexte d’exécution : modèle utilisé, tokens d’entrée et de sortie, durée, déclenchement éventuel d’un fallback, ainsi que l’intégralité des données d’entrée et de sortie.

"Montre-moi le dernier journal de requête pour le moteur allemand"

L’assistant récupère le journal et peut répondre aux questions de suivi : "Est-ce qu’il a utilisé le modèle de fallback ?" "Combien de tokens a-t-il consommés ?" "Quelle était la sortie brute ?"

Ce que contient chaque journal#

Champ	Ce qu’il vous indique
Fournisseur / modèle	Quel LLM a traité la requête
Données d’entrée / de sortie	Entrée exacte envoyée et localisation reçue
Tokens d’entrée / de sortie	Consommation de tokens
Durée	Temps de traitement en millisecondes
Fallback utilisé	Si le modèle principal a échoué et qu’un fallback a pris le relais
Statut	`success`, `error` ou `in_progress`
Texte de l’erreur	Détail de l’erreur lorsque le statut est `error`
Type de déclencheur	Si la requête venait de l’API, de la CLI, de la CI, du playground ou d’une intégration

Verdicts de l’évaluateur IA#

Chaque journal de requête renvoie vers les journaux d’exécution des scorers — des évaluations indépendantes de l’évaluateur IA lancées une fois la localisation produite.

"Est-ce que la dernière localisation allemande a passé tous les scorers ?"

L’assistant récupère les journaux d’exécution des scorers pour une requête donnée et restitue le verdict de chaque scorer : réussite/échec (scorers booléens) ou score en pourcentage, avec le raisonnement produit par l’évaluateur.

Champs des journaux d’exécution des scorers#

Champ	Ce qu’il vous indique
Nom du scorer	Quel évaluateur IA a été exécuté
Type de scorer	`boolean` (réussite/échec) ou `percentage` (0-100)
Résultat	Le verdict et le raisonnement
Fournisseur / modèle	Quel modèle a effectué la relecture
Durée	Temps pris par la relecture

Conformité au glossaire#

"Est-ce que tous les termes du glossaire ont été correctement appliqués dans cette localisation ?"

L’assistant récupère le journal de relecture du glossaire pour une requête, avec chaque terme du glossaire détecté, s’il a été appliqué, et le raisonnement lorsqu’il ne l’a pas été.

Le rapport inclut :

Chaque terme source détecté
La localisation cible attendue
Si le terme correspond à une localisation personnalisée ou n’est pas traduisible
Appliqué ou non appliqué pour chaque terme
Le raisonnement lorsqu’un terme n’a pas été appliqué
Le taux global de conformité

Respect des instructions#

"Est-ce que la localisation française a respecté l’instruction sur l’espace insécable ?"

L’assistant récupère les journaux de relecture des instructions — une entrée par instruction évaluée par rapport à la sortie de localisation. Chaque entrée affiche le nom de l’instruction, le texte de la règle et un verdict réussite/échec avec son raisonnement.

Le workflow de débogage#

Exemple de conversation post-mortem :

"La localisation allemande de 'checkout flow' semble incorrecte"
"Montre-moi le journal de requête correspondant" — voir ce qui a été envoyé et ce qui a été généré
"Le glossaire a-t-il été appliqué ?" — vérifier si 'checkout' a été détecté et préservé
"Qu’ont dit les scorers ?" — voir si un évaluateur IA l’a signalé
"Le terme du glossaire n’a pas été détecté — mettez-le à jour pour couvrir aussi 'checkout flow'" — corriger la cause racine

Toute la boucle se déroule dans une seule conversation, sans ouvrir le tableau de bord.