Lorsqu’une localisation ne donne pas le bon résultat, le serveur MCP donne à votre assistant IA accès à toute la pile d’observabilité : journaux de requêtes, verdicts des scorers, rapports de correspondance du glossaire et résultats de relecture des instructions. Déboguez la qualité sans quitter la conversation.
Journaux de requêtes#
Chaque requête de localisation génère une entrée de journal avec tout le contexte d’exécution : modèle utilisé, tokens d’entrée et de sortie, durée, déclenchement éventuel d’un fallback, ainsi que l’intégralité des données d’entrée et de sortie.
"Montre-moi le dernier journal de requête pour le moteur allemand"
L’assistant récupère le journal et peut répondre aux questions de suivi : "Est-ce qu’il a utilisé le modèle de fallback ?" "Combien de tokens a-t-il consommés ?" "Quelle était la sortie brute ?"
Ce que contient chaque journal#
| Champ | Ce qu’il vous indique |
|---|---|
| Fournisseur / modèle | Quel LLM a traité la requête |
| Données d’entrée / de sortie | Entrée exacte envoyée et localisation reçue |
| Tokens d’entrée / de sortie | Consommation de tokens |
| Durée | Temps de traitement en millisecondes |
| Fallback utilisé | Si le modèle principal a échoué et qu’un fallback a pris le relais |
| Statut | success, error ou in_progress |
| Texte de l’erreur | Détail de l’erreur lorsque le statut est error |
| Type de déclencheur | Si la requête venait de l’API, de la CLI, de la CI, du playground ou d’une intégration |
Verdicts de l’évaluateur IA#
Chaque journal de requête renvoie vers les journaux d’exécution des scorers — des évaluations indépendantes de l’évaluateur IA lancées une fois la localisation produite.
"Est-ce que la dernière localisation allemande a passé tous les scorers ?"
L’assistant récupère les journaux d’exécution des scorers pour une requête donnée et restitue le verdict de chaque scorer : réussite/échec (scorers booléens) ou score en pourcentage, avec le raisonnement produit par l’évaluateur.
Champs des journaux d’exécution des scorers#
| Champ | Ce qu’il vous indique |
|---|---|
| Nom du scorer | Quel évaluateur IA a été exécuté |
| Type de scorer | boolean (réussite/échec) ou percentage (0-100) |
| Résultat | Le verdict et le raisonnement |
| Fournisseur / modèle | Quel modèle a effectué la relecture |
| Durée | Temps pris par la relecture |
Conformité au glossaire#
"Est-ce que tous les termes du glossaire ont été correctement appliqués dans cette localisation ?"
L’assistant récupère le journal de relecture du glossaire pour une requête, avec chaque terme du glossaire détecté, s’il a été appliqué, et le raisonnement lorsqu’il ne l’a pas été.
Le rapport inclut :
- Chaque terme source détecté
- La localisation cible attendue
- Si le terme correspond à une localisation personnalisée ou n’est pas traduisible
- Appliqué ou non appliqué pour chaque terme
- Le raisonnement lorsqu’un terme n’a pas été appliqué
- Le taux global de conformité
Respect des instructions#
"Est-ce que la localisation française a respecté l’instruction sur l’espace insécable ?"
L’assistant récupère les journaux de relecture des instructions — une entrée par instruction évaluée par rapport à la sortie de localisation. Chaque entrée affiche le nom de l’instruction, le texte de la règle et un verdict réussite/échec avec son raisonnement.
Le workflow de débogage#
Exemple de conversation post-mortem :
- "La localisation allemande de 'checkout flow' semble incorrecte"
- "Montre-moi le journal de requête correspondant" — voir ce qui a été envoyé et ce qui a été généré
- "Le glossaire a-t-il été appliqué ?" — vérifier si 'checkout' a été détecté et préservé
- "Qu’ont dit les scorers ?" — voir si un évaluateur IA l’a signalé
- "Le terme du glossaire n’a pas été détecté — mettez-le à jour pour couvrir aussi 'checkout flow'" — corriger la cause racine
Toute la boucle se déroule dans une seule conversation, sans ouvrir le tableau de bord.
