ローカライゼーション結果が期待どおりでないとき、MCP サーバーが AI アシスタントに可観測性スタック全体へのアクセスを提供します。リクエストログ、スコアラーの判定、用語集のマッチレポート、指示のレビュー結果を確認しながら、会話を離れずに品質をデバッグできます。
リクエストログ#
ローカライゼーションリクエストごとに、実行コンテキスト全体を含むログエントリが生成されます。どのモデルが処理したか、入力 / 出力トークン数、所要時間、フォールバックが発動したかどうか、完全な入出力データまで記録されます。
「ドイツ語エンジンの最新のリクエストログを見せて」
アシスタントはログを取得し、続けてこんな質問にも答えられます。「フォールバックモデルは使われた?」「トークンはどれくらい消費した?」「生の出力は?」
ログに含まれる項目#
| 項目 | わかること |
|---|---|
| プロバイダー / モデル | どの LLM がリクエストを処理したか |
| 入力 / 出力データ | 送信された正確な入力と、返ってきたローカライゼーション |
| 入力 / 出力トークン | トークン消費量 |
| 所要時間 | ミリ秒単位の処理時間 |
| フォールバック使用 | プライマリモデルが失敗し、フォールバックが使われたかどうか |
| ステータス | success、error、または in_progress |
| エラーテキスト | ステータスが error の場合のエラー詳細 |
| トリガー種別 | リクエストが API、CLI、CI、playground、または integration のどこから来たか |
AI評価者の判定#
各リクエストログには、スコアラー実行ログへのリンクがあります。これは、ローカライゼーション生成後に実行された独立した AI評価者 の評価ログです。
「最新のドイツ語ローカライゼーションは、すべてのスコアラーを通過した?」
アシスタントは特定のリクエストに紐づくスコアラー実行ログを取得し、各スコアラーの判定を報告します。pass/fail(ブール型スコアラー)またはパーセンテージスコアに加えて、評価者が出した理由も確認できます。
スコアラー実行ログの項目#
| 項目 | わかること |
|---|---|
| スコアラー名 | どの AI評価者 が実行されたか |
| スコアラー種別 | boolean(pass/fail)または percentage(0-100) |
| スコア結果 | 判定とその理由 |
| プロバイダー / モデル | どのモデルがレビューを実行したか |
| 所要時間 | レビューにかかった時間 |
用語集への準拠#
「そのローカライゼーションで、用語集の用語はすべて正しく適用されていた?」
アシスタントは対象リクエストの用語集レビュー ログを取得し、マッチした各用語集用語、それが適用されたかどうか、適用されなかった場合はその理由を表示します。
レポートに含まれる内容:
- マッチした各ソース用語
- 期待されるターゲットローカライゼーション
- その用語がカスタムローカライゼーションか、非翻訳対象か
- 用語ごとの適用 / 未適用
- 用語が適用されなかった場合の理由
- 全体の準拠率
指示への準拠#
「フランス語ローカライゼーションは、ノーブレークスペースの指示に従っていた?」
アシスタントは指示レビュー ログを取得します。これは、ローカライゼーション出力に対して評価された各指示ごとに 1 件ずつあるログです。各エントリには、指示名、ルール本文、理由付きの pass/fail 判定が表示されます。
デバッグのワークフロー#
典型的な事後検証の会話例:
- 「『checkout flow』のドイツ語ローカライゼーションがおかしい」
- 「そのリクエストログを見せて」— 何が入力され、何が出力されたかを確認
- 「用語集は適用された?」— 'checkout' がマッチして保持されたかを確認
- 「スコアラーは何と言っていた?」— AI評価者 のいずれかが問題を指摘していないか確認
- 「用語集の用語がマッチしていなかった。'checkout flow' にも対応するよう更新しよう」— 根本原因を修正
この一連の流れはすべて、ダッシュボードを開かずに 1 つの会話の中で完結します。
