ローカライゼーション品質をデバッグ

ローカライゼーション結果が期待どおりでないとき、MCP サーバーが AI アシスタントに可観測性スタック全体へのアクセスを提供します。リクエストログ、スコアラーの判定、用語集のマッチレポート、指示のレビュー結果を確認しながら、会話を離れずに品質をデバッグできます。

リクエストログ#

ローカライゼーションリクエストごとに、実行コンテキスト全体を含むログエントリが生成されます。どのモデルが処理したか、入力 / 出力トークン数、所要時間、フォールバックが発動したかどうか、完全な入出力データまで記録されます。

「ドイツ語エンジンの最新のリクエストログを見せて」

アシスタントはログを取得し、続けてこんな質問にも答えられます。「フォールバックモデルは使われた？」「トークンはどれくらい消費した？」「生の出力は？」

項目	わかること
プロバイダー / モデル	どの LLM がリクエストを処理したか
入力 / 出力データ	送信された正確な入力と、返ってきたローカライゼーション
入力 / 出力トークン	トークン消費量
所要時間	ミリ秒単位の処理時間
フォールバック使用	プライマリモデルが失敗し、フォールバックが使われたかどうか
ステータス	`success`、`error`、または `in_progress`
エラーテキスト	ステータスが `error` の場合のエラー詳細
トリガー種別	リクエストが API、CLI、CI、playground、または integration のどこから来たか

各リクエストログには、スコアラー実行ログへのリンクがあります。これは、ローカライゼーション生成後に実行された独立した AI評価者の評価ログです。

「最新のドイツ語ローカライゼーションは、すべてのスコアラーを通過した？」

アシスタントは特定のリクエストに紐づくスコアラー実行ログを取得し、各スコアラーの判定を報告します。pass/fail（ブール型スコアラー）またはパーセンテージスコアに加えて、評価者が出した理由も確認できます。

項目	わかること
スコアラー名	どの AI評価者が実行されたか
スコアラー種別	`boolean`（pass/fail）または `percentage`（0-100）
スコア結果	判定とその理由
プロバイダー / モデル	どのモデルがレビューを実行したか
所要時間	レビューにかかった時間

「そのローカライゼーションで、用語集の用語はすべて正しく適用されていた？」

アシスタントは対象リクエストの用語集レビューログを取得し、マッチした各用語集用語、それが適用されたかどうか、適用されなかった場合はその理由を表示します。

レポートに含まれる内容:

「フランス語ローカライゼーションは、ノーブレークスペースの指示に従っていた？」

アシスタントは指示レビューログを取得します。これは、ローカライゼーション出力に対して評価された各指示ごとに 1 件ずつあるログです。各エントリには、指示名、ルール本文、理由付きの pass/fail 判定が表示されます。

典型的な事後検証の会話例:

この一連の流れはすべて、ダッシュボードを開かずに 1 つの会話の中で完結します。