排查本地化质量问题

当本地化结果出问题时，MCP 服务器会让你的 AI 助手接入完整的可观测性体系——请求日志、评分器结论、术语表匹配报告和指令审查结果。无需离开当前对话，就能定位质量问题。

请求日志#

每一次本地化请求都会生成一条日志，记录完整的执行上下文：由哪个模型处理、输入和输出 token 数、耗时、是否触发回退，以及完整的输入/输出数据。

“给我看一下德语引擎最近一次的请求日志”

助手会调取这条日志，并回答后续问题：“它有没有使用回退模型？”“消耗了多少 token？”“原始输出是什么？”

字段	说明
提供方 / 模型	处理该请求的是哪个 LLM
输入 / 输出数据	发送的准确输入，以及返回的本地化结果
输入 / 输出 token	Token 消耗量
耗时	以毫秒计的处理时长
是否使用回退	主模型是否失败，以及是否启用了回退
状态	`success`、`error` 或 `in_progress`
错误文本	当状态为 `error` 时的错误详情
触发类型	请求来自 API、CLI、CI、playground 还是集成

每条请求日志都会关联评分器运行日志——也就是本地化结果生成后运行的独立 AI Reviewer 评估。

“上一次德语本地化通过了所有评分器吗？”

助手会调取指定请求的评分器运行日志，并汇报每个评分器的结论：通过/未通过（布尔型评分器）或百分比分数，以及评审器给出的推理说明。

“这次本地化里，所有术语表术语都正确应用了吗？”

助手会调取某个请求的术语表审查日志，展示每个匹配到的术语表术语、是否已应用，以及未应用时的原因说明。

报告包括：

“法语本地化遵循了不间断空格这条指令吗？”

助手会调取指令审查日志——每条日志对应一条根据本地化输出进行评估的指令。每条日志都会显示指令名称、规则文本，以及附带原因说明的通过/未通过结论。

一次典型的事后排查对话：

整个闭环都能在一次对话中完成，无需打开仪表盘。