当本地化结果出问题时,MCP 服务器会让你的 AI 助手接入完整的可观测性体系——请求日志、评分器结论、术语表匹配报告和指令审查结果。无需离开当前对话,就能定位质量问题。
请求日志#
每一次本地化请求都会生成一条日志,记录完整的执行上下文:由哪个模型处理、输入和输出 token 数、耗时、是否触发回退,以及完整的输入/输出数据。
“给我看一下德语引擎最近一次的请求日志”
助手会调取这条日志,并回答后续问题:“它有没有使用回退模型?”“消耗了多少 token?”“原始输出是什么?”
每条日志包含什么#
| 字段 | 说明 |
|---|---|
| 提供方 / 模型 | 处理该请求的是哪个 LLM |
| 输入 / 输出数据 | 发送的准确输入,以及返回的本地化结果 |
| 输入 / 输出 token | Token 消耗量 |
| 耗时 | 以毫秒计的处理时长 |
| 是否使用回退 | 主模型是否失败,以及是否启用了回退 |
| 状态 | success、error 或 in_progress |
| 错误文本 | 当状态为 error 时的错误详情 |
| 触发类型 | 请求来自 API、CLI、CI、playground 还是集成 |
AI Reviewer 评审结论#
每条请求日志都会关联评分器运行日志——也就是本地化结果生成后运行的独立 AI Reviewer 评估。
“上一次德语本地化通过了所有评分器吗?”
助手会调取指定请求的评分器运行日志,并汇报每个评分器的结论:通过/未通过(布尔型评分器)或百分比分数,以及评审器给出的推理说明。
评分器运行日志字段#
| 字段 | 说明 |
|---|---|
| 评分器名称 | 运行的是哪个 AI Reviewer |
| 评分器类型 | boolean(通过/未通过)或 percentage(0-100) |
| 评分结果 | 结论及其推理说明 |
| 提供方 / 模型 | 执行评审的是哪个模型 |
| 耗时 | 评审用了多久 |
术语表合规情况#
“这次本地化里,所有术语表术语都正确应用了吗?”
助手会调取某个请求的术语表审查日志,展示每个匹配到的术语表术语、是否已应用,以及未应用时的原因说明。
报告包括:
- 每个匹配到的源术语
- 预期的目标语言本地化
- 该术语是自定义本地化术语还是不可翻译术语
- 每个术语是否已应用
- 术语未应用时的原因说明
- 整体合规率
指令遵循情况#
“法语本地化遵循了不间断空格这条指令吗?”
助手会调取指令审查日志——每条日志对应一条根据本地化输出进行评估的指令。每条日志都会显示指令名称、规则文本,以及附带原因说明的通过/未通过结论。
调试工作流#
一次典型的事后排查对话:
- “‘checkout flow’ 的德语本地化看起来不太对”
- “给我看一下它的请求日志”——看看输入了什么、输出了什么
- “术语表生效了吗?”——检查 ‘checkout’ 是否被匹配并保留
- “评分器怎么说?”——看看是否有 AI Reviewer 标出问题
- “术语表术语没有匹配到——把它更新成也能覆盖 ‘checkout flow’”——修复根因
整个闭环都能在一次对话中完成,无需打开仪表盘。
