AI 审核

AI 审核是用于评估本地化引擎产出翻译的自动化质检。每次翻译请求完成后，Lingo.dev 都会运行独立的 LLM 评估，对输出进行校验——检查术语表合规性、指令遵循情况，以及你自定义的任意评估标准。审核以异步方式运行，绝不会阻塞翻译响应。

工作原理#

当本地化引擎完成一次翻译请求后，系统会将适用的审核加入队列，异步执行评估。每项审核都会调用一个独立的 LLM，接收源文本、译文、上下文和评估标准，并返回结构化结果——通过/失败或百分比分数——如果结果不理想，还会附带原因说明。

引擎的 Reviews 标签页用于控制该引擎运行哪些审核。共分为三类：

类别	检查内容	结果类型	配置方式
术语表条目 AI 审核	检查翻译是否遵循该引擎的 glossary 规则	通过 / 失败	每个引擎单独内置开关
指令 AI 审核	检查翻译是否遵循该引擎的每一条 instructions	按每条指令分别给出通过 / 失败	每个引擎单独内置开关
自定义 AI 审核器	由你自行定义、在组织级配置的评估标准	通过 / 失败或 0–100%	从组织级审核器中按引擎选择

内置 AI 审核#

每个本地化引擎都内置两种审核类型，用于根据该引擎自身配置校验翻译。你可以在引擎的 Reviews 标签页中启用或禁用它们。

术语表条目 AI 审核#

检查译文是否遵循了所有适用的术语表规则。如果引擎配置了自定义翻译（例如“Deploy”→“Bereitstellen”）或不可翻译术语（例如“OAuth”），审核会验证译文是否遵守这些规则。

该审核会考虑语法变化——某个术语在某一语法格上的术语表规则，会适用于该术语的所有形式。如果存在互相冲突的术语表规则，只要译文遵循了其中任意一条，就会被视为合规。

结果会针对整个翻译请求给出单一的通过/失败结论；若结果为失败，还会附带原因说明。

指令 AI 审核#

系统会对每条指令分别独立评估。如果引擎有三条指令，审核就会生成三个单独的通过/失败结论——若结果为失败，每条都会附带各自的原因说明。

当某条指令的评估标准不适用于当前翻译内容时，该指令可以返回 N/A。比如，一条关于正式称谓的指令，在翻译内容仅包含产品名或技术术语、正式程度无关紧要时，就会返回 N/A。N/A 结果不会计入汇总分数。

这两种内置审核只有在引擎具备相关配置时才会触发——例如，如果没有任何术语表条目匹配该语言区域对，就不会运行术语表条目 AI 审核。

按引擎配置审核#

打开引擎的 Reviews 标签页，即可控制该引擎运行哪些审核。该标签页包含两个部分：

顶部的内置开关用于控制术语表条目 AI 审核和指令 AI 审核。两者彼此独立——你可以只启用其中一个，而不启用另一个，具体取决于该引擎配置了什么。

开关下方的自定义 AI 审核器会列出组织级定义的所有 AI 审核器。你可以针对该引擎逐个开启或关闭。这让你可以维护一套共享的质量检查库，并按需灵活应用。

单个引擎可以同时运行内置审核和多个自定义 AI 审核器。所有审核都会在每次翻译请求后异步运行，结果会显示在翻译日志和 Reports 中。

AI 审核器类型#

布尔型 AI 审核器#

返回二元结论：通过或失败。适用于非此即彼的规则。

示例：

“译文是否保留了所有 HTML 标签和属性？”
“是否已针对目标语言正确应用复数规则？”
“德语译文是否使用了正式称谓（Sie）？”

结果会按通过率汇总——75% 表示 4 条已评估翻译中有 3 条通过。

百分比型 AI 审核器#

返回 0 到 100 的分数。适用于存在连续区间的质量维度。

示例：

“请从母语者视角为译文的自然度评分（0–100）”
“请评估译文对原文语气与意图的保留程度（0–100）”
“请按 0–100 的范围评估语法正确性”

结果会在评估周期内按平均值汇总。

AI 审核器配置#

字段	说明
名称	用于标识 AI 审核器的名称（例如“复数检查”）
指令	用自然语言编写的评估标准
类型	`boolean`（通过/失败）或 `percentage`（0–100）
源语言区域	要匹配的源语言区域，或 `*` 表示任意
目标语言区域	要匹配的目标语言区域，或 `*` 表示任意
提供商 / 模型	用于评估的 LLM（独立于翻译模型）
采样	要进行评估的请求占比（0–100%）
允许 N/A	AI 审核器是否可以针对不相关的语言对返回“not applicable”
已启用	无需删除配置即可开启或关闭审核

编写 AI 审核器指令#

指令字段是 AI 审核器的核心。它会明确告诉评估 LLM 需要检查什么。请将它写成具体、可验证的标准。

好的指令#

布尔型：

text

Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.

百分比型：

text

Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.

什么样的指令才算好#

标准具体——明确定义通过/失败的含义，或说明 0 和 100 分别代表什么
结果可观察——LLM 应该能通过阅读文本完成评估，而不是猜测意图
每个 AI 审核器只关注一个问题——将多维度质量检查拆分为多个独立的 AI 审核器

语言区域匹配#

AI 审核器会根据源语言区域和目标语言区域匹配翻译请求。通配符 * 可匹配任意语言区域。

源语言区域	目标语言区域	匹配范围
`en`	`de`	仅英语 → 德语翻译
`en`	`*`	任何从英语出发的翻译
`*`	`ja`	任何译入日语的翻译
`*`	`*`	所有翻译

如果有多个 AI 审核器都匹配某个语言区域对，那么一次翻译请求可以同时触发多个 AI 审核器。

采样#

并不是每条翻译都需要审核。采样率用于控制有多少比例的匹配请求会被评估。

采样	行为
100%	每个匹配请求都会被审核（覆盖最全面，但成本更高）
50%	大约一半的匹配请求会被审核
10%	每十条抽检一条——适合高吞吐量引擎，此时趋势比单次分数更重要
0%	AI 审核器会被实际暂停，但无需禁用

采样会在请求到达时通过随机检查来应用。随着请求量增大，实际评估率会逐步收敛到配置的百分比。

N/A 支持#

当启用 allowsNA 时，审核 LLM 可以返回“not applicable”而不是分数。这对于评估标准并不适用于每个语言对的 AI 审核器尤其有用。

**示例：**检查正式称谓惯例的 AI 审核器，会对英语 → 英语翻译返回 N/A（因为英语没有正式/非正式之分），但会对英语 → 德语返回分数。

在报告中，N/A 结果不会计入平均分和通过率——既不会拉低分数，也不会虚增结果。

原因说明#

AI 审核器会为不完美的结果提供原因说明，帮助你快速理解问题出在哪里：

满分（通过或 100%）——原因说明为 null（无需解释）
N/A——原因说明为 null
非完美结果——一句简短说明

这样能让审核结果真正可执行：当翻译未通过某项检查时，原因说明会直接告诉你问题所在，无需再人工排查。

审核模型#

每个 AI 审核器都有自己独立的 LLM 提供商和模型配置，与翻译模型彼此独立。这种分离是有意设计的——生成翻译的模型，不应与评估翻译的模型是同一个。

模型独立性

审核使用与翻译不同的模型，才能提供真正独立的评估。如果由 GPT-4o 生成译文，再用 Claude Sonnet 进行评估，你得到的是第二视角，而不是模型自评。

AI 审核器报告#

审核结果会在仪表板的 AI 审核器报告板块中可视化展示，包括：

通过率随时间变化——针对布尔型 AI 审核器，以每日百分比展示
平均分随时间变化——针对百分比型 AI 审核器，以每日平均分展示
按语言对细分——查看每个源语言 → 目标语言对各自的表现
汇总视图——将所有语言对合并为一条趋势线

AI 审核器报告与侧重量级的 Reports 相辅相成——两者结合，能让你同时看清吞吐量与质量。

通过 MCP 管理 AI 审核器#

如果你使用 Lingo.dev MCP server，你的 AI 编程助手就可以直接创建并配置 AI 审核器：

text

"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations."

text

"Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."

后续步骤#

Reports

监控翻译量、token 使用情况和语言区域覆盖率

LLM Models

配置 AI 审核器要评估的翻译模型

术语表

设置术语，供术语表合规性 AI 审核器进行检查

API Reference

将本地化 API 集成到你的工作流中

工作原理#

引擎的 Reviews 标签页用于控制该引擎运行哪些审核。共分为三类：

类别	检查内容	结果类型	配置方式
术语表条目 AI 审核	检查翻译是否遵循该引擎的 glossary 规则	通过 / 失败	每个引擎单独内置开关
指令 AI 审核	检查翻译是否遵循该引擎的每一条 instructions	按每条指令分别给出通过 / 失败	每个引擎单独内置开关
自定义 AI 审核器	由你自行定义、在组织级配置的评估标准	通过 / 失败或 0–100%	从组织级审核器中按引擎选择

“译文是否保留了所有 HTML 标签和属性？”
“是否已针对目标语言正确应用复数规则？”
“德语译文是否使用了正式称谓（Sie）？”

结果会按通过率汇总——75% 表示 4 条已评估翻译中有 3 条通过。

百分比型 AI 审核器#

返回 0 到 100 的分数。适用于存在连续区间的质量维度。

示例：

“请从母语者视角为译文的自然度评分（0–100）”
“请评估译文对原文语气与意图的保留程度（0–100）”
“请按 0–100 的范围评估语法正确性”

结果会在评估周期内按平均值汇总。

AI 审核器配置#

字段	说明
名称	用于标识 AI 审核器的名称（例如“复数检查”）
指令	用自然语言编写的评估标准
类型	`boolean`（通过/失败）或 `percentage`（0–100）
源语言区域	要匹配的源语言区域，或 `*` 表示任意
目标语言区域	要匹配的目标语言区域，或 `*` 表示任意
提供商 / 模型	用于评估的 LLM（独立于翻译模型）
采样	要进行评估的请求占比（0–100%）
允许 N/A	AI 审核器是否可以针对不相关的语言对返回“not applicable”
已启用	无需删除配置即可开启或关闭审核

编写 AI 审核器指令#

指令字段是 AI 审核器的核心。它会明确告诉评估 LLM 需要检查什么。请将它写成具体、可验证的标准。

好的指令#

布尔型：

text

Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.

百分比型：

text

Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.

什么样的指令才算好#

标准具体——明确定义通过/失败的含义，或说明 0 和 100 分别代表什么
结果可观察——LLM 应该能通过阅读文本完成评估，而不是猜测意图
每个 AI 审核器只关注一个问题——将多维度质量检查拆分为多个独立的 AI 审核器

语言区域匹配#

AI 审核器会根据源语言区域和目标语言区域匹配翻译请求。通配符 * 可匹配任意语言区域。

源语言区域	目标语言区域	匹配范围
`en`	`de`	仅英语 → 德语翻译
`en`	`*`	任何从英语出发的翻译
`*`	`ja`	任何译入日语的翻译
`*`	`*`	所有翻译

如果有多个 AI 审核器都匹配某个语言区域对，那么一次翻译请求可以同时触发多个 AI 审核器。

采样#

并不是每条翻译都需要审核。采样率用于控制有多少比例的匹配请求会被评估。

采样	行为
100%	每个匹配请求都会被审核（覆盖最全面，但成本更高）
50%	大约一半的匹配请求会被审核
10%	每十条抽检一条——适合高吞吐量引擎，此时趋势比单次分数更重要
0%	AI 审核器会被实际暂停，但无需禁用

采样会在请求到达时通过随机检查来应用。随着请求量增大，实际评估率会逐步收敛到配置的百分比。

N/A 支持#

当启用 allowsNA 时，审核 LLM 可以返回“not applicable”而不是分数。这对于评估标准并不适用于每个语言对的 AI 审核器尤其有用。

**示例：**检查正式称谓惯例的 AI 审核器，会对英语 → 英语翻译返回 N/A（因为英语没有正式/非正式之分），但会对英语 → 德语返回分数。

在报告中，N/A 结果不会计入平均分和通过率——既不会拉低分数，也不会虚增结果。

原因说明#

AI 审核器会为不完美的结果提供原因说明，帮助你快速理解问题出在哪里：

满分（通过或 100%）——原因说明为 null（无需解释）
N/A——原因说明为 null
非完美结果——一句简短说明

这样能让审核结果真正可执行：当翻译未通过某项检查时，原因说明会直接告诉你问题所在，无需再人工排查。

审核模型#

模型独立性

审核使用与翻译不同的模型，才能提供真正独立的评估。如果由 GPT-4o 生成译文，再用 Claude Sonnet 进行评估，你得到的是第二视角，而不是模型自评。

AI 审核器报告#

审核结果会在仪表板的 AI 审核器报告板块中可视化展示，包括：

通过率随时间变化——针对布尔型 AI 审核器，以每日百分比展示
平均分随时间变化——针对百分比型 AI 审核器，以每日平均分展示
按语言对细分——查看每个源语言 → 目标语言对各自的表现
汇总视图——将所有语言对合并为一条趋势线

AI 审核器报告与侧重量级的 Reports 相辅相成——两者结合，能让你同时看清吞吐量与质量。

通过 MCP 管理 AI 审核器#

如果你使用 Lingo.dev MCP server，你的 AI 编程助手就可以直接创建并配置 AI 审核器：

text

"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations."

text

"Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."

后续步骤#

Reports

监控翻译量、token 使用情况和语言区域覆盖率

LLM Models

配置 AI 审核器要评估的翻译模型

术语表

设置术语，供术语表合规性 AI 审核器进行检查

API Reference

将本地化 API 集成到你的工作流中