Lingo.dev v1.0
每个本地化团队都对这种情况不陌生:不了解产品的译者会用错品牌术语;LLM 封装工具在请求之间毫无记忆;几个版本下来,术语就开始漂移——却没人发现,因为整体质量分数显示 0.95,大家也就继续往前走了。
我们把这个差距量化了。在推理阶段注入术语表上下文,可将术语错误降低 17-45%,这一结论覆盖五家 LLM 提供商和五种欧洲语言。我们称之为检索增强本地化(RAL)。LLM 已经跨过了生产级翻译的质量门槛——但前提是要有正确的上下文管道。没有它,每一次彼此割裂的请求,都会成为术语漂移的新起点。在为 Mistral、Solana、SoSafe 和 Cal.com 等客户提供本地化基础设施、累计翻译超过 2 亿词之后,我们围绕这一理念构建了 v1.0。
本地化引擎#
本地化引擎是 Lingo.dev 上的一种有状态翻译 API——也是 RAL 的一种实现方式,它会在每一次请求之间持续保留领域上下文。一次配置,随处调用:
- 模型——从 OpenRouter 目录中任选模型。你可以按语言区域为模型排序,并设置回退链:当主模型不可用时,引擎会自动切换到下一个模型,而不会丢掉请求。
- 术语表——按语言对将源术语映射为目标译法。引擎会在每次请求中注入匹配术语。当 Cal.com 的引擎遇到 “Workspace” 时,术语表会在 LLM 生成第一个 token 之前先完成解析——无需培训译者。
- 品牌语气——按语言区域定义语气和文体。德语法律内容用正式风格,日语营销内容更偏口语化,英语文档则采用技术风格。
- 指令——针对特定模式设置按语言区域区分的规则:法语省音规则、葡萄牙语拼写规范、德语引号样式、意大利语对英语外来词的偏好。
这个引擎是有状态的。每一条术语表、每一条品牌语气规则、每一项指令,都会在请求之间持续保留。新引擎的第一次翻译几乎没有上下文可用;而第一千次翻译,则能继承团队从第一天起配置的全部内容。在基于 diff 的 CI/CD 工作流中,每次构建只会重新翻译发生变更的部分。引擎的有状态特性,正是防止术语漂移的关键——而这种漂移恰恰同时困扰着人工译者和无状态的 LLM 封装工具。
在配置正式上线前,先在 playground 里测试。试一条字符串,对比不同语言区域的结果,确认没问题后再推到生产环境。
调用方式#
三种集成路径。同一个引擎,同一套上下文,同样的质量:
CLI——指向你的代码仓库,一条命令即可翻译所有已配置的语言区域:
npx lingo.dev@latest runCI/CD——GitHub 集成会在每次 push 后自动创建一个包含译文字符串的 pull request。直接在 diff 中审阅翻译,确认无误后再合并。无需交接,也无需等待外部团队。
API——直接从后端代码调用引擎:
curl -X POST https://api.lingo.dev/process/localize \
-H "X-API-Key: $LINGO_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"engineId": "eng_abc123",
"sourceLocale": "en",
"targetLocale": "es",
"data": {
"welcome": "Welcome to the future of payments",
"cta": "Get started"
}
}'每一次请求都会被记录:使用了哪个模型、消耗了多少 token、是否触发回退、应用了哪些术语表条目、匹配了哪些指令。reports dashboard 会展示词量、token 消耗、主要语言区域、术语表覆盖率和变更率——让你准确看到哪些术语正在被强制执行,以及哪些地方仍存在覆盖缺口。
模型自由#
术语一致性,不应取决于你碰巧用了哪家 LLM 供应商。RAL 将一致性层——术语表、品牌语气、指令——与执行翻译的模型解耦。增强上下文能够引导任何模型输出符合领域要求的结果。即便你在两个版本之间把 GPT-5.4 换成 Claude Opus,也不需要重新配置任何术语表条目。
这种分离也消除了供应商锁定。封闭模型的翻译 API 会把术语表、风格规则和术语体系绑死在单一供应商上。模型表现退化时,你只能提工单;别家供应商出现更好的模型,你也无从使用。在 Lingo.dev 上,模型只是一个配置参数——无论底层跑的是哪个模型,一致性层都能持续保留。
当我们 在《欧盟人工智能法案》上测试五家提供商时,搭配 72 个术语条目的 Mistral(MQM 0.940,其中 1.0 代表零错误)已经接近 Google 的原始质量(0.938)。而成本差距却有一个数量级。术语表构建得越好,对模型“智能”的依赖就越低。随着术语表不断成熟,平台还会提示你何时可以改用更便宜的模型,同时维持相同的质量门槛。
质量评分#
解决术语漂移,只完成了一半。另一半问题在于:标准质量指标甚至看不见它。我们的 研究发现,整体式翻译质量评分——也就是基准测试和排行榜常用的那类指标——对原始翻译和术语表增强翻译给出了相同分数;而按维度评分却统计出术语错误减少了 17-45%。RAL 所弥合的差距,恰恰是行业用来衡量翻译质量的主流指标所无法捕捉的。
无法衡量的问题,就无法解决。Lingo.dev v1.0 内置 AI Reviewers——自动化质量检查工具,它按维度而不是用单一整体分数来评估每条翻译。你可以用自然语言定义标准:比如“是否保留了所有 HTML 标签?”或“以母语者标准评价自然度”。随后由一个独立的 LLM 来评估输出——如果翻译由 GPT-5.4 完成,就由 Claude Sonnet 来打分,从而避免自评偏差。
跨模型、按维度的评估,能够捕捉整体评分遗漏的问题:幻觉术语、语体偏移、占位符损坏,以及在多个版本中悄然累积的术语漂移。
这意味着什么#
如果你已经在使用 Lingo.dev——CLI、CI/CD 和 MCP 工具都将照常工作。v1.0 新增了引擎配置能力:模型选择、回退链、品牌语气、术语表和质量评分。全部按语言区域配置,全部在 dashboard 中完成,零迁移成本。
如果你刚接触 Lingo.dev——创建一个免费的开发者账户,即可获得一个预配置好的本地化引擎。借助 CLI,4 分钟内完成首次构建翻译;或者通过 API 集成。
你的下一个版本,将以一致的术语覆盖所有语言区域。你在第一周建立的术语表,会在所有语言、所有构建中持续执行每一个品牌术语——配置成本是一次性前置投入,而不是在每次翻译中重复放大。当开发者改动一个段落时,CI 流水线只会重新翻译那一个段落——同一个引擎,同一个术语表,同一个质量门槛。翻译不再是交接环节,而是构建流程中的一步。
Lingo.dev v1.0 专为那些需要让本地化像基础设施一样运转的工程团队、本地化经理和产品负责人打造。如果你的团队更倾向于通过多轮人工审核来协调人工译者,那么传统本地化平台或许会更合适。
立即 创建一个免费的开发者账户 开始使用,或 预约演示。
RAL 之于本地化,正如 RAG 之于生成。Lingo.dev v1.0,就是运行它的地方。

