让同一份内容分别通过两种引擎配置,先评估变更效果,再决定是否采用。
工作流程#
“针对这 5 条日语字符串,对比我们的生产引擎和预发布引擎”
流程如下:
- 助手会分别调用两个引擎对内容进行本地化
- 以并排表格呈现结果
- 高亮差异:“预发布引擎对 ‘onboarding’ 采用了新的术语表译法(オンボーディング),而生产引擎仍使用描述性译法(导入手续)”
适用场景#
- 调优后——在推向生产环境前,先确认输出质量是否真的提升
- 评估模型变更——配置相同,仅主模型不同
- 测试术语表影响——对比加入和不加入新术语的效果
- 针对不同用例对比引擎——营销内容 vs. 技术内容
对比示例#
调优前后对比#
“用引擎 A 和引擎 B 将 ‘Welcome to your new workspace’ 本地化为德语”
可用来判断更新后的引擎是否保留了 “workspace” 的术语表词条。
模型评估#
“我把日语模型从 GPT-4.1 切换到了 Claude Sonnet。请对比这 10 条 UI 字符串的输出。”
并排对比能清楚看出:在你的具体领域里,哪个模型更擅长处理简短的 UI 文案,哪个更适合较长描述。
术语表覆盖度测试#
“对比一下:针对这些法律文本,使用我们完整 200 条术语表的引擎,与一个不带术语表的全新引擎各自的输出效果”
量化术语表对特定内容类型输出质量的实际贡献。
