当你从旧的本地化供应商或 TMS 迁移出来时,手里往往已经有术语表、术语库或翻译记忆导出文件,通常是 TMX、CSV 或 TBX 格式。你的 AI 助手可以解析这些文件,并直接写入本地化引擎的配置中。
工作流程#
“这是我们导出的术语表(CSV)。请把它导入到我们引擎里所有语言区域的术语表中。”
处理流程如下:
- 助手会读取 CSV 结构——识别源术语、目标译法、语言区域和术语类型等列
- 将每一行映射为一条术语表条目:源文本、目标文本、语言区域对,以及它属于自定义译法还是不可翻译术语
- 展示导入计划:“在 6 个语言区域中发现 147 个术语。12 个标记为禁止翻译,135 个为强制译法。”
- 经你确认后,通过 MCP 创建所有术语表条目
- 返回结果:“已创建 147 条术语表条目,跳过 3 条重复项。”
支持的格式#
| 格式 | 包含内容 | 如何提供 |
|---|---|---|
| CSV / TSV | 术语库、术语表、简单双语列表 | 直接粘贴内容,或说明文件结构 |
| TMX | 翻译记忆——带元数据的源/目标分段对 | 粘贴一段有代表性的样本,或说明其结构 |
| TBX | 术语数据库——带定义的结构化术语条目 | 粘贴内容,或说明其 schema |
| Excel 导出 | 供应商专用的术语表或风格指南导出 | 说明各列含义,并粘贴几行有代表性的数据 |
分步说明:导入 TMX#
旧供应商导出的 TMX 文件中包含成对的分段,可用来初始化术语表条目和指令。
“这是我们上一家供应商导出的 TMX 文件,包含 500 个 en → de 翻译单元。请提取其中反复出现的术语,作为术语表条目。”
处理流程如下:
- 助手会解析 TMX 结构——识别源分段、目标分段和语言区域对
- 归类反复出现的术语——也就是以一致译法出现 3 次以上的词或短语
- 为译法稳定的术语建议创建术语表条目:“‘privacy policy’ → ‘Datenschutzerklärung’(出现 12 次,且始终采用这一译法)”
- 识别应转为指令的模式:“在这份语料中,复合名词始终使用连字符——要将其添加为
de的指令吗?” - 展示完整计划供你审核
- 经批准后执行
分步说明:导入 CSV 术语表#
大多数旧本地化平台都会将术语表导出为 CSV,其中包含 source、target、locale 和 notes 等列。
“请把这个 CSV 导入到我们的引擎中。列包括:source_term、target_term、locale、type(localize/do-not-translate)、notes。”
处理流程如下:
- 助手会读取列映射关系
- 创建术语表条目:
localize行会变成自定义译法,do-not-translate行会变成不可翻译条目 - 备注中如果描述的是规则而不只是定义,这些条目会被标记为潜在指令:“‘date format’ 的备注写着 ‘Always use DD.MM.YYYY in German’——要将其添加为
de的指令吗?” - 展示计划,经你确认后执行
哪些该导入,哪些该舍弃#
| 作为术语表导入 | 作为指令导入 | 跳过 |
|---|---|---|
| 品牌名称(不可翻译) | 格式规则(日期、数字、货币) | 低于 95% 的模糊 TM 匹配 |
| 产品术语(强制译法) | 标点规范 | 依赖上下文的分段对 |
| 法律术语(强制译法) | 语气/正式程度规则 | 不属于术语的一次性译法 |
| 有指定译法的 UI 标签 | 大小写规则 | 超过 2-3 句的分段 |
导入之后#
大规模导入建议#
- 先从高频术语开始。 一份包含 5,000 条的 TM 导出文件不是术语表——它是语料库。让助手只提取出现 3 次以上的术语。
- 按语言区域分批导入。 审核 50 个德语术语,比审核分布在 10 个语言区域中的 500 个术语更轻松。
- 用好备注列。 如果导出文件里有译者备注,助手可以把其中的模式提炼成指令。
- 不要把句子级 TM 当作术语表导入。 术语表条目应是术语和短语。完整句子应放在参考资料中,而不是术语表里。
