|
文档
预约演示平台
平台MCPCLIAPI
工作流
指南更新日志

欢迎

  • 概览
  • 身份验证
  • 错误与状态码
  • Webhook 签名

本地化

  • 概览
  • 创建任务
  • 锁定不可翻译的键
  • 查看任务组状态
  • 获取单个作业
  • 列出作业
  • Webhook 结果投递
  • 实时进度(WebSocket)

流水线

  • 概览
  • 本地化前 AI 预编辑
  • 人工审核
  • AI 审校(后编辑)
  • 改写成更自然的文案
  • 回译检查
  • 配置 Pipeline
  • 查看流水线运行记录

预配

  • 概览
  • 创建预配作业
  • 来源类型
  • AI 会提取哪些内容
  • Webhook 投递
  • 实时进度(WebSocket)

同步

  • 本地化
  • Recognize

引擎管理

  • Engine Suggestions

来源类型

Provisioning 会读取你现有的材料,并将其转化为引擎配置。最影响结果的一个决定,就是你在请求的 sources 数组里放了什么——因为最终返回的引擎质量,只会和你提供的来源一样好。

每个条目都属于两种类型之一。link 来源是平台替你抓取并爬取的 URL;content 来源则是你直接传入的原始文本或 markdown。两者可以在同一个请求中混合使用,总数最多十个来源。本页会说明这两种类型、平台分别如何处理它们,以及怎样挑选来源,产出真正有用的配置,而不是一个几乎空白的结果。sources 字段本身位于创建请求中——完整 payload 和 202 响应请参见 创建 provisioning 作业。

两种来源类型#

每个来源都是一个对象,包含 type 和 payload。其中 type 决定平台如何读取 payload。

类型内容适合在这种情况下使用
link待爬取的 URL当上下文已经在网上时——比如你的品牌页面、公开文档、已发布的风格指南或术语表页面。
content原始文本或 markdown当上下文只存在于你的脑海里或私有文档中时——比如术语清单、语气规则、产品命名规范,以及翻译时该做和不该做的事项。
json
{
  "sources": [
    { "type": "link", "payload": "https://acme.com/brand-guidelines" },
    { "type": "link", "payload": "https://acme.com/docs/style-guide" },
    {
      "type": "content",
      "payload": "Brand name 'Acme' is never translated. Use formal tone in German (Sie-form). Product names: AcmeFlow, AcmeSync, AcmeVault - always keep in English."
    }
  ]
}

同一个数组里放两个链接和一个内容块。链接指向已经包含所需上下文的页面;内容块则承载那些没有公开写出来的规则。两者都会进入同一个提取步骤。

平台会如何处理这两种来源#

两种类型只在一个环节上不同——如何把文本交到 AI 代理面前——之后流程就一致了。

link 来源会先被抓取并转换成 markdown,再进入分析。平台会并行爬取链接来源,所以十个 URL 并不意味着十次串行往返——而是同时读取,再统一作为文本交给代理。你只需要提供 URL;抓取以及从 HTML 精简为 markdown 的工作由平台完成,这样代理读到的是正文,而不是页面标记。

content 来源则会跳过这一步。你发送的文本会按原样直接传给 AI 代理。没有爬取,没有转换,你的文字和代理之间没有任何中间环节——这也是为什么内容来源是表达已知规则最精确的方式。

从这里开始,两种来源都会变成同一种输入:代理会读取全部内容,并提取品牌语气、术语表条目和指令。它会从这些文本中产出什么,以及返回的摘要包含什么,是另一个话题——请参见 AI 会提取什么。

链接会爬到多深?

link 来源会在代理分析前先被抓取并转换成 markdown。至于爬虫是否会继续跟进你提供的 URL 之外的链接,以及会跟进到多深,这里并没有说明。如果你需要分析一组明确的页面,最稳妥的做法是把每一页分别列成独立的 link 来源,而不是依赖单个 URL 自行扩散。

选择真正有信号的来源#

这一步决定 provisioning 值不值得跑。提取结果的上限就是输入质量,而这里的问题往往很隐蔽:即使来源很弱,作业照样会完成,照样会创建引擎——只是得到的可能是一个几乎空白的引擎。你通常要等到后面发现翻译忽略了那些你以为已经被捕捉到的约定,才会意识到问题。完成通知也会像平常一样送达——参见 Webhook 投递——所以系统不会主动替你标出这个缺口。

提供有价值的来源

提取配置的质量,取决于输入的质量。链接来源应指向包含有效上下文的页面——品牌指南、风格指南、产品文档、术语表。原始内容来源则应包含明确的术语、语气指引或翻译规则。泛泛而谈的营销页面或登录界面,通常提不出多少有用配置。

这个提示背后的规律是:代理提取的是明确写出来的内容,不是暗含的意思。一个写着“我们使用友好、直接的德语语气,使用 Sie,绝不使用 Du”的页面,可以产出品牌语气;一个列出“workspace → Arbeitsbereich”的术语表页面,可以产出术语表条目。相反,一个虽然很好地体现了语气、却没有明确写出任何规则的精致落地页,几乎提不出什么内容,因为页面上没有可直接抽取的规则。拿不准时,优先选择把规则明确说出来的来源——很多时候,这会是你自己写成一句话的 content 内容块,而不是一个你希望代理自行推断的页面。

单个薄弱来源不会拖垮整个作业#

当你一次提交多个来源时,一个很自然的问题是:如果某个 URL 失效,或某个内容块信息太少,整个请求会不会失败?不会。每个来源都会被独立读取,单项失败会被记录,但不会导致整体失败——失效链接或无法读取的内容块会被跳过,代理会基于它成功读到的内容继续工作。只有在所有来源都无法读取、完全没有内容可供分析时,整个作业才会失败。这些结果的具体形式——成功时记录的单项失败,以及所有内容都无法读取时返回的失败 payload——请参见 AI 会提取什么 和 Webhook 投递。

所以,你可以先把一组候选来源都列出来,而不必提前核查每一个 URL:强来源会贡献结果,弱来源会自然掉队,而你只需要查看输出摘要,就能知道最终实际纳入了什么。先把你已有的内容指给它——再看看它返回了什么。

后续步骤#

创建 provisioning 作业
包含 sources 数组的完整创建请求,以及 202 响应和引擎 ID。
AI 会提取什么
代理会如何根据你的来源构建品牌语气、术语表条目和指令,以及输出摘要包含哪些内容。
实时进度(WebSocket)
在作业读取你的来源并构建引擎时,实时查看爬取和配置各步骤的进展。

这个页面对你有帮助吗?

Max PrilutskiyMax Prilutskiy·已更新 4 天前·1 分钟阅读