来源类型 - Lingo.dev

Provisioning 会读取你现有的材料，并将其转化为引擎配置。最影响结果的一个决定，就是你在请求的 sources 数组里放了什么——因为最终返回的引擎质量，只会和你提供的来源一样好。

每个条目都属于两种类型之一。link 来源是平台替你抓取并爬取的 URL；content 来源则是你直接传入的原始文本或 markdown。两者可以在同一个请求中混合使用，总数最多十个来源。本页会说明这两种类型、平台分别如何处理它们，以及怎样挑选来源，产出真正有用的配置，而不是一个几乎空白的结果。sources 字段本身位于创建请求中——完整 payload 和 202 响应请参见创建 provisioning 作业。

两种来源类型#

每个来源都是一个对象，包含 type 和 payload。其中 type 决定平台如何读取 payload。

类型	内容	适合在这种情况下使用
`link`	待爬取的 URL	当上下文已经在网上时——比如你的品牌页面、公开文档、已发布的风格指南或术语表页面。
`content`	原始文本或 markdown	当上下文只存在于你的脑海里或私有文档中时——比如术语清单、语气规则、产品命名规范，以及翻译时该做和不该做的事项。

json

{
  "sources": [
    { "type": "link", "payload": "https://acme.com/brand-guidelines" },
    { "type": "link", "payload": "https://acme.com/docs/style-guide" },
    {
      "type": "content",
      "payload": "Brand name 'Acme' is never translated. Use formal tone in German (Sie-form). Product names: AcmeFlow, AcmeSync, AcmeVault - always keep in English."
    }
  ]
}

同一个数组里放两个链接和一个内容块。链接指向已经包含所需上下文的页面；内容块则承载那些没有公开写出来的规则。两者都会进入同一个提取步骤。

平台会如何处理这两种来源#

两种类型只在一个环节上不同——如何把文本交到 AI 代理面前——之后流程就一致了。

link 来源会先被抓取并转换成 markdown，再进入分析。平台会并行爬取链接来源，所以十个 URL 并不意味着十次串行往返——而是同时读取，再统一作为文本交给代理。你只需要提供 URL；抓取以及从 HTML 精简为 markdown 的工作由平台完成，这样代理读到的是正文，而不是页面标记。

content 来源则会跳过这一步。你发送的文本会按原样直接传给 AI 代理。没有爬取，没有转换，你的文字和代理之间没有任何中间环节——这也是为什么内容来源是表达已知规则最精确的方式。

从这里开始，两种来源都会变成同一种输入：代理会读取全部内容，并提取品牌语气、术语表条目和指令。它会从这些文本中产出什么，以及返回的摘要包含什么，是另一个话题——请参见 AI 会提取什么。

链接会爬到多深？

link 来源会在代理分析前先被抓取并转换成 markdown。至于爬虫是否会继续跟进你提供的 URL 之外的链接，以及会跟进到多深，这里并没有说明。如果你需要分析一组明确的页面，最稳妥的做法是把每一页分别列成独立的 link 来源，而不是依赖单个 URL 自行扩散。

选择真正有信号的来源#

这一步决定 provisioning 值不值得跑。提取结果的上限就是输入质量，而这里的问题往往很隐蔽：即使来源很弱，作业照样会完成，照样会创建引擎——只是得到的可能是一个几乎空白的引擎。你通常要等到后面发现翻译忽略了那些你以为已经被捕捉到的约定，才会意识到问题。完成通知也会像平常一样送达——参见 Webhook 投递——所以系统不会主动替你标出这个缺口。

提供有价值的来源

提取配置的质量，取决于输入的质量。链接来源应指向包含有效上下文的页面——品牌指南、风格指南、产品文档、术语表。原始内容来源则应包含明确的术语、语气指引或翻译规则。泛泛而谈的营销页面或登录界面，通常提不出多少有用配置。

这个提示背后的规律是：代理提取的是明确写出来的内容，不是暗含的意思。一个写着“我们使用友好、直接的德语语气，使用 Sie，绝不使用 Du”的页面，可以产出品牌语气；一个列出“workspace → Arbeitsbereich”的术语表页面，可以产出术语表条目。相反，一个虽然很好地体现了语气、却没有明确写出任何规则的精致落地页，几乎提不出什么内容，因为页面上没有可直接抽取的规则。拿不准时，优先选择把规则明确说出来的来源——很多时候，这会是你自己写成一句话的 content 内容块，而不是一个你希望代理自行推断的页面。

单个薄弱来源不会拖垮整个作业#

当你一次提交多个来源时，一个很自然的问题是：如果某个 URL 失效，或某个内容块信息太少，整个请求会不会失败？不会。每个来源都会被独立读取，单项失败会被记录，但不会导致整体失败——失效链接或无法读取的内容块会被跳过，代理会基于它成功读到的内容继续工作。只有在所有来源都无法读取、完全没有内容可供分析时，整个作业才会失败。这些结果的具体形式——成功时记录的单项失败，以及所有内容都无法读取时返回的失败 payload——请参见 AI 会提取什么和 Webhook 投递。

所以，你可以先把一组候选来源都列出来，而不必提前核查每一个 URL：强来源会贡献结果，弱来源会自然掉队，而你只需要查看输出摘要，就能知道最终实际纳入了什么。先把你已有的内容指给它——再看看它返回了什么。

后续步骤#

创建 provisioning 作业

包含 sources 数组的完整创建请求，以及 202 响应和引擎 ID。

AI 会提取什么

代理会如何根据你的来源构建品牌语气、术语表条目和指令，以及输出摘要包含哪些内容。

实时进度（WebSocket）

在作业读取你的来源并构建引擎时，实时查看爬取和配置各步骤的进展。