Типы источников

Развёртывание берёт ваши существующие материалы и превращает их в конфигурацию движка. Главное решение, от которого зависит результат, — что именно вы передаёте в массиве sources запроса, потому что итоговый движок будет настолько хорош, насколько хороши источники, на которые вы его направляете.

Каждый элемент бывает одного из двух типов. Источник link — это URL, который платформа загружает и сканирует за вас; источник content — это исходный текст или markdown, который вы передаёте напрямую. В одном запросе можно сочетать оба типа, максимум — десять источников всего. На этой странице мы разберём оба варианта, что платформа делает с каждым из них и как выбирать источники, чтобы получить полезную конфигурацию, а не пустую. Само поле sources находится в запросе на создание — полный payload и ответ 202 см. в Создать задание на развёртывание.

Два типа источников#

Каждый источник — это объект с полями type и payload. Поле type определяет, как платформа читает payload.

Тип	Payload	Когда использовать
`link`	URL для сканирования	Когда нужный контекст уже есть в интернете: страница бренда, публичная документация, опубликованный гайд по стилю, страница глоссария.
`content`	Исходный текст или markdown	Когда контекст существует только у вас в голове или в закрытом документе: списки терминов, правила тональности, соглашения по названиям продуктов, что можно и нельзя делать в переводе.

json

{
  "sources": [
    { "type": "link", "payload": "https://acme.com/brand-guidelines" },
    { "type": "link", "payload": "https://acme.com/docs/style-guide" },
    {
      "type": "content",
      "payload": "Brand name 'Acme' is never translated. Use formal tone in German (Sie-form). Product names: AcmeFlow, AcmeSync, AcmeVault - always keep in English."
    }
  ]
}

Две ссылки и один блок контента в одном массиве. Ссылки ведут на страницы, где уже есть нужный контекст; блок контента содержит правила, которых нет в открытом доступе. И то и другое проходит через один и тот же этап извлечения.

Что платформа делает с каждым типом#

Разница между этими двумя типами только в одном шаге — как текст попадает к AI-агенту. Дальше процесс одинаковый.

Источник link сначала загружается и преобразуется в markdown, и только потом анализируется. Платформа сканирует источники-ссылки параллельно, поэтому десять URL — это не десять последовательных обращений, а одновременная обработка, после которой текст передаётся агенту. Вы даёте URL, а платформа сама загружает страницу и преобразует HTML в markdown, чтобы агент читал связный текст, а не разметку.

Источник content этот этап пропускает. Текст, который вы отправляете, передаётся AI-агенту напрямую, в точности как написан. Никакого сканирования, никакого преобразования — ничего между вашими словами и агентом. Поэтому источник-контент — самый точный способ зафиксировать правило, которое вы уже знаете.

Дальше оба типа становятся одинаковым входом: агент читает всё и извлекает тональность бренда, элементы глоссария и инструкции. Что именно он строит на основе этого текста и какую сводку возвращает — отдельная тема; см. Что извлекает AI.

Насколько глубоко сканируется ссылка?

Источник link загружается и преобразуется в markdown ещё до того, как агент начинает анализ. Следует ли краулер по ссылкам дальше указанного вами URL и на какую глубину — здесь не уточняется. Если вам нужно проанализировать конкретный набор страниц, надёжнее перечислить каждую из них как отдельный источник link, а не рассчитывать, что один URL сам развернётся дальше.

Выбирайте источники с полезным сигналом#

Именно здесь решается, стоит ли вообще запускать развёртывание. Качество извлечения напрямую зависит от качества входных данных, и проблема тут коварная: задание со слабыми источниками всё равно завершится, всё равно создаст движок — но почти пустой. Узнаете вы об этом позже, когда переводы начнут игнорировать соглашения, которые, как вам казалось, уже были учтены. Уведомление о завершении придёт как обычно — см. Доставка вебхуков — так что ничто само по себе не подсветит этот пробел.

Добавляйте содержательные источники

Качество извлечённой конфигурации зависит от качества входных данных. Источники-ссылки должны вести на страницы с полезным контекстом: бренд-гайды, руководства по стилю, продуктовую документацию, глоссарии. Источники с исходным контентом должны содержать конкретную терминологию, указания по тональности или правила перевода. Обычные маркетинговые страницы или экраны входа дают мало полезной конфигурации.

Суть проста: агент извлекает то, что сказано прямо, а не то, что только подразумевается. Страница, где написано «мы пишем дружелюбным, прямым немецким языком, используем Sie и никогда — Du», даёт тональность бренда. Страница глоссария со строкой «workspace → Arbeitsbereich» даёт элемент глоссария. Вылизанный лендинг, который показывает хороший тон, но не формулирует ни одного правила, почти ничего не даст — просто потому, что там нечего извлекать как правило. Если сомневаетесь, выбирайте источник, где правило сформулировано вслух. Часто это блок content, который вы пишете сами в одном предложении, а не страница, из которой, как вы надеетесь, агент что-то выведет.

Один слабый источник не завалит задание#

Отсюда возникает естественный вопрос: если передать сразу несколько источников, что будет, если один URL недоступен или один блок окажется слишком слабым? Весь запрос из-за этого не упадёт. Источники обрабатываются независимо, и ошибка по отдельному элементу просто фиксируется, а не считается фатальной: битая ссылка или нечитаемый блок пропускаются, а агент работает с тем, что удалось прочитать. Задание целиком завершится ошибкой только в одном случае — если не удалось прочитать вообще ни одного источника и анализировать просто нечего. Точные форматы этих исходов — ошибки по отдельным элементам при успешном результате и payload ошибки, когда не удалось прочитать ничего, — описаны в разделах Что извлекает AI и Доставка вебхуков.

Поэтому можно перечислить набор кандидатов, не проверяя заранее каждый URL: сильные источники сработают, слабые отсеются, а по итоговой сводке вы увидите, что именно реально попало в обработку. Просто укажите то, что у вас уже есть, — а потом проверьте, что вернулось.

Что дальше#

Создать задание на развёртывание

Полный запрос на создание, в который входит массив sources, с ответом 202 и ID движка.

Что извлекает AI

Тональность бренда, элементы глоссария и инструкции, которые агент строит на основе ваших источников, а также итоговая сводка.

Прогресс в реальном времени (WebSocket)

Следите за этапами сканирования и настройки, пока задание читает ваши источники и собирает движок.