O provisionamento lê o material que você já tem e o transforma em configuração de engine. A decisão que mais influencia o resultado é o que você coloca no array sources da requisição — porque o engine que você recebe de volta só é tão bom quanto aquilo para o que você aponta.
Cada entrada pode ser de um entre dois tipos. Uma fonte link é uma URL que a plataforma busca e rastreia para você; uma fonte content é texto bruto ou markdown enviado diretamente. Você pode combinar os dois na mesma requisição, com até dez fontes no total. Esta página explica os dois tipos, o que a plataforma faz com cada um e como escolher fontes que gerem uma configuração útil em vez de uma vazia. O campo sources em si fica na requisição de criação — consulte Criar um job de provisionamento para ver o payload completo e a resposta 202.
Os dois tipos de fonte#
Toda fonte é um objeto com type e payload. O type define como a plataforma lê o payload.
| Tipo | Payload | Use quando |
|---|---|---|
link | Uma URL para rastrear | O contexto já está na web — sua página de marca, documentação pública, um guia de estilo publicado, uma página de glossário. |
content | Texto bruto ou markdown | O contexto está na sua cabeça ou em um documento privado — listas de terminologia, regras de tom, convenções de nomes de produto, o que fazer e o que evitar em tradução. |
{
"sources": [
{ "type": "link", "payload": "https://acme.com/brand-guidelines" },
{ "type": "link", "payload": "https://acme.com/docs/style-guide" },
{
"type": "content",
"payload": "Brand name 'Acme' is never translated. Use formal tone in German (Sie-form). Product names: AcmeFlow, AcmeSync, AcmeVault - always keep in English."
}
]
}Dois links e um bloco de conteúdo no mesmo array. Os links apontam para páginas que já trazem o contexto; o bloco de conteúdo carrega regras que não estão em nenhum lugar público. Ambos alimentam a mesma etapa de extração.
O que a plataforma faz com cada um#
Os dois tipos diferem em uma etapa — colocar o texto na frente do agente de IA — e, depois disso, seguem pelo mesmo caminho.
Uma fonte link é buscada e convertida em markdown antes da análise. A plataforma rastreia fontes de link em paralelo, então dez URLs não significam dez idas e voltas sequenciais — elas são lidas ao mesmo tempo e depois entregues ao agente como texto. Você fornece a URL; a plataforma cuida da busca e da conversão de HTML para markdown para que o agente leia prosa, não marcação de página.
Uma fonte content pula essa etapa. O texto que você envia vai direto para o agente de IA, exatamente como foi escrito. Não há rastreamento, nem conversão, nada entre suas palavras e o agente — por isso, uma fonte de conteúdo é a forma mais precisa de declarar uma regra que você já conhece.
A partir daí, os dois tipos viram a mesma entrada: o agente lê tudo e extrai voz da marca, itens de glossário e instruções. O que ele produz a partir desse texto, e o resumo que retorna, é um assunto à parte — consulte O que a IA extrai.
Até onde vai o rastreamento de um link?
Uma fonte link é buscada e convertida em markdown antes de o agente analisá-la. Não está especificado aqui se o crawler segue links além da URL fornecida por você — nem até que profundidade. Se você precisa que um conjunto específico de páginas seja analisado, a forma mais confiável é listar cada uma como sua própria fonte link, em vez de depender de uma única URL para se expandir sozinha.
Escolha fontes que tragam sinal#
É isso que determina se vale a pena rodar o provisionamento. A extração só é tão boa quanto a entrada, e a falha aqui é silenciosa: um job com fontes fracas ainda é concluído, ainda cria um engine — mas quase vazio, e você só descobre depois, quando as traduções ignoram convenções que você achava que tinham sido capturadas. A conclusão chega como qualquer outra — consulte Entrega de webhook — então nada sinaliza essa lacuna para você.
Forneça fontes com conteúdo relevante
A qualidade da configuração extraída depende da qualidade da sua entrada. Fontes de link devem apontar para páginas com contexto útil — diretrizes de marca, guias de estilo, documentação do produto, glossários. Fontes de conteúdo bruto devem conter terminologia concreta, orientações de tom ou regras de tradução. Páginas genéricas de marketing ou telas de login geram pouca configuração útil.
A lógica por trás desse callout é simples: o agente extrai o que é dito, não o que está implícito. Uma página que diz "escrevemos em um alemão amigável e direto, usando Sie, nunca Du" gera uma voz da marca. Uma página de glossário que lista "workspace → Arbeitsbereich" gera um item de glossário. Já uma landing page bem polida, que demonstra um bom tom sem nomear uma única regra, gera quase nada, porque não há ali nenhuma regra para extrair. Em caso de dúvida, prefira a fonte que explicita a regra — e muitas vezes isso é um bloco content escrito por você em uma frase, e não uma página da qual você espera que o agente infira algo.
Uma fonte fraca não derruba o job#
Uma preocupação natural ao enviar várias fontes de uma vez é: se uma URL estiver fora do ar ou um bloco for raso, a requisição inteira falha? Não. As fontes são lidas de forma independente, e uma falha por item é registrada em vez de encerrar tudo — um link quebrado ou um bloco ilegível é ignorado, e o agente trabalha com o que conseguiu ler. O job como um todo só falha quando nenhuma fonte pode ser lida, deixando nada para analisar. Os formatos exatos desses resultados — as falhas por item registradas em caso de sucesso e o payload de falha quando nada pôde ser lido — ficam em O que a IA extrai e Entrega de webhook.
Então você pode listar um conjunto de candidatos sem auditar cada URL antes: as fontes fortes entram, as fracas ficam pelo caminho, e você lê o resumo de saída para ver o que realmente foi aproveitado. Aponte para o que você já tem — depois confira o que voltou.
