Tipos de fuente

El aprovisionamiento toma tu material existente y lo convierte en configuración del motor. La decisión que más influye en el resultado es qué incluyes en el arreglo sources de la solicitud, porque el motor que recibes depende por completo de a qué lo apuntes.

Cada entrada es de uno de dos tipos. Una fuente link es una URL que la plataforma obtiene y rastrea por ti; una fuente content es texto sin procesar o markdown que envías directamente. Puedes mezclar ambas en la misma solicitud, con un máximo total de diez fuentes. En esta página verás los dos tipos, qué hace la plataforma con cada uno y cómo elegir fuentes que generen una configuración útil en lugar de una vacía. El campo sources vive dentro de la solicitud de creación; consulta Crear un trabajo de aprovisionamiento para ver la carga útil completa y la respuesta 202.

Los dos tipos de fuente#

Cada fuente es un objeto con un type y un payload. El type determina cómo la plataforma lee el payload.

Tipo	Carga útil	Úsalo cuando
`link`	Una URL para rastrear	El contexto ya está en la web: tu página de marca, documentación pública, una guía de estilo publicada o una página de glosario.
`content`	Texto sin procesar o markdown	El contexto está en tu cabeza o en un documento privado: listas de terminología, reglas de tono, convenciones de nombres de producto y lo que se debe o no se debe hacer en traducción.

json

{
  "sources": [
    { "type": "link", "payload": "https://acme.com/brand-guidelines" },
    { "type": "link", "payload": "https://acme.com/docs/style-guide" },
    {
      "type": "content",
      "payload": "Brand name 'Acme' is never translated. Use formal tone in German (Sie-form). Product names: AcmeFlow, AcmeSync, AcmeVault - always keep in English."
    }
  ]
}

Dos enlaces y un bloque de contenido en el mismo arreglo. Los enlaces apuntan a páginas que ya contienen el contexto; el bloque de contenido lleva reglas que no existen en ningún sitio público. Ambos alimentan el mismo paso de extracción.

Qué hace la plataforma con cada una#

Los dos tipos se diferencian en un solo paso —poner el texto frente al agente de IA— y después convergen.

Una fuente link se obtiene y se convierte a markdown antes del análisis. La plataforma rastrea las fuentes de enlace en paralelo, así que diez URL no son diez idas y vueltas secuenciales: se leen al mismo tiempo y luego se entregan al agente como texto. Tú proporcionas la URL; la plataforma se encarga de obtenerla y convertir el HTML a markdown para que el agente lea prosa, no marcado de página.

Una fuente content omite ese paso. El texto que envías se pasa directamente al agente de IA, exactamente como lo escribiste. No hay rastreo, no hay conversión, no hay nada entre tus palabras y el agente. Por eso, una fuente de contenido es la forma más precisa de expresar una regla que ya conoces.

A partir de ahí, ambos tipos pasan a ser la misma entrada: el agente lo lee todo y extrae voces de marca, elementos del glosario e instrucciones. Lo que produce a partir de ese texto, y el resumen que devuelve, es un tema aparte; consulta Lo que extrae la IA.

¿Hasta dónde llega el rastreo de un enlace?

Una fuente link se obtiene y se convierte a markdown antes de que el agente la analice. Aquí no se especifica si el rastreador sigue enlaces más allá de la URL que proporcionas, ni hasta qué profundidad. Si necesitas que se analice un conjunto específico de páginas, la opción más confiable es enumerar cada una como su propia fuente link en lugar de confiar en que una sola URL se expanda por su cuenta.

Elige fuentes que aporten señal#

Este es el paso que define si vale la pena ejecutar el aprovisionamiento. La extracción solo es tan buena como su entrada, y aquí el fallo es silencioso: un trabajo con fuentes débiles igual se completa, igual crea un motor, pero casi vacío, y te das cuenta después, cuando las traducciones ignoran convenciones que dabas por capturadas. La finalización llega como cualquier otra —consulta Entrega de webhooks—, así que nada te marca esa brecha.

Proporciona fuentes útiles

La calidad de la configuración extraída depende de la calidad de lo que envías. Las fuentes de enlace deben apuntar a páginas con contexto útil: lineamientos de marca, guías de estilo, documentación del producto o glosarios. Las fuentes de contenido sin procesar deben incluir terminología concreta, guía de tono o reglas de traducción. Las páginas de marketing genéricas o las pantallas de inicio de sesión aportan muy poca configuración útil.

La idea detrás del aviso es esta: el agente extrae lo que está expresado, no lo que está implícito. Una página que dice "escribimos en un alemán amigable y directo que usa Sie, nunca Du" produce una voz de marca. Una página de glosario que enumera "workspace → Arbeitsbereich" produce un elemento de glosario. Una landing page pulida que demuestra un buen tono sin nombrar una sola regla produce casi nada, porque no hay ninguna regla explícita que extraer. En caso de duda, prefiere la fuente que diga la regla claramente, que muchas veces será un bloque content escrito por ti en una oración, en lugar de una página de la que esperas que el agente la deduzca.

Una fuente débil no arruina el trabajo#

Cuando envías varias fuentes a la vez, surge una duda natural: si una URL está caída o un bloque es demasiado pobre, ¿falla toda la solicitud? No. Las fuentes se leen de forma independiente, y los fallos por elemento se registran en lugar de ser fatales: un enlace roto o un bloque ilegible se omiten, y el agente trabaja con lo que sí pudo leer. El trabajo completo solo falla cuando no se pudo leer ninguna fuente y no queda nada por analizar. Las formas exactas de esos resultados —los fallos por elemento registrados en un caso exitoso y la carga útil de error cuando no se pudo leer nada— se explican en Lo que extrae la IA y Entrega de webhooks.

Así que puedes listar un conjunto candidato sin auditar antes cada URL: las fuentes sólidas suman, las débiles se caen, y tú revisas el resumen de salida para ver qué entró realmente. Apúntalo a lo que ya tienes y luego revisa qué volvió.

Siguientes pasos#

Crear un trabajo de aprovisionamiento

La solicitud completa de creación de la que forma parte el arreglo sources, con la respuesta 202 y el ID del motor.

Lo que extrae la IA

Voces de marca, elementos del glosario e instrucciones que el agente construye a partir de tus fuentes, además del resumen de salida.

Progreso en vivo (WebSocket)

Sigue los pasos de rastreo y configuración mientras el trabajo lee tus fuentes y construye el motor.