Evaluadores de IA

Las evaluaciones de IA son controles de calidad automatizados que analizan las traducciones generadas por tu motor de localización. Después de cada solicitud de traducción, Lingo.dev ejecuta evaluaciones independientes con LLM para verificar el resultado y comprobar el cumplimiento del glosario, el seguimiento de instrucciones y cualquier criterio personalizado que definas. Las revisiones se ejecutan de forma asíncrona y nunca bloquean la respuesta de traducción.

Cómo funciona#

Cuando el motor de localización completa una solicitud de traducción, pone en cola las revisiones correspondientes para evaluarlas de forma asíncrona. Cada revisión ejecuta un LLM independiente que recibe el texto fuente, la traducción generada, el contexto y los criterios de evaluación. Devuelve un resultado estructurado —apto/no apto o una puntuación porcentual— con una justificación cuando el resultado no es perfecto.

La pestaña Reviews del motor controla qué revisiones se ejecutan para ese motor. Hay tres categorías:

Categoría	Qué comprueba	Tipo de resultado	Configuración
Evaluación de IA de elementos del glosario	Si las traducciones siguen las reglas del glossary del motor	Apto / No apto	Opción integrada por motor
Evaluación de IA de instrucciones	Si las traducciones siguen cada una de las instructions del motor	Apto / No apto por instrucción	Opción integrada por motor
Evaluadores de IA personalizados	Tus propios criterios de evaluación, definidos a nivel de organización	Apto / No apto o 0–100 %	Selección por motor entre los evaluadores del nivel de organización

Evaluaciones de IA integradas#

Cada motor de localización incluye dos tipos de revisión integrados que verifican las traducciones en función de la propia configuración del motor. Puedes activarlos o desactivarlos en la pestaña Reviews del motor.

Evaluación de IA de elementos del glosario#

Comprueba si la traducción ha respetado todas las reglas del glosario aplicables. Si el motor tiene traducciones personalizadas (p. ej., "Deploy" → "Bereitstellen") o términos no traducibles (p. ej., "OAuth"), la revisión verifica que la traducción los haya respetado.

La revisión tiene en cuenta las variaciones gramaticales: una regla del glosario para un término en un caso gramatical se aplica a todas las formas de ese término. Si existen reglas de glosario en conflicto, la traducción se considera conforme siempre que se haya seguido una de ellas.

El resultado es un único veredicto de apto/no apto para toda la solicitud de traducción, con una justificación cuando el resultado es no apto.

Evaluación de IA de instrucciones#

Evalúa cada instrucción de forma independiente. Si el motor tiene tres instrucciones, la revisión genera tres veredictos independientes de apto/no apto, cada uno con su propia justificación cuando el resultado es no apto.

Una instrucción puede devolver N/A cuando sus criterios no se aplican al contenido que se está traduciendo. Por ejemplo, una instrucción sobre tratamiento formal devuelve N/A cuando la traducción solo contiene un nombre de producto o un término técnico en el que la formalidad es irrelevante. Los resultados N/A se excluyen de las puntuaciones agregadas.

Ambas revisiones integradas solo se activan cuando el motor tiene una configuración relevante: si ningún elemento del glosario coincide con el par de idiomas, no se ejecuta ninguna evaluación de IA de elementos del glosario.

Configurar revisiones por motor#

Abre la pestaña Reviews del motor para controlar qué revisiones se ejecutan para ese motor. La pestaña tiene dos secciones:

Las opciones integradas de la parte superior controlan la evaluación de IA de elementos del glosario y la evaluación de IA de instrucciones. Son independientes: puedes activar una sin la otra, en función de lo que tenga configurado el motor.

Debajo de esas opciones, los evaluadores de IA personalizados muestran todos los evaluadores de IA definidos a nivel de organización. Activa o desactiva cada uno para ese motor concreto. Así puedes mantener una biblioteca compartida de controles de calidad y aplicarlos de forma selectiva.

Un mismo motor puede tener tanto revisiones integradas como varios evaluadores de IA personalizados ejecutándose al mismo tiempo. Todas las revisiones se ejecutan de forma asíncrona después de cada solicitud de traducción, y los resultados aparecen en el registro de traducción y en Reports.

Tipos de evaluador de IA#

Evaluadores de IA booleanos#

Devuelven un veredicto binario: apto o no apto. Úsalos para reglas que se cumplen o no se cumplen.

Ejemplos:

"¿La traducción conserva todas las etiquetas y atributos HTML?"
"¿Se aplican correctamente las reglas de pluralización para el idioma de destino?"
"¿La traducción utiliza tratamiento formal (Sie) en alemán?"

Los resultados se agregan como tasas de aprobados: 75 % significa que 3 de cada 4 traducciones evaluadas han sido aptas.

Evaluadores de IA porcentuales#

Devuelven una puntuación de 0 a 100. Úsalos para dimensiones de calidad que se mueven en un espectro.

Ejemplos:

"Valora la naturalidad de la traducción para un hablante nativo (0–100)"
"Puntúa hasta qué punto la traducción conserva el tono y la intención originales (0–100)"
"Evalúa la corrección gramatical en una escala de 0–100"

Los resultados se agregan como medias a lo largo del periodo de evaluación.

Configuración del evaluador de IA#

Campo	Descripción
Nombre	Una etiqueta que identifica al evaluador de IA (p. ej., "Comprobación de pluralización")
Instrucción	Los criterios de evaluación, redactados en lenguaje natural
Tipo	`boolean` (apto/no apto) o `percentage` (0–100)
Idioma de origen	El idioma de origen con el que debe coincidir, o `*` para cualquiera
Idioma de destino	El idioma de destino con el que debe coincidir, o `*` para cualquiera
Proveedor / Modelo	El LLM utilizado para la evaluación (independiente del modelo de traducción)
Sampling	Porcentaje de solicitudes que se deben evaluar (0–100 %)
Allow N/A	Si el evaluador de IA puede devolver "not applicable" para pares no relevantes
Enabled	Activa o desactiva la revisión sin eliminar la configuración

Redactar instrucciones para evaluadores de IA#

El campo de instrucción es el núcleo de un evaluador de IA. Le indica al LLM de evaluación exactamente qué debe comprobar. Redáctalo como un criterio específico y verificable.

Buenas instrucciones#

Booleano:

text

Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.

Porcentaje:

text

Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.

Qué hace que una instrucción sea buena#

Criterios específicos — define exactamente qué significa apto/no apto o qué representan 0 y 100
Resultados observables — el LLM debe poder evaluar leyendo el texto, no adivinando la intención
Un único aspecto por evaluador de IA — divide las comprobaciones de calidad multidimensionales en evaluadores de IA separados

Coincidencia de idiomas#

Los evaluadores de IA hacen coincidir las solicitudes de traducción por idioma de origen y de destino. El comodín * coincide con cualquier idioma.

Idioma de origen	Idioma de destino	Coincide con
`en`	`de`	Solo traducciones de inglés → alemán
`en`	`*`	Cualquier traducción desde inglés
`*`	`ja`	Cualquier traducción al japonés
`*`	`*`	Todas las traducciones

Una misma solicitud de traducción puede activar varios evaluadores de IA si varios coinciden con su par de idiomas.

Sampling#

No hace falta revisar todas las traducciones. La tasa de muestreo controla qué porcentaje de las solicitudes coincidentes se evalúa.

Sampling	Comportamiento
100 %	Se revisa cada solicitud coincidente (más exhaustivo, pero con mayor coste)
50 %	Se revisa aproximadamente la mitad de las solicitudes coincidentes
10 %	Una de cada diez: útil para motores con mucho volumen, donde importan más las tendencias que las puntuaciones individuales
0 %	El evaluador de IA queda en pausa de forma efectiva sin desactivarlo

El muestreo se aplica en el momento de la solicitud mediante una comprobación aleatoria. Con un volumen suficiente de solicitudes, la tasa real de evaluación converge hacia el porcentaje configurado.

Compatibilidad con N/A#

Cuando allowsNA está activado, el LLM de revisión puede devolver "not applicable" en lugar de una puntuación. Esto resulta útil para evaluadores de IA cuyos criterios no se aplican a todos los pares de idiomas.

Ejemplo: Un evaluador de IA que comprueba las convenciones de tratamiento formal devuelve N/A para traducciones de inglés → inglés (el inglés no distingue entre tratamiento formal e informal), pero devuelve una puntuación para inglés → alemán.

Los resultados N/A se excluyen de las medias y de las tasas de aprobados en los informes: no reducen las puntuaciones ni las inflan.

Justificación#

Los evaluadores de IA proporcionan una justificación para los resultados imperfectos para ayudarte a entender qué ha fallado:

Puntuación perfecta (apto o 100 %) — la justificación es null (no hay nada que explicar)
N/A — la justificación es null
Puntuación imperfecta — una breve explicación de una sola frase

Así, los resultados de la revisión resultan accionables: cuando una traducción no supera una comprobación, la justificación te dice por qué sin necesidad de investigarlo manualmente.

Modelo de revisión#

Cada evaluador de IA tiene su propia configuración de proveedor y modelo de LLM, independiente del modelo de traducción. Esta separación es intencionada: el modelo que genera la traducción no debe ser el mismo que la evalúa.

Independencia del modelo

Usar un modelo distinto para la revisión y para la traducción aporta una evaluación independiente. Si GPT-4o genera la traducción, evaluarla con Claude Sonnet te da una segunda opinión en lugar de una autoevaluación.

Informes de evaluadores de IA#

Los resultados de la revisión se visualizan en el panel, en la sección de informes de evaluadores de IA, donde se muestra:

Tasas de aprobados a lo largo del tiempo — para evaluadores de IA booleanos, representadas como porcentajes diarios
Puntuaciones medias a lo largo del tiempo — para evaluadores de IA porcentuales, representadas como medias diarias
Desglose por par de idiomas — consulta cómo rinde cada par origen → destino de forma independiente
Vista agregada — combina todos los pares de idiomas en una única línea de tendencia

Los informes de evaluadores de IA complementan Reports, centrado en el volumen; juntos te ofrecen una visión completa tanto del rendimiento como de la calidad.

Gestionar evaluadores de IA mediante MCP#

Si utilizas el Lingo.dev MCP server, tu asistente de programación con IA puede crear y configurar evaluadores de IA directamente:

text

"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations."

text

"Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."

Siguientes pasos#

Reports

Supervisa el volumen de traducción, el uso de tokens y la cobertura de idiomas

LLM Models

Configura los modelos de traducción que evalúan los evaluadores de IA

Glossaries

Configura los términos con los que pueden contrastar los evaluadores de IA de cumplimiento del glosario

API Reference

Integra la API de localización en tu flujo de trabajo

Cómo funciona#

La pestaña Reviews del motor controla qué revisiones se ejecutan para ese motor. Hay tres categorías:

Categoría	Qué comprueba	Tipo de resultado	Configuración
Evaluación de IA de elementos del glosario	Si las traducciones siguen las reglas del glossary del motor	Apto / No apto	Opción integrada por motor
Evaluación de IA de instrucciones	Si las traducciones siguen cada una de las instructions del motor	Apto / No apto por instrucción	Opción integrada por motor
Evaluadores de IA personalizados	Tus propios criterios de evaluación, definidos a nivel de organización	Apto / No apto o 0–100 %	Selección por motor entre los evaluadores del nivel de organización

Evaluaciones de IA integradas#

Evaluación de IA de elementos del glosario#

El resultado es un único veredicto de apto/no apto para toda la solicitud de traducción, con una justificación cuando el resultado es no apto.

Evaluación de IA de instrucciones#

Configurar revisiones por motor#

Abre la pestaña Reviews del motor para controlar qué revisiones se ejecutan para ese motor. La pestaña tiene dos secciones:

Tipos de evaluador de IA#

Evaluadores de IA booleanos#

Devuelven un veredicto binario: apto o no apto. Úsalos para reglas que se cumplen o no se cumplen.

Ejemplos:

"¿La traducción conserva todas las etiquetas y atributos HTML?"
"¿Se aplican correctamente las reglas de pluralización para el idioma de destino?"
"¿La traducción utiliza tratamiento formal (Sie) en alemán?"

Los resultados se agregan como tasas de aprobados: 75 % significa que 3 de cada 4 traducciones evaluadas han sido aptas.

Evaluadores de IA porcentuales#

Devuelven una puntuación de 0 a 100. Úsalos para dimensiones de calidad que se mueven en un espectro.

Ejemplos:

"Valora la naturalidad de la traducción para un hablante nativo (0–100)"
"Puntúa hasta qué punto la traducción conserva el tono y la intención originales (0–100)"
"Evalúa la corrección gramatical en una escala de 0–100"

Los resultados se agregan como medias a lo largo del periodo de evaluación.

Configuración del evaluador de IA#

Campo	Descripción
Nombre	Una etiqueta que identifica al evaluador de IA (p. ej., "Comprobación de pluralización")
Instrucción	Los criterios de evaluación, redactados en lenguaje natural
Tipo	`boolean` (apto/no apto) o `percentage` (0–100)
Idioma de origen	El idioma de origen con el que debe coincidir, o `*` para cualquiera
Idioma de destino	El idioma de destino con el que debe coincidir, o `*` para cualquiera
Proveedor / Modelo	El LLM utilizado para la evaluación (independiente del modelo de traducción)
Sampling	Porcentaje de solicitudes que se deben evaluar (0–100 %)
Allow N/A	Si el evaluador de IA puede devolver "not applicable" para pares no relevantes
Enabled	Activa o desactiva la revisión sin eliminar la configuración

Redactar instrucciones para evaluadores de IA#

El campo de instrucción es el núcleo de un evaluador de IA. Le indica al LLM de evaluación exactamente qué debe comprobar. Redáctalo como un criterio específico y verificable.

Buenas instrucciones#

Booleano:

text

Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.

Porcentaje:

text

Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.

Qué hace que una instrucción sea buena#

Criterios específicos — define exactamente qué significa apto/no apto o qué representan 0 y 100
Resultados observables — el LLM debe poder evaluar leyendo el texto, no adivinando la intención
Un único aspecto por evaluador de IA — divide las comprobaciones de calidad multidimensionales en evaluadores de IA separados

Coincidencia de idiomas#

Los evaluadores de IA hacen coincidir las solicitudes de traducción por idioma de origen y de destino. El comodín * coincide con cualquier idioma.

Idioma de origen	Idioma de destino	Coincide con
`en`	`de`	Solo traducciones de inglés → alemán
`en`	`*`	Cualquier traducción desde inglés
`*`	`ja`	Cualquier traducción al japonés
`*`	`*`	Todas las traducciones

Una misma solicitud de traducción puede activar varios evaluadores de IA si varios coinciden con su par de idiomas.

Sampling#

No hace falta revisar todas las traducciones. La tasa de muestreo controla qué porcentaje de las solicitudes coincidentes se evalúa.

Sampling	Comportamiento
100 %	Se revisa cada solicitud coincidente (más exhaustivo, pero con mayor coste)
50 %	Se revisa aproximadamente la mitad de las solicitudes coincidentes
10 %	Una de cada diez: útil para motores con mucho volumen, donde importan más las tendencias que las puntuaciones individuales
0 %	El evaluador de IA queda en pausa de forma efectiva sin desactivarlo

Compatibilidad con N/A#

Los resultados N/A se excluyen de las medias y de las tasas de aprobados en los informes: no reducen las puntuaciones ni las inflan.

Justificación#

Los evaluadores de IA proporcionan una justificación para los resultados imperfectos para ayudarte a entender qué ha fallado:

Puntuación perfecta (apto o 100 %) — la justificación es null (no hay nada que explicar)
N/A — la justificación es null
Puntuación imperfecta — una breve explicación de una sola frase

Así, los resultados de la revisión resultan accionables: cuando una traducción no supera una comprobación, la justificación te dice por qué sin necesidad de investigarlo manualmente.

Modelo de revisión#

Independencia del modelo

Informes de evaluadores de IA#

Los resultados de la revisión se visualizan en el panel, en la sección de informes de evaluadores de IA, donde se muestra:

Tasas de aprobados a lo largo del tiempo — para evaluadores de IA booleanos, representadas como porcentajes diarios
Puntuaciones medias a lo largo del tiempo — para evaluadores de IA porcentuales, representadas como medias diarias
Desglose por par de idiomas — consulta cómo rinde cada par origen → destino de forma independiente
Vista agregada — combina todos los pares de idiomas en una única línea de tendencia

Los informes de evaluadores de IA complementan Reports, centrado en el volumen; juntos te ofrecen una visión completa tanto del rendimiento como de la calidad.

Gestionar evaluadores de IA mediante MCP#

Si utilizas el Lingo.dev MCP server, tu asistente de programación con IA puede crear y configurar evaluadores de IA directamente:

text

"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations."

text

"Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."

Siguientes pasos#

Reports

Supervisa el volumen de traducción, el uso de tokens y la cobertura de idiomas

LLM Models

Configura los modelos de traducción que evalúan los evaluadores de IA

Glossaries

Configura los términos con los que pueden contrastar los evaluadores de IA de cumplimiento del glosario

API Reference

Integra la API de localización en tu flujo de trabajo