Las evaluaciones de IA son controles de calidad automatizados que analizan las traducciones generadas por tu motor de localización. Después de cada solicitud de traducción, Lingo.dev ejecuta evaluaciones independientes con LLM para verificar el resultado y comprobar el cumplimiento del glosario, el seguimiento de instrucciones y cualquier criterio personalizado que definas. Las revisiones se ejecutan de forma asíncrona y nunca bloquean la respuesta de traducción.
Cómo funciona#
Cuando el motor de localización completa una solicitud de traducción, pone en cola las revisiones correspondientes para evaluarlas de forma asíncrona. Cada revisión ejecuta un LLM independiente que recibe el texto fuente, la traducción generada, el contexto y los criterios de evaluación. Devuelve un resultado estructurado —apto/no apto o una puntuación porcentual— con una justificación cuando el resultado no es perfecto.
La pestaña Reviews del motor controla qué revisiones se ejecutan para ese motor. Hay tres categorías:
| Categoría | Qué comprueba | Tipo de resultado | Configuración |
|---|---|---|---|
| Evaluación de IA de elementos del glosario | Si las traducciones siguen las reglas del glossary del motor | Apto / No apto | Opción integrada por motor |
| Evaluación de IA de instrucciones | Si las traducciones siguen cada una de las instructions del motor | Apto / No apto por instrucción | Opción integrada por motor |
| Evaluadores de IA personalizados | Tus propios criterios de evaluación, definidos a nivel de organización | Apto / No apto o 0–100 % | Selección por motor entre los evaluadores del nivel de organización |
Evaluaciones de IA integradas#
Cada motor de localización incluye dos tipos de revisión integrados que verifican las traducciones en función de la propia configuración del motor. Puedes activarlos o desactivarlos en la pestaña Reviews del motor.
Evaluación de IA de elementos del glosario#
Comprueba si la traducción ha respetado todas las reglas del glosario aplicables. Si el motor tiene traducciones personalizadas (p. ej., "Deploy" → "Bereitstellen") o términos no traducibles (p. ej., "OAuth"), la revisión verifica que la traducción los haya respetado.
La revisión tiene en cuenta las variaciones gramaticales: una regla del glosario para un término en un caso gramatical se aplica a todas las formas de ese término. Si existen reglas de glosario en conflicto, la traducción se considera conforme siempre que se haya seguido una de ellas.
El resultado es un único veredicto de apto/no apto para toda la solicitud de traducción, con una justificación cuando el resultado es no apto.
Evaluación de IA de instrucciones#
Evalúa cada instrucción de forma independiente. Si el motor tiene tres instrucciones, la revisión genera tres veredictos independientes de apto/no apto, cada uno con su propia justificación cuando el resultado es no apto.
Una instrucción puede devolver N/A cuando sus criterios no se aplican al contenido que se está traduciendo. Por ejemplo, una instrucción sobre tratamiento formal devuelve N/A cuando la traducción solo contiene un nombre de producto o un término técnico en el que la formalidad es irrelevante. Los resultados N/A se excluyen de las puntuaciones agregadas.
Ambas revisiones integradas solo se activan cuando el motor tiene una configuración relevante: si ningún elemento del glosario coincide con el par de idiomas, no se ejecuta ninguna evaluación de IA de elementos del glosario.
Configurar revisiones por motor#
Abre la pestaña Reviews del motor para controlar qué revisiones se ejecutan para ese motor. La pestaña tiene dos secciones:
Las opciones integradas de la parte superior controlan la evaluación de IA de elementos del glosario y la evaluación de IA de instrucciones. Son independientes: puedes activar una sin la otra, en función de lo que tenga configurado el motor.
Debajo de esas opciones, los evaluadores de IA personalizados muestran todos los evaluadores de IA definidos a nivel de organización. Activa o desactiva cada uno para ese motor concreto. Así puedes mantener una biblioteca compartida de controles de calidad y aplicarlos de forma selectiva.
Un mismo motor puede tener tanto revisiones integradas como varios evaluadores de IA personalizados ejecutándose al mismo tiempo. Todas las revisiones se ejecutan de forma asíncrona después de cada solicitud de traducción, y los resultados aparecen en el registro de traducción y en Reports.
Tipos de evaluador de IA#
Evaluadores de IA booleanos#
Devuelven un veredicto binario: apto o no apto. Úsalos para reglas que se cumplen o no se cumplen.
Ejemplos:
- "¿La traducción conserva todas las etiquetas y atributos HTML?"
- "¿Se aplican correctamente las reglas de pluralización para el idioma de destino?"
- "¿La traducción utiliza tratamiento formal (Sie) en alemán?"
Los resultados se agregan como tasas de aprobados: 75 % significa que 3 de cada 4 traducciones evaluadas han sido aptas.
Evaluadores de IA porcentuales#
Devuelven una puntuación de 0 a 100. Úsalos para dimensiones de calidad que se mueven en un espectro.
Ejemplos:
- "Valora la naturalidad de la traducción para un hablante nativo (0–100)"
- "Puntúa hasta qué punto la traducción conserva el tono y la intención originales (0–100)"
- "Evalúa la corrección gramatical en una escala de 0–100"
Los resultados se agregan como medias a lo largo del periodo de evaluación.
Configuración del evaluador de IA#
| Campo | Descripción |
|---|---|
| Nombre | Una etiqueta que identifica al evaluador de IA (p. ej., "Comprobación de pluralización") |
| Instrucción | Los criterios de evaluación, redactados en lenguaje natural |
| Tipo | boolean (apto/no apto) o percentage (0–100) |
| Idioma de origen | El idioma de origen con el que debe coincidir, o * para cualquiera |
| Idioma de destino | El idioma de destino con el que debe coincidir, o * para cualquiera |
| Proveedor / Modelo | El LLM utilizado para la evaluación (independiente del modelo de traducción) |
| Sampling | Porcentaje de solicitudes que se deben evaluar (0–100 %) |
| Allow N/A | Si el evaluador de IA puede devolver "not applicable" para pares no relevantes |
| Enabled | Activa o desactiva la revisión sin eliminar la configuración |
Redactar instrucciones para evaluadores de IA#
El campo de instrucción es el núcleo de un evaluador de IA. Le indica al LLM de evaluación exactamente qué debe comprobar. Redáctalo como un criterio específico y verificable.
Buenas instrucciones#
Booleano:
Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.Porcentaje:
Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.Qué hace que una instrucción sea buena#
- Criterios específicos — define exactamente qué significa apto/no apto o qué representan 0 y 100
- Resultados observables — el LLM debe poder evaluar leyendo el texto, no adivinando la intención
- Un único aspecto por evaluador de IA — divide las comprobaciones de calidad multidimensionales en evaluadores de IA separados
Coincidencia de idiomas#
Los evaluadores de IA hacen coincidir las solicitudes de traducción por idioma de origen y de destino. El comodín * coincide con cualquier idioma.
| Idioma de origen | Idioma de destino | Coincide con |
|---|---|---|
en | de | Solo traducciones de inglés → alemán |
en | * | Cualquier traducción desde inglés |
* | ja | Cualquier traducción al japonés |
* | * | Todas las traducciones |
Una misma solicitud de traducción puede activar varios evaluadores de IA si varios coinciden con su par de idiomas.
Sampling#
No hace falta revisar todas las traducciones. La tasa de muestreo controla qué porcentaje de las solicitudes coincidentes se evalúa.
| Sampling | Comportamiento |
|---|---|
| 100 % | Se revisa cada solicitud coincidente (más exhaustivo, pero con mayor coste) |
| 50 % | Se revisa aproximadamente la mitad de las solicitudes coincidentes |
| 10 % | Una de cada diez: útil para motores con mucho volumen, donde importan más las tendencias que las puntuaciones individuales |
| 0 % | El evaluador de IA queda en pausa de forma efectiva sin desactivarlo |
El muestreo se aplica en el momento de la solicitud mediante una comprobación aleatoria. Con un volumen suficiente de solicitudes, la tasa real de evaluación converge hacia el porcentaje configurado.
Compatibilidad con N/A#
Cuando allowsNA está activado, el LLM de revisión puede devolver "not applicable" en lugar de una puntuación. Esto resulta útil para evaluadores de IA cuyos criterios no se aplican a todos los pares de idiomas.
Ejemplo: Un evaluador de IA que comprueba las convenciones de tratamiento formal devuelve N/A para traducciones de inglés → inglés (el inglés no distingue entre tratamiento formal e informal), pero devuelve una puntuación para inglés → alemán.
Los resultados N/A se excluyen de las medias y de las tasas de aprobados en los informes: no reducen las puntuaciones ni las inflan.
Justificación#
Los evaluadores de IA proporcionan una justificación para los resultados imperfectos para ayudarte a entender qué ha fallado:
- Puntuación perfecta (apto o 100 %) — la justificación es null (no hay nada que explicar)
- N/A — la justificación es null
- Puntuación imperfecta — una breve explicación de una sola frase
Así, los resultados de la revisión resultan accionables: cuando una traducción no supera una comprobación, la justificación te dice por qué sin necesidad de investigarlo manualmente.
Modelo de revisión#
Cada evaluador de IA tiene su propia configuración de proveedor y modelo de LLM, independiente del modelo de traducción. Esta separación es intencionada: el modelo que genera la traducción no debe ser el mismo que la evalúa.
Independencia del modelo
Usar un modelo distinto para la revisión y para la traducción aporta una evaluación independiente. Si GPT-4o genera la traducción, evaluarla con Claude Sonnet te da una segunda opinión en lugar de una autoevaluación.
Informes de evaluadores de IA#
Los resultados de la revisión se visualizan en el panel, en la sección de informes de evaluadores de IA, donde se muestra:
- Tasas de aprobados a lo largo del tiempo — para evaluadores de IA booleanos, representadas como porcentajes diarios
- Puntuaciones medias a lo largo del tiempo — para evaluadores de IA porcentuales, representadas como medias diarias
- Desglose por par de idiomas — consulta cómo rinde cada par origen → destino de forma independiente
- Vista agregada — combina todos los pares de idiomas en una única línea de tendencia
Los informes de evaluadores de IA complementan Reports, centrado en el volumen; juntos te ofrecen una visión completa tanto del rendimiento como de la calidad.
Gestionar evaluadores de IA mediante MCP#
Si utilizas el Lingo.dev MCP server, tu asistente de programación con IA puede crear y configurar evaluadores de IA directamente:
"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations.""Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."