Las evaluaciones de IA son controles automatizados de calidad que analizan las traducciones generadas por tu motor de localización. Después de cada solicitud de traducción, Lingo.dev ejecuta evaluaciones independientes con LLM para validar el resultado: comprueba el cumplimiento del glosario, el seguimiento de instrucciones y cualquier criterio personalizado que definas. Estas revisiones se ejecutan de forma asíncrona y nunca bloquean la respuesta de traducción.
Cómo funciona#
Cuando el motor de localización completa una solicitud de traducción, pone en cola las revisiones aplicables para evaluarlas de forma asíncrona. Cada revisión ejecuta un LLM independiente que recibe el texto fuente, la traducción, el contexto y los criterios de evaluación. Devuelve un resultado estructurado — aprobado/reprobado o un puntaje porcentual — junto con una explicación cuando el resultado no es perfecto.
La pestaña Reviews del motor controla qué revisiones se ejecutan para ese motor. Hay tres categorías:
| Categoría | Qué evalúa | Tipo de resultado | Configuración |
|---|---|---|---|
| evaluación de IA de elementos del glosario | Si las traducciones siguen las reglas del glosario del motor | Aprobado / Reprobado | Interruptor integrado por motor |
| evaluación de IA de instrucciones | Si las traducciones siguen cada una de las instrucciones del motor | Aprobado / Reprobado por instrucción | Interruptor integrado por motor |
| evaluadores de IA personalizados | Tus propios criterios de evaluación, definidos a nivel de la organización | Aprobado / Reprobado o 0–100% | Selección por motor desde los evaluadores definidos a nivel de la organización |
Evaluaciones de IA integradas#
Cada motor de localización incluye dos tipos de revisión integrados que validan las traducciones contra la configuración del propio motor. Actívalos o desactívalos en la pestaña Reviews del motor.
evaluación de IA de elementos del glosario#
Comprueba si la traducción respetó todas las reglas de glosario aplicables. Si el motor tiene traducciones personalizadas (por ejemplo, "Deploy" → "Bereitstellen") o términos no traducibles (por ejemplo, "OAuth"), la revisión verifica que la traducción los haya respetado.
La revisión tiene en cuenta las variaciones gramaticales: una regla del glosario para un término en un caso gramatical se aplica a todas las formas de ese término. Si existen reglas de glosario en conflicto, la traducción se considera compatible siempre que se haya seguido una de ellas.
El resultado es un único veredicto de aprobado/reprobado para toda la solicitud de traducción, con una explicación cuando el resultado es reprobado.
evaluación de IA de instrucciones#
Evalúa cada instrucción por separado. Si el motor tiene tres instrucciones, la revisión genera tres veredictos independientes de aprobado/reprobado, cada uno con su propia explicación cuando el resultado es reprobado.
Una instrucción puede devolver N/A cuando sus criterios no aplican al contenido que se está traduciendo. Por ejemplo, una instrucción sobre tratamiento formal devuelve N/A cuando la traducción solo contiene un nombre de producto o un término técnico donde la formalidad no es relevante. Los resultados N/A se excluyen de los puntajes agregados.
Ambas revisiones integradas solo se activan cuando el motor tiene una configuración relevante; si ningún elemento del glosario coincide con el par de idiomas, no se ejecuta la evaluación de IA de elementos del glosario.
Configurar revisiones por motor#
Abre la pestaña Reviews del motor para controlar qué revisiones se ejecutan en ese motor. La pestaña tiene dos secciones:
Los interruptores integrados en la parte superior controlan la evaluación de IA de elementos del glosario y la evaluación de IA de instrucciones. Son independientes: puedes activar una sin la otra, según la configuración del motor.
Los evaluadores de IA personalizados que aparecen debajo de los interruptores muestran todos los evaluadores de IA definidos a nivel de la organización. Activa o desactiva cada uno para ese motor específico. Así puedes mantener una biblioteca compartida de controles de calidad y aplicarlos de forma selectiva.
Un mismo motor puede tener al mismo tiempo revisiones integradas y varios evaluadores de IA personalizados en ejecución. Todas las revisiones se ejecutan de forma asíncrona después de cada solicitud de traducción, y los resultados aparecen en el registro de traducción y en Reports.
Tipos de evaluador de IA#
Evaluadores de IA booleanos#
Devuelven un veredicto binario: aprobado o reprobado. Úsalos para reglas que se cumplen o no se cumplen.
Ejemplos:
- "¿La traducción conserva todas las etiquetas y atributos HTML?"
- "¿Las reglas de pluralización se aplican correctamente en el idioma de destino?"
- "¿La traducción usa tratamiento formal (Sie) en alemán?"
Los resultados se agregan como tasas de aprobación: 75% significa que 3 de 4 traducciones evaluadas aprobaron.
Evaluadores de IA porcentuales#
Devuelven un puntaje de 0 a 100. Úsalos para dimensiones de calidad que se miden en un espectro.
Ejemplos:
- "Califica qué tan natural suena la traducción para un hablante nativo (0–100)"
- "Puntúa qué tan bien la traducción conserva el tono y la intención originales (0–100)"
- "Evalúa la corrección gramatical en una escala de 0–100"
Los resultados se agregan como promedios a lo largo del período de evaluación.
Configuración del evaluador de IA#
| Campo | Descripción |
|---|---|
| Nombre | Una etiqueta que identifica al evaluador de IA (por ejemplo, "Verificación de pluralización") |
| Instrucción | Los criterios de evaluación, escritos en lenguaje natural |
| Tipo | boolean (aprobado/reprobado) o percentage (0–100) |
| Idioma de origen | El idioma de origen que debe coincidir, o * para cualquiera |
| Idioma de destino | El idioma de destino que debe coincidir, o * para cualquiera |
| Proveedor / Modelo | El LLM que se usa para la evaluación (independiente del modelo de traducción) |
| Muestreo | Porcentaje de solicitudes que se evaluarán (0–100%) |
| Permitir N/A | Si el evaluador de IA puede devolver "no aplica" para pares irrelevantes |
| Habilitado | Activa o desactiva la revisión sin eliminar la configuración |
Cómo escribir instrucciones para evaluadores de IA#
El campo de instrucción es el núcleo de un evaluador de IA. Le indica al LLM de evaluación exactamente qué debe revisar. Escríbelo como un criterio específico y comprobable.
Buenas instrucciones#
Booleano:
Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.Porcentaje:
Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.Qué hace que una instrucción sea buena#
- Criterios específicos - define exactamente qué significa aprobado/reprobado, o qué representan 0 y 100
- Resultados observables - el LLM debe poder evaluar leyendo el texto, no adivinando la intención
- Un solo aspecto por evaluador de IA - divide las verificaciones de calidad multidimensionales en evaluadores de IA separados
Coincidencia de idiomas#
Los evaluadores de IA hacen coincidir las solicitudes de traducción según el idioma de origen y el idioma de destino. El comodín * coincide con cualquier idioma.
| Idioma de origen | Idioma de destino | Coincide con |
|---|---|---|
en | de | Solo traducciones de inglés → alemán |
en | * | Cualquier traducción desde inglés |
* | ja | Cualquier traducción hacia japonés |
* | * | Todas las traducciones |
Una sola solicitud de traducción puede activar varios evaluadores de IA si más de uno coincide con su par de idiomas.
Muestreo#
No todas las traducciones necesitan revisión. La tasa de muestreo controla qué porcentaje de las solicitudes coincidentes se evalúa.
| Muestreo | Comportamiento |
|---|---|
| 100% | Se revisa cada solicitud coincidente (exhaustivo, pero con mayor costo) |
| 50% | Se revisa aproximadamente la mitad de las solicitudes coincidentes |
| 10% | Una de cada diez - útil para motores de alto volumen, donde las tendencias importan más que los puntajes individuales |
| 0% | El evaluador de IA queda en pausa en la práctica sin necesidad de deshabilitarlo |
El muestreo se aplica en el momento de la solicitud mediante una verificación aleatoria. Con un volumen suficiente de solicitudes, la tasa real de evaluación converge al porcentaje configurado.
Compatibilidad con N/A#
Cuando allowsNA está habilitado, el LLM de revisión puede devolver "no aplica" en lugar de un puntaje. Esto es útil para evaluadores de IA cuyos criterios no aplican a todos los pares de idiomas.
Ejemplo: un evaluador de IA que revisa convenciones de tratamiento formal devuelve N/A para traducciones de inglés → inglés (el inglés no tiene distinción formal/informal), pero devuelve un puntaje para inglés → alemán.
Los resultados N/A se excluyen de los promedios y las tasas de aprobación en los informes: no bajan ni inflan los puntajes.
Explicación#
Los evaluadores de IA proporcionan una explicación para los resultados imperfectos, para ayudarte a entender qué salió mal:
- Puntaje perfecto (aprobado o 100%) - la explicación es null (no hay nada que explicar)
- N/A - la explicación es null
- Puntaje imperfecto - una explicación breve de una sola oración
Esto hace que los resultados de la revisión sean accionables: cuando una traducción no pasa una verificación, la explicación te dice por qué sin necesidad de investigar manualmente.
Modelo de revisión#
Cada evaluador de IA tiene su propia configuración de proveedor y modelo de LLM, independiente del modelo de traducción. Esta separación es intencional: el modelo que produce la traducción no debe ser el mismo que la evalúa.
Independencia del modelo
Usar un modelo distinto para la revisión y para la traducción aporta una evaluación independiente. Si GPT-4o genera la traducción, evaluarla con Claude Sonnet te da una segunda opinión en lugar de una autoevaluación.
Informes de evaluadores de IA#
Los resultados de la revisión se visualizan en el panel, en la sección de informes de evaluadores de IA, donde verás:
- Tasas de aprobación a lo largo del tiempo - para evaluadores de IA booleanos, graficadas como porcentajes diarios
- Puntajes promedio a lo largo del tiempo - para evaluadores de IA porcentuales, graficados como promedios diarios
- Desglose por par de idiomas - observa cómo rinde cada par origen → destino de forma independiente
- Vista agregada - combina todos los pares de idiomas en una sola línea de tendencia
Los informes de evaluadores de IA complementan los Reports centrados en volumen; juntos te ofrecen una visión completa tanto del rendimiento como de la calidad.
Gestionar evaluadores de IA mediante MCP#
Si usas el servidor MCP de Lingo.dev, tu asistente de programación con IA puede crear y configurar evaluadores de IA directamente:
"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations.""Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."