Depura la calidad de la localización

Cuando una localización sale mal, el servidor MCP le da a tu asistente de IA acceso a toda la capa de observabilidad: logs de solicitudes, veredictos de evaluadores, reportes de coincidencias de glosario y resultados de revisión de instrucciones. Depura la calidad sin salir de la conversación.

Logs de solicitudes#

Cada solicitud de localización genera una entrada de log con todo el contexto de ejecución: qué modelo la procesó, tokens de entrada y salida, duración, si se activó un fallback y los datos completos de entrada/salida.

"Muéstrame el último log de solicitud del motor alemán"

El asistente recupera el log y puede responder preguntas de seguimiento: "¿Usó el modelo de fallback?" "¿Cuántos tokens consumió?" "¿Cuál fue la salida en bruto?"

Qué incluye cada log#

Campo	Qué te muestra
Proveedor / modelo	Qué LLM procesó la solicitud
Datos de entrada / salida	La entrada exacta que se envió y la localización que se recibió
Tokens de entrada / salida	Consumo de tokens
Duración	Tiempo de procesamiento en milisegundos
Usó fallback	Si el modelo principal falló y entró el fallback
Estado	`success`, `error` o `in_progress`
Texto del error	Detalle del error cuando el estado es `error`
Tipo de activación	Si la solicitud vino de API, CLI, CI, playground o integración

Veredictos del evaluador de IA#

Cada log de solicitud enlaza a logs de ejecución de evaluadores: las evaluaciones independientes del evaluador de IA que se ejecutaron después de generar la localización.

"¿La última localización al alemán pasó todos los evaluadores?"

El asistente recupera los logs de ejecución de evaluadores para una solicitud determinada y reporta el veredicto de cada uno: aprobado/reprobado (evaluadores booleanos) o puntuación porcentual, junto con el razonamiento que produjo el evaluador.

Campos del log de ejecución del evaluador#

Campo	Qué te muestra
Nombre del evaluador	Qué evaluador de IA se ejecutó
Tipo de evaluador	`boolean` (aprobado/reprobado) o `percentage` (0-100)
Resultado de la puntuación	El veredicto y su razonamiento
Proveedor / modelo	Qué modelo realizó la revisión
Duración	Cuánto tardó la revisión

Cumplimiento del glosario#

"¿Se aplicaron correctamente todos los términos del glosario en esa localización?"

El asistente recupera el log de revisión del glosario de una solicitud y muestra cada término del glosario que tuvo coincidencia, si se aplicó y el razonamiento cuando no fue así.

El reporte incluye:

Cada término fuente con coincidencia
La localización de destino esperada
Si el término es una localización personalizada o no traducible
Aplicado o no aplicado por término
Razonamiento cuando un término no se aplicó
Tasa general de cumplimiento

Adherencia a instrucciones#

"¿La localización al francés siguió la instrucción de espacio de no separación?"

El asistente recupera logs de revisión de instrucciones: una entrada por cada instrucción evaluada contra la salida de la localización. Cada una muestra el nombre de la instrucción, el texto de la regla y un veredicto de aprobado/reprobado con razonamiento.

El flujo de trabajo de depuración#

Una conversación típica de análisis post mortem:

"La localización al alemán de 'checkout flow' se ve mal"
"Muéstrame el log de solicitud de eso" - revisa qué entró y qué salió
"¿Se aplicó el glosario?" - verifica si 'checkout' tuvo coincidencia y se conservó
"¿Qué dijeron los evaluadores?" - revisa si algún evaluador de IA lo marcó
"El término del glosario no tuvo coincidencia; actualízalo para que también cubra 'checkout flow'" - corrige la causa raíz

Todo el proceso ocurre en una sola conversación, sin abrir el dashboard.