Depura la calidad de la localización

Cuando una localización sale mal, el servidor MCP da a tu asistente de IA acceso a toda la capa de observabilidad: registros de solicitudes, veredictos de los puntuadores, informes de coincidencia de glosario y resultados de revisión de instrucciones. Depura la calidad sin salir de la conversación.

Registros de solicitudes#

Cada solicitud de localización genera una entrada de registro con todo el contexto de ejecución: qué modelo la procesó, los tokens de entrada y salida, la duración, si se activó un fallback y los datos completos de entrada y salida.

"Muéstrame el último registro de solicitud del motor alemán"

El asistente recupera el registro y puede responder a preguntas de seguimiento: "¿Usó el modelo de fallback?" "¿Cuántos tokens consumió?" "¿Cuál fue la salida en bruto?"

Qué contiene cada registro#

Campo	Qué te indica
Proveedor / modelo	Qué LLM gestionó la solicitud
Datos de entrada / salida	La entrada exacta enviada y la localización recibida
Tokens de entrada / salida	Consumo de tokens
Duración	Tiempo de procesamiento en milisegundos
Usó fallback	Si el modelo principal falló y entró en juego el fallback
Estado	`success`, `error` o `in_progress`
Texto del error	Detalle del error cuando el estado es `error`
Tipo de activación	Si la solicitud procedía de la API, CLI, CI, playground o una integración

Veredictos del evaluador de IA#

Cada registro de solicitud enlaza con registros de ejecución de puntuadores: las evaluaciones independientes del evaluador de IA que se ejecutaron después de generar la localización.

"¿La última localización al alemán pasó todos los puntuadores?"

El asistente recupera los registros de ejecución de puntuadores de una solicitud concreta e informa del veredicto de cada puntuador: aprobado/no aprobado (puntuadores booleanos) o puntuación porcentual, junto con el razonamiento que generó el evaluador.

Campos del registro de ejecución de puntuadores#

Campo	Qué te indica
Nombre del puntuador	Qué evaluador de IA se ejecutó
Tipo de puntuador	`boolean` (aprobado/no aprobado) o `percentage` (0-100)
Resultado de la puntuación	El veredicto y el razonamiento
Proveedor / modelo	Qué modelo realizó la revisión
Duración	Cuánto duró la revisión

Cumplimiento del glosario#

"¿Se aplicaron correctamente todos los términos del glosario en esa localización?"

El asistente recupera el registro de revisión del glosario de una solicitud y muestra cada término del glosario detectado, si se aplicó y el razonamiento en caso contrario.

El informe incluye:

Cada término de origen detectado
La localización de destino esperada
Si el término es una localización personalizada o no traducible
Si se aplicó o no en cada término
El razonamiento cuando no se aplicó un término
La tasa global de cumplimiento

Adherencia a las instrucciones#

"¿La localización al francés siguió la instrucción del espacio de no separación?"

El asistente recupera registros de revisión de instrucciones: una entrada por cada instrucción evaluada frente a la salida de la localización. Cada una muestra el nombre de la instrucción, el texto de la regla y un veredicto de aprobado/no aprobado con razonamiento.

El flujo de trabajo de depuración#

Una conversación típica de análisis posterior:

"La localización al alemán de 'checkout flow' parece incorrecta"
"Muéstrame el registro de solicitud de eso" - ver qué entró y qué salió
"¿Se aplicó el glosario?" - comprobar si 'checkout' se detectó y se conservó
"¿Qué dijeron los puntuadores?" - ver si algún evaluador de IA lo marcó
"El término del glosario no se detectó; actualízalo para que también cubra 'checkout flow'" - corregir la causa raíz

Todo el ciclo ocurre en una sola conversación, sin abrir el panel.