Cuando una localización sale mal, el servidor MCP le da a tu asistente de IA acceso a toda la capa de observabilidad: logs de solicitudes, veredictos de evaluadores, reportes de coincidencias de glosario y resultados de revisión de instrucciones. Depura la calidad sin salir de la conversación.
Logs de solicitudes#
Cada solicitud de localización genera una entrada de log con todo el contexto de ejecución: qué modelo la procesó, tokens de entrada y salida, duración, si se activó un fallback y los datos completos de entrada/salida.
"Muéstrame el último log de solicitud del motor alemán"
El asistente recupera el log y puede responder preguntas de seguimiento: "¿Usó el modelo de fallback?" "¿Cuántos tokens consumió?" "¿Cuál fue la salida en bruto?"
Qué incluye cada log#
| Campo | Qué te muestra |
|---|---|
| Proveedor / modelo | Qué LLM procesó la solicitud |
| Datos de entrada / salida | La entrada exacta que se envió y la localización que se recibió |
| Tokens de entrada / salida | Consumo de tokens |
| Duración | Tiempo de procesamiento en milisegundos |
| Usó fallback | Si el modelo principal falló y entró el fallback |
| Estado | success, error o in_progress |
| Texto del error | Detalle del error cuando el estado es error |
| Tipo de activación | Si la solicitud vino de API, CLI, CI, playground o integración |
Veredictos del evaluador de IA#
Cada log de solicitud enlaza a logs de ejecución de evaluadores: las evaluaciones independientes del evaluador de IA que se ejecutaron después de generar la localización.
"¿La última localización al alemán pasó todos los evaluadores?"
El asistente recupera los logs de ejecución de evaluadores para una solicitud determinada y reporta el veredicto de cada uno: aprobado/reprobado (evaluadores booleanos) o puntuación porcentual, junto con el razonamiento que produjo el evaluador.
Campos del log de ejecución del evaluador#
| Campo | Qué te muestra |
|---|---|
| Nombre del evaluador | Qué evaluador de IA se ejecutó |
| Tipo de evaluador | boolean (aprobado/reprobado) o percentage (0-100) |
| Resultado de la puntuación | El veredicto y su razonamiento |
| Proveedor / modelo | Qué modelo realizó la revisión |
| Duración | Cuánto tardó la revisión |
Cumplimiento del glosario#
"¿Se aplicaron correctamente todos los términos del glosario en esa localización?"
El asistente recupera el log de revisión del glosario de una solicitud y muestra cada término del glosario que tuvo coincidencia, si se aplicó y el razonamiento cuando no fue así.
El reporte incluye:
- Cada término fuente con coincidencia
- La localización de destino esperada
- Si el término es una localización personalizada o no traducible
- Aplicado o no aplicado por término
- Razonamiento cuando un término no se aplicó
- Tasa general de cumplimiento
Adherencia a instrucciones#
"¿La localización al francés siguió la instrucción de espacio de no separación?"
El asistente recupera logs de revisión de instrucciones: una entrada por cada instrucción evaluada contra la salida de la localización. Cada una muestra el nombre de la instrucción, el texto de la regla y un veredicto de aprobado/reprobado con razonamiento.
El flujo de trabajo de depuración#
Una conversación típica de análisis post mortem:
- "La localización al alemán de 'checkout flow' se ve mal"
- "Muéstrame el log de solicitud de eso" - revisa qué entró y qué salió
- "¿Se aplicó el glosario?" - verifica si 'checkout' tuvo coincidencia y se conservó
- "¿Qué dijeron los evaluadores?" - revisa si algún evaluador de IA lo marcó
- "El término del glosario no tuvo coincidencia; actualízalo para que también cubra 'checkout flow'" - corrige la causa raíz
Todo el proceso ocurre en una sola conversación, sin abrir el dashboard.
