Отладка качества локализации

Если локализация получилась неудачной, MCP-сервер даёт вашему AI-помощнику доступ ко всему стеку наблюдаемости: логам запросов, вердиктам оценщиков, отчётам о совпадениях по глоссарию и результатам проверки инструкций. Разбирайтесь с качеством, не выходя из диалога.

Логи запросов#

Каждый запрос на локализацию создаёт запись в логе с полным контекстом выполнения: какая модель его обработала, сколько было входных и выходных токенов, сколько времени заняла обработка, сработал ли fallback, а также полные входные и выходные данные.

"Покажи последний лог запроса для немецкого движка"

Помощник получает лог и может ответить на уточняющие вопросы: "Использовалась ли fallback-модель?" "Сколько токенов было потрачено?" "Каким был сырой вывод?"

Что есть в каждом логе#

Поле	Что показывает
Провайдер / модель	Какая LLM обработала запрос
Входные / выходные данные	Точные входные данные, отправленные в систему, и полученная локализация
Входные / выходные токены	Расход токенов
Длительность	Время обработки в миллисекундах
Использован fallback	Сработала ли основная модель или был задействован fallback
Статус	`success`, `error` или `in_progress`
Текст ошибки	Подробности ошибки, если статус — `error`
Тип запуска	Пришёл ли запрос из API, CLI, CI, playground или интеграции

Вердикты AI-оценщика#

С каждым логом запроса связаны логи запусков оценщиков — независимые оценки AI-оценщика, выполненные после того, как локализация была готова.

"Прошла ли последняя немецкая локализация все проверки оценщиков?"

Помощник получает логи запусков оценщиков для нужного запроса и показывает вердикт каждого: pass/fail (для булевых оценщиков) или процентный балл, а также обоснование, которое выдал AI-оценщик.

Поля лога запуска оценщика#

Поле	Что показывает
Название оценщика	Какой AI-оценщик выполнялся
Тип оценщика	`boolean` (pass/fail) или `percentage` (0-100)
Результат оценки	Вердикт и обоснование
Провайдер / модель	Какая модель выполнила проверку
Длительность	Сколько времени заняла проверка

Соблюдение глоссария#

"Все ли термины из глоссария были правильно применены в этой локализации?"

Помощник получает лог проверки глоссария по запросу, где показаны все совпавшие термины, применялись ли они, и обоснование, если нет.

Отчёт включает:

Каждый совпавший исходный термин
Ожидаемую целевую локализацию
Является ли термин пользовательской локализацией или непереводимым
Применён термин или нет
Обоснование, если термин не был применён
Общий уровень соблюдения

Соблюдение инструкций#

"Соблюдена ли в французской локализации инструкция по неразрывному пробелу?"

Помощник получает логи проверки инструкций — по одной записи на каждую инструкцию, которая оценивалась по результату локализации. В каждой записи указаны название инструкции, текст правила и вердикт pass/fail с обоснованием.

Процесс отладки#

Типичный post-mortem диалог:

"Немецкая локализация 'checkout flow' выглядит неправильно"
"Покажи лог запроса по этому случаю" — посмотреть, что было на входе и что получилось на выходе
"Глоссарий сработал?" — проверить, был ли 'checkout' найден и сохранён
"Что показали оценщики?" — посмотреть, отметил ли проблему какой-нибудь AI-оценщик
"Термин из глоссария не совпал — обнови его, чтобы он также покрывал 'checkout flow'" — устранить первопричину

Весь цикл проходит в рамках одного диалога, без перехода в дашборд.