로컬라이제이션 품질 디버깅

로컬라이제이션 결과가 기대와 다를 때, MCP 서버는 AI 어시스턴트가 전체 관측성 스택에 접근할 수 있게 해줍니다. 요청 로그, 채점기 판정, 용어집 일치 보고서, 지침 검토 결과까지 모두 확인할 수 있죠. 대화 흐름을 끊지 않고 바로 품질을 디버깅하세요.

요청 로그#

모든 로컬라이제이션 요청은 전체 실행 컨텍스트가 담긴 로그 항목을 남깁니다. 어떤 모델이 처리했는지, 입력 및 출력 토큰 수, 소요 시간, 폴백이 트리거되었는지 여부, 그리고 전체 입력/출력 데이터까지 포함됩니다.

"독일어 엔진의 최근 요청 로그를 보여줘"

어시스턴트는 로그를 가져온 뒤 후속 질문에도 답할 수 있습니다. "폴백 모델을 사용했나요?" "토큰을 얼마나 썼나요?" "원시 출력은 뭐였나요?"

필드	확인할 수 있는 내용
제공자 / 모델	어떤 LLM이 요청을 처리했는지
입력 / 출력 데이터	전송된 정확한 입력과 반환된 로컬라이제이션
입력 / 출력 토큰	토큰 사용량
소요 시간	밀리초 단위의 처리 시간
폴백 사용 여부	기본 모델이 실패해 폴백이 동작했는지 여부
상태	`success`, `error`, 또는 `in_progress`
오류 텍스트	상태가 `error`일 때의 오류 상세 정보
트리거 유형	요청이 API, CLI, CI, playground, 또는 integration에서 발생했는지 여부

각 요청 로그는 채점기 실행 로그와 연결됩니다. 로컬라이제이션이 생성된 뒤 실행된 독립적인 AI 평가 결과입니다.

"가장 최근 독일어 로컬라이제이션이 모든 채점기를 통과했나요?"

어시스턴트는 특정 요청의 채점기 실행 로그를 가져와 각 채점기의 판정을 알려줍니다. 불리언 채점기는 통과/실패, 점수형 채점기는 백분율 점수로 보여주며, 평가자가 남긴 근거도 함께 확인할 수 있습니다.

"해당 로컬라이제이션에서 모든 용어집 항목이 올바르게 적용됐나요?"

어시스턴트는 요청의 용어집 검토 로그를 가져와 일치한 각 용어집 항목, 실제 적용 여부, 그리고 적용되지 않았다면 그 이유까지 보여줍니다.

보고서에는 다음이 포함됩니다:

"프랑스어 로컬라이제이션이 줄바꿈 없는 공백 지침을 따랐나요?"

어시스턴트는 지침 검토 로그를 가져옵니다. 각 로그 항목은 로컬라이제이션 출력에 대해 평가된 지침 하나를 나타냅니다. 항목마다 지침 이름, 규칙 텍스트, 그리고 근거가 포함된 통과/실패 판정을 확인할 수 있습니다.

전형적인 사후 분석 대화는 다음과 같습니다:

이 전체 흐름이 대시보드를 열지 않고도 하나의 대화 안에서 이루어집니다.