로컬라이제이션 결과가 기대와 다를 때, MCP 서버는 AI 어시스턴트가 전체 관측성 스택에 접근할 수 있게 해줍니다. 요청 로그, 채점기 판정, 용어집 일치 보고서, 지침 검토 결과까지 모두 확인할 수 있죠. 대화 흐름을 끊지 않고 바로 품질을 디버깅하세요.
요청 로그#
모든 로컬라이제이션 요청은 전체 실행 컨텍스트가 담긴 로그 항목을 남깁니다. 어떤 모델이 처리했는지, 입력 및 출력 토큰 수, 소요 시간, 폴백이 트리거되었는지 여부, 그리고 전체 입력/출력 데이터까지 포함됩니다.
"독일어 엔진의 최근 요청 로그를 보여줘"
어시스턴트는 로그를 가져온 뒤 후속 질문에도 답할 수 있습니다. "폴백 모델을 사용했나요?" "토큰을 얼마나 썼나요?" "원시 출력은 뭐였나요?"
로그에 포함되는 정보#
| 필드 | 확인할 수 있는 내용 |
|---|---|
| 제공자 / 모델 | 어떤 LLM이 요청을 처리했는지 |
| 입력 / 출력 데이터 | 전송된 정확한 입력과 반환된 로컬라이제이션 |
| 입력 / 출력 토큰 | 토큰 사용량 |
| 소요 시간 | 밀리초 단위의 처리 시간 |
| 폴백 사용 여부 | 기본 모델이 실패해 폴백이 동작했는지 여부 |
| 상태 | success, error, 또는 in_progress |
| 오류 텍스트 | 상태가 error일 때의 오류 상세 정보 |
| 트리거 유형 | 요청이 API, CLI, CI, playground, 또는 integration에서 발생했는지 여부 |
AI 평가자 판정#
각 요청 로그는 채점기 실행 로그와 연결됩니다. 로컬라이제이션이 생성된 뒤 실행된 독립적인 AI 평가 결과입니다.
"가장 최근 독일어 로컬라이제이션이 모든 채점기를 통과했나요?"
어시스턴트는 특정 요청의 채점기 실행 로그를 가져와 각 채점기의 판정을 알려줍니다. 불리언 채점기는 통과/실패, 점수형 채점기는 백분율 점수로 보여주며, 평가자가 남긴 근거도 함께 확인할 수 있습니다.
채점기 실행 로그 필드#
| 필드 | 확인할 수 있는 내용 |
|---|---|
| 채점기 이름 | 어떤 AI 평가자가 실행되었는지 |
| 채점기 유형 | boolean (통과/실패) 또는 percentage (0-100) |
| 점수 결과 | 판정과 그 근거 |
| 제공자 / 모델 | 어떤 모델이 검토를 수행했는지 |
| 소요 시간 | 검토에 걸린 시간 |
용어집 준수#
"해당 로컬라이제이션에서 모든 용어집 항목이 올바르게 적용됐나요?"
어시스턴트는 요청의 용어집 검토 로그를 가져와 일치한 각 용어집 항목, 실제 적용 여부, 그리고 적용되지 않았다면 그 이유까지 보여줍니다.
보고서에는 다음이 포함됩니다:
- 일치한 각 원문 용어
- 예상 대상 로컬라이제이션
- 해당 용어가 사용자 지정 로컬라이제이션인지, 번역 불가 항목인지 여부
- 각 용어별 적용 여부
- 용어가 적용되지 않았을 때의 근거
- 전체 준수율
지침 준수#
"프랑스어 로컬라이제이션이 줄바꿈 없는 공백 지침을 따랐나요?"
어시스턴트는 지침 검토 로그를 가져옵니다. 각 로그 항목은 로컬라이제이션 출력에 대해 평가된 지침 하나를 나타냅니다. 항목마다 지침 이름, 규칙 텍스트, 그리고 근거가 포함된 통과/실패 판정을 확인할 수 있습니다.
디버깅 워크플로#
전형적인 사후 분석 대화는 다음과 같습니다:
- "'checkout flow'의 독일어 로컬라이제이션이 이상해 보여"
- "해당 요청 로그를 보여줘" - 무엇이 입력됐고 무엇이 출력됐는지 확인
- "용어집이 적용됐어?" - 'checkout'이 일치하고 유지됐는지 확인
- "채점기들은 뭐라고 했어?" - AI 평가자가 문제로 표시했는지 확인
- "용어집 항목이 일치하지 않았네 — 'checkout flow'도 포함하도록 업데이트해" - 근본 원인 수정
이 전체 흐름이 대시보드를 열지 않고도 하나의 대화 안에서 이루어집니다.
