AI 평가는 로컬라이제이션 엔진이 생성한 번역을 자동으로 점검하는 품질 검사입니다. 각 번역 요청 이후 Lingo.dev는 독립적인 LLM 평가를 실행해 결과물을 검증합니다. 이 과정에서 용어집 준수 여부, 지침 이행 여부, 그리고 사용자가 정의한 커스텀 기준까지 확인합니다. 평가는 비동기적으로 실행되며 번역 응답을 차단하지 않습니다.
작동 방식#
로컬라이제이션 엔진이 번역 요청을 완료하면, 해당되는 검토가 비동기 평가를 위해 대기열에 추가됩니다. 각 검토는 원문, 번역 결과, 컨텍스트, 평가 기준을 입력으로 받는 독립적인 LLM으로 실행됩니다. 결과는 구조화된 형식으로 반환되며, 합격/불합격 또는 백분율 점수와 함께 완벽하지 않은 결과에 대한 근거도 제공됩니다.
엔진의 Reviews 탭에서 해당 엔진에 어떤 검토를 실행할지 설정할 수 있습니다. 검토는 세 가지 카테고리로 나뉩니다:
| 카테고리 | 확인 내용 | 결과 유형 | 설정 방식 |
|---|---|---|---|
| 용어집 항목 AI 평가 | 번역이 엔진의 glossary 규칙을 따르는지 | 합격 / 불합격 | 엔진별 내장 토글 |
| 지침 AI 평가 | 번역이 엔진의 각 instructions를 따르는지 | 지침별 합격 / 불합격 | 엔진별 내장 토글 |
| 커스텀 AI 평가자 | 조직 수준에서 정의한 자체 평가 기준 | 합격 / 불합격 또는 0–100% | 조직 수준 평가자 중에서 엔진별 선택 |
내장 AI 평가#
모든 로컬라이제이션 엔진에는 번역 결과를 엔진 자체 설정에 비춰 검증하는 두 가지 내장 검토 유형이 포함되어 있습니다. 엔진의 Reviews 탭에서 활성화하거나 비활성화할 수 있습니다.
용어집 항목 AI 평가#
번역이 적용 가능한 모든 용어집 규칙을 준수했는지 확인합니다. 엔진에 커스텀 번역(예: "Deploy" → "Bereitstellen")이나 번역 금지 용어(예: "OAuth")가 있는 경우, 이 평가는 번역이 이를 제대로 반영했는지 검증합니다.
이 검토는 문법적 변형까지 고려합니다. 특정 문법 격의 용어에 대한 용어집 규칙은 해당 용어의 모든 형태에 적용됩니다. 서로 충돌하는 용어집 규칙이 있더라도 그중 하나만 따랐다면 번역은 준수한 것으로 간주됩니다.
결과는 전체 번역 요청에 대한 단일 합격/불합격 판정으로 제공되며, 불합격일 경우 그 이유도 함께 표시됩니다.
지침 AI 평가#
각 지침을 독립적으로 평가합니다. 예를 들어 엔진에 지침이 세 개 있다면, 이 평가는 세 개의 개별 합격/불합격 판정을 생성하며 각 판정이 불합격인 경우 각각의 근거도 함께 제공합니다.
지침의 기준이 번역 대상 콘텐츠에 적용되지 않는 경우 N/A를 반환할 수 있습니다. 예를 들어 격식체 사용에 대한 지침은 번역에 제품명이나 격식 여부가 중요하지 않은 기술 용어만 포함된 경우 N/A를 반환합니다. N/A 결과는 집계 점수에서 제외됩니다.
두 내장 평가는 모두 엔진에 관련 설정이 있을 때만 실행됩니다. 예를 들어 해당 로캘 쌍에 일치하는 용어집 항목이 없다면 용어집 항목 AI 평가는 실행되지 않습니다.
엔진별 검토 설정#
엔진의 Reviews 탭을 열면 해당 엔진에서 어떤 검토를 실행할지 설정할 수 있습니다. 이 탭은 두 개의 섹션으로 구성됩니다:
상단의 내장 토글에서는 용어집 항목 AI 평가와 지침 AI 평가를 제어합니다. 두 평가는 서로 독립적이므로, 엔진 설정에 따라 하나만 활성화할 수도 있습니다.
토글 아래의 커스텀 AI 평가자에는 조직 수준에서 정의된 모든 AI 평가자가 나열됩니다. 각 평가자를 특정 엔진에 대해 개별적으로 켜거나 끌 수 있습니다. 이를 통해 공통 품질 검사 라이브러리를 유지하면서 필요한 엔진에만 선택적으로 적용할 수 있습니다.
하나의 엔진에서 내장 검토와 여러 커스텀 AI 평가자가 동시에 실행될 수 있습니다. 모든 검토는 각 번역 요청 후 비동기적으로 실행되며, 결과는 번역 로그와 Reports에 표시됩니다.
AI 평가자 유형#
불리언 AI 평가자#
이진 판정을 반환합니다: pass 또는 fail. 충족 여부가 분명한 규칙에 적합합니다.
예시:
- "번역이 모든 HTML 태그와 속성을 보존하나요?"
- "대상 언어의 복수형 규칙이 올바르게 적용되었나요?"
- "독일어 번역에서 격식체(Sie)를 사용했나요?"
결과는 합격률로 집계됩니다. 75%는 평가된 번역 4건 중 3건이 합격했다는 뜻입니다.
백분율 AI 평가자#
0에서 100까지의 점수를 반환합니다. 품질이 연속적인 스펙트럼 위에 있는 항목에 적합합니다.
예시:
- "원어민 관점에서 번역의 자연스러움을 평가하세요 (0–100)"
- "번역이 원문의 톤과 의도를 얼마나 잘 유지하는지 점수로 평가하세요 (0–100)"
- "문법적 정확성을 0–100 척도로 평가하세요"
결과는 평가 기간 전체의 평균으로 집계됩니다.
AI 평가자 설정#
| 필드 | 설명 |
|---|---|
| 이름 | AI 평가자를 식별하는 레이블(예: "복수형 검사") |
| 지침 | 자연어로 작성한 평가 기준 |
| 유형 | boolean (pass/fail) 또는 percentage (0–100) |
| 소스 로캘 | 일치시킬 소스 로캘 또는 전체를 의미하는 * |
| 타깃 로캘 | 일치시킬 타깃 로캘 또는 전체를 의미하는 * |
| Provider / Model | 평가에 사용하는 LLM(번역 모델과는 별도) |
| 샘플링 | 평가할 요청의 비율(0–100%) |
| N/A 허용 | 관련 없는 쌍에 대해 AI 평가자가 "not applicable"을 반환할 수 있는지 |
| 활성화됨 | 설정을 삭제하지 않고 검토를 켜거나 끄는 토글 |
AI 평가자 지침 작성#
지침 필드는 AI 평가자의 핵심입니다. 평가용 LLM에 무엇을 확인해야 하는지 정확히 알려줍니다. 구체적이고 검증 가능한 기준으로 작성하세요.
좋은 지침#
불리언:
Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.백분율:
Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.좋은 지침의 조건#
- 구체적인 기준 - 무엇이 합격/불합격을 의미하는지, 또는 0과 100이 무엇을 뜻하는지 명확히 정의하세요
- 관찰 가능한 결과 - LLM은 의도를 추측하는 것이 아니라 텍스트를 읽고 평가할 수 있어야 합니다
- AI 평가자당 하나의 관점만 - 다차원적인 품질 검사는 별도의 AI 평가자로 나누세요
로캘 매칭#
AI 평가자는 소스 로캘과 타깃 로캘을 기준으로 번역 요청과 매칭됩니다. 와일드카드 *는 모든 로캘과 매칭됩니다.
| 소스 로캘 | 타깃 로캘 | 매칭 대상 |
|---|---|---|
en | de | 영어 → 독일어 번역만 |
en | * | 영어에서 시작하는 모든 번역 |
* | ja | 일본어로 번역되는 모든 요청 |
* | * | 모든 번역 |
하나의 번역 요청이 여러 AI 평가자의 로캘 쌍과 일치하면, 여러 AI 평가자가 동시에 실행될 수 있습니다.
샘플링#
모든 번역을 검토할 필요는 없습니다. 샘플링 비율로 일치하는 요청 중 몇 퍼센트를 평가할지 제어할 수 있습니다.
| 샘플링 | 동작 |
|---|---|
| 100% | 일치하는 모든 요청을 검토합니다(철저하지만 비용은 더 높음) |
| 50% | 일치하는 요청의 약 절반을 검토합니다 |
| 10% | 10건 중 1건만 검토합니다 - 개별 점수보다 추세가 더 중요한 대규모 엔진에 유용합니다 |
| 0% | AI 평가자를 비활성화하지 않고 사실상 일시 중지할 수 있습니다 |
샘플링은 요청 시점에 무작위 검사로 적용됩니다. 요청량이 충분히 쌓이면 실제 평가 비율은 설정한 백분율에 수렴합니다.
N/A 지원#
allowsNA이 활성화되면 검토 LLM은 점수 대신 "not applicable"을 반환할 수 있습니다. 이는 기준이 모든 로캘 쌍에 적용되지 않는 AI 평가자에 유용합니다.
예시: 격식체 사용 규칙을 확인하는 AI 평가자는 영어 → 영어 번역에서는 N/A를 반환할 수 있습니다(영어에는 격식체/비격식체 구분이 없음). 반면 영어 → 독일어에서는 점수를 반환합니다.
N/A 결과는 리포팅에서 평균 및 합격률 계산에서 제외되므로 점수를 낮추지도, 부풀리지도 않습니다.
근거#
AI 평가자는 완벽하지 않은 결과에 대해 무엇이 문제였는지 이해할 수 있도록 근거를 제공합니다:
- 완벽한 점수 (pass 또는 100%) - 근거는 null(설명할 내용 없음)
- N/A - 근거는 null
- 완벽하지 않은 점수 - 한 문장으로 된 짧은 설명
이렇게 하면 검토 결과를 바로 활용할 수 있습니다. 번역이 검사를 통과하지 못했을 때, 수동으로 조사하지 않아도 근거만으로 이유를 파악할 수 있습니다.
검토 모델#
각 AI 평가자는 번역 모델과는 별개로 자체 LLM 제공업체 및 모델 설정을 가집니다. 이런 분리는 의도된 설계입니다. 번역을 생성하는 모델과 이를 평가하는 모델은 동일하지 않아야 합니다.
모델 독립성
번역에 사용한 모델과 다른 모델로 검토하면 보다 독립적인 평가가 가능합니다. 예를 들어 GPT-4o가 번역을 생성했다면 Claude Sonnet으로 평가해 자기평가가 아닌 제2의 의견을 얻을 수 있습니다.
AI 평가자 리포트#
검토 결과는 대시보드의 AI 평가자 리포트 섹션에서 시각화되며, 다음 정보를 확인할 수 있습니다:
- 시간 경과에 따른 합격률 - 불리언 AI 평가자의 경우 일별 백분율로 표시
- 시간 경과에 따른 평균 점수 - 백분율 AI 평가자의 경우 일별 평균으로 표시
- 로캘 쌍별 분석 - 각 소스 → 타깃 쌍의 성과를 개별적으로 확인
- 집계 보기 - 모든 로캘 쌍을 하나의 추세선으로 통합
AI 평가자 리포트는 처리량 중심의 Reports를 보완해 줍니다. 함께 보면 처리량과 품질을 모두 입체적으로 파악할 수 있습니다.
MCP로 AI 평가자 관리하기#
Lingo.dev MCP server를 사용 중이라면, AI 코딩 어시스턴트가 AI 평가자를 직접 생성하고 설정할 수 있습니다:
"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations.""Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."