같은 콘텐츠를 두 엔진 구성에 적용해 보고 변경 사항을 확정하기 전에 차이를 평가합니다.
워크플로#
"이 5개 문자열을 일본어로 프로덕션 엔진과 스테이징 엔진에서 비교해 주세요"
진행 방식:
- 어시스턴트가 두 엔진으로 각각 콘텐츠를 로컬라이즈합니다
- 결과를 나란히 비교할 수 있는 표로 보여줍니다
- 차이점을 강조합니다: "스테이징 엔진은 'onboarding'에 새 용어집 항목(オンボーディング)을 적용하지만, 프로덕션 엔진은 여전히 설명형 로컬라이제이션(導入手続き)을 사용합니다"
이럴 때 사용하세요#
- 튜닝 후 — 반영 전에 결과가 실제로 개선됐는지 검증할 때
- 모델 변경 평가 — 같은 구성에서 기본 모델만 다를 때
- 용어집 영향 테스트 — 새 용어 추가 전후를 비교할 때
- 용도별 엔진 비교 — 마케팅 콘텐츠와 기술 콘텐츠를 비교할 때
비교 예시#
튜닝 전후 비교#
"'Welcome to your new workspace'를 엔진 A와 엔진 B로 독일어로 로컬라이즈해 주세요"
업데이트된 엔진에서도 "workspace"에 대한 용어집 항목이 제대로 유지되는지 확인할 수 있습니다.
모델 평가#
"일본어 모델을 GPT-4.1에서 Claude Sonnet으로 바꿨습니다. 이 10개 UI 문자열의 출력을 비교해 주세요."
나란히 비교하면 특정 도메인에서 어떤 모델이 짧은 UI 문자열과 긴 설명을 더 잘 처리하는지 한눈에 드러납니다.
용어집 깊이 테스트#
"이 법률 문자열들에 대해 200개 전체 용어집이 적용된 엔진과 용어집이 없는 새 엔진을 비교해 주세요"
특정 콘텐츠 유형에서 용어집이 결과 품질에 얼마나 기여하는지 정량적으로 보여줍니다.
