同じコンテンツを2つのエンジン設定に通し、変更を確定する前に差分を評価します。
ワークフロー#
「この5つの文字列について、日本語向けに本番エンジンとステージングエンジンを比較して」
実行内容:
- アシスタントが両方のエンジンでコンテンツをローカライズ
- 結果を左右に並べた表で表示
- 差分をハイライト: 「ステージングエンジンでは 'onboarding' の新しい用語集用語(オンボーディング)が適用されていますが、本番環境では依然として説明的なローカライズ(導入手続き)が使われています」
使いどき#
- チューニング後 — 本番反映前に、変更で出力が改善したかを確認
- モデル変更の評価 — 設定は同じで、プライマリモデルだけが異なる場合
- 用語集の効果検証 — 新しい用語あり/なしで比較
- 用途ごとのエンジン比較 — マーケティング向けコンテンツと技術コンテンツ
比較例#
チューニング前後の比較#
「'Welcome to your new workspace' をエンジンAとエンジンBでドイツ語にローカライズして」
更新後のエンジンでも "ワークスペース" の用語集エントリが維持されているかを確認できます。
モデル評価#
「日本語モデルを GPT-4.1 から Claude Sonnet に切り替えました。これら10個のUI文字列の出力を比較してください」
並べて比較することで、短いUI文字列と長めの説明文のどちらを、それぞれのモデルがあなたのドメインでよりうまく扱えるかがわかります。
用語集の網羅性テスト#
「この法務向け文字列について、200語の完全な用語集を備えたエンジンと、用語集なしの新規エンジンを比較して」
特定のコンテンツタイプにおいて、用語集が出力品質にどれだけ寄与しているかを定量化できます。
