エンジンを比較

同じコンテンツを2つのエンジン設定に通し、変更を確定する前に差分を評価します。

ワークフロー#

「この5つの文字列について、日本語向けに本番エンジンとステージングエンジンを比較して」

実行内容:

アシスタントが両方のエンジンでコンテンツをローカライズ
結果を左右に並べた表で表示
差分をハイライト: 「ステージングエンジンでは 'onboarding' の新しい用語集用語（オンボーディング）が適用されていますが、本番環境では依然として説明的なローカライズ（導入手続き）が使われています」

「'Welcome to your new workspace' をエンジンAとエンジンBでドイツ語にローカライズして」

更新後のエンジンでも "ワークスペース" の用語集エントリが維持されているかを確認できます。

「日本語モデルを GPT-4.1 から Claude Sonnet に切り替えました。これら10個のUI文字列の出力を比較してください」

並べて比較することで、短いUI文字列と長めの説明文のどちらを、それぞれのモデルがあなたのドメインでよりうまく扱えるかがわかります。

「この法務向け文字列について、200語の完全な用語集を備えたエンジンと、用語集なしの新規エンジンを比較して」

特定のコンテンツタイプにおいて、用語集が出力品質にどれだけ寄与しているかを定量化できます。

このページは役に立ちましたか？