Testez un même contenu avec deux configurations de moteur pour évaluer un changement avant de le valider.
Le workflow#
"Comparez notre moteur de production avec le moteur de préproduction sur ces 5 chaînes en japonais"
Voici ce qui se passe :
- L’assistant localise le contenu avec les deux moteurs
- Présente les résultats dans un tableau comparatif côte à côte
- Met en évidence les différences : "Le moteur de préproduction applique le nouveau terme du glossaire pour 'onboarding' (オンボーディング), tandis que la production utilise encore la localisation descriptive (導入手続き)"
Quand l’utiliser#
- Après un ajustement — vérifiez que le changement a bien amélioré le résultat avant déploiement
- Évaluer des changements de modèle — même configuration, mais modèle principal différent
- Tester l’impact du glossaire — avec et sans nouveaux termes
- Comparer des moteurs selon les cas d’usage — marketing vs. contenu technique
Exemples de comparaisons#
Avant/après un ajustement#
"Localisez 'Welcome to your new workspace' en allemand avec le moteur A et le moteur B"
Permet de voir si l’entrée de glossaire pour "espace de travail" est bien conservée dans le moteur mis à jour.
Évaluation de modèle#
"J’ai remplacé le modèle japonais GPT-4.1 par Claude Sonnet. Comparez les résultats sur ces 10 chaînes d’interface utilisateur."
La comparaison côte à côte montre quel modèle gère le mieux les chaînes d’interface courtes ou les descriptions plus longues pour votre domaine.
Tester la profondeur du glossaire#
"Comparez le moteur avec notre glossaire complet de 200 termes à un nouveau moteur sans glossaire sur ces chaînes juridiques"
Mesure précisément la contribution du glossaire à la qualité du résultat pour un type de contenu donné.
