Les évaluations IA sont des contrôles qualité automatisés qui analysent les traductions produites par votre moteur de localisation. Après chaque requête de traduction, Lingo.dev lance des évaluations LLM indépendantes pour vérifier le résultat — conformité au glossaire, respect des instructions et tout critère personnalisé que vous définissez. Ces évaluations s’exécutent de manière asynchrone et ne bloquent jamais la réponse de traduction.
Fonctionnement#
Lorsque le moteur de localisation termine une requête de traduction, il met en file d’attente les évaluations applicables pour un traitement asynchrone. Chaque évaluation s’appuie sur un LLM indépendant qui reçoit le texte source, la traduction produite, le contexte et les critères d’évaluation. Elle renvoie un résultat structuré — réussite/échec ou score en pourcentage — accompagné d’une justification pour les résultats imparfaits.
L’onglet Reviews du moteur permet de définir quelles évaluations s’exécutent pour ce moteur. Il existe trois catégories :
| Catégorie | Ce qui est vérifié | Type de résultat | Configuration |
|---|---|---|---|
| Évaluation IA des entrées de glossaire | Si les traductions respectent les règles du glossaire du moteur | Réussite / Échec | Option intégrée par moteur |
| Évaluation IA des instructions | Si les traductions respectent chacune des instructions du moteur | Réussite / Échec par instruction | Option intégrée par moteur |
| Évaluateurs IA personnalisés | Vos propres critères d’évaluation, définis au niveau de l’organisation | Réussite / Échec ou 0–100 % | Sélection par moteur parmi les évaluateurs définis au niveau de l’organisation |
Évaluations IA intégrées#
Chaque moteur de localisation inclut deux types d’évaluation intégrés qui vérifient les traductions par rapport à la configuration propre au moteur. Activez-les ou désactivez-les dans l’onglet Reviews du moteur.
Évaluation IA des entrées de glossaire#
Vérifie si la traduction respecte toutes les règles de glossaire applicables. Si le moteur contient des traductions personnalisées (par ex. "Deploy" → "Bereitstellen") ou des termes non traduisibles (par ex. "OAuth"), l’évaluation vérifie que la traduction les respecte.
L’évaluation tient compte des variations grammaticales — une règle de glossaire définie pour un terme dans un cas grammatical donné s’applique à toutes les formes de ce terme. En cas de règles de glossaire contradictoires, la traduction est considérée comme conforme dès lors que l’une d’entre elles a été respectée.
Le résultat prend la forme d’un verdict unique de réussite/échec pour l’ensemble de la requête de traduction, avec une justification en cas d’échec.
Évaluation IA des instructions#
Évalue chaque instruction indépendamment. Si le moteur comporte trois instructions, l’évaluation produit trois verdicts réussite/échec distincts — chacun avec sa propre justification en cas d’échec.
Une instruction peut renvoyer N/A lorsque ses critères ne s’appliquent pas au contenu traduit. Par exemple, une instruction sur le vouvoiement renvoie N/A lorsque la traduction contient uniquement un nom de produit ou un terme technique pour lequel le niveau de formalité n’est pas pertinent. Les résultats N/A sont exclus des scores agrégés.
Les deux évaluations intégrées ne se déclenchent que lorsque le moteur dispose d’une configuration pertinente — si aucune entrée de glossaire ne correspond à la paire de langues, aucune évaluation IA des entrées de glossaire n’est exécutée.
Configurer les évaluations par moteur#
Ouvrez l’onglet Reviews du moteur pour définir quelles évaluations s’exécutent pour ce moteur. L’onglet comporte deux sections :
Les options intégrées en haut contrôlent l’évaluation IA des entrées de glossaire et l’évaluation IA des instructions. Elles sont indépendantes — vous pouvez activer l’une sans l’autre, selon la configuration du moteur.
Les évaluateurs IA personnalisés sous les options répertorient tous les évaluateurs IA définis au niveau de l’organisation. Activez ou désactivez chacun d’eux pour ce moteur spécifique. Cela vous permet de maintenir une bibliothèque partagée de contrôles qualité et de les appliquer de manière sélective.
Un même moteur peut exécuter simultanément des évaluations intégrées et plusieurs évaluateurs IA personnalisés. Toutes les évaluations s’exécutent de manière asynchrone après chaque requête de traduction, et les résultats apparaissent dans le journal de traduction ainsi que dans Reports.
Types d’évaluateurs IA#
Évaluateurs IA booléens#
Renvoyez un verdict binaire : réussite ou échec. Utilisez-les pour des règles qui sont soit respectées, soit non.
Exemples :
- "La traduction préserve-t-elle toutes les balises et attributs HTML ?"
- "Les règles de pluriel sont-elles correctement appliquées pour la langue cible ?"
- "La traduction utilise-t-elle le vouvoiement (Sie) en allemand ?"
Les résultats sont agrégés sous forme de taux de réussite — 75 % signifie que 3 traductions évaluées sur 4 ont réussi.
Évaluateurs IA en pourcentage#
Renvoyez un score de 0 à 100. Utilisez-les pour des dimensions de qualité qui se mesurent sur un continuum.
Exemples :
- "Évaluez le naturel de la traduction pour un locuteur natif (0–100)"
- "Notez dans quelle mesure la traduction préserve le ton et l’intention d’origine (0–100)"
- "Évaluez la correction grammaticale sur une échelle de 0 à 100"
Les résultats sont agrégés sous forme de moyennes sur la période d’évaluation.
Configuration de l’évaluateur IA#
| Champ | Description |
|---|---|
| Nom | Libellé permettant d’identifier l’évaluateur IA (par ex. "Vérification de la pluralisation") |
| Instruction | Les critères d’évaluation, rédigés en langage naturel |
| Type | boolean (réussite/échec) ou percentage (0–100) |
| Langue source | La langue source à faire correspondre, ou * pour toutes |
| Langue cible | La langue cible à faire correspondre, ou * pour toutes |
| Fournisseur / Modèle | Le LLM utilisé pour l’évaluation (indépendant du modèle de traduction) |
| Échantillonnage | Pourcentage des requêtes à évaluer (0–100 %) |
| Autoriser N/A | Indique si l’évaluateur IA peut renvoyer "not applicable" pour les paires non pertinentes |
| Activé | Active ou désactive l’évaluation sans supprimer la configuration |
Rédiger les instructions d’un évaluateur IA#
Le champ d’instruction est au cœur d’un évaluateur IA. Il indique précisément au LLM d’évaluation ce qu’il doit vérifier. Rédigez-le comme un critère spécifique et testable.
Bonnes instructions#
Booléen :
Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.Pourcentage :
Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.Ce qui fait une bonne instruction#
- Critères spécifiques — définissez précisément ce que signifient réussite/échec, ou ce que représentent 0 et 100
- Résultats observables — le LLM doit pouvoir évaluer en lisant le texte, sans devoir deviner l’intention
- Une seule dimension par évaluateur IA — scindez les contrôles qualité multidimensionnels en plusieurs évaluateurs IA distincts
Correspondance des langues#
Les évaluateurs IA associent les requêtes de traduction en fonction de la langue source et de la langue cible. Le joker * correspond à n’importe quelle langue.
| Langue source | Langue cible | Correspond à |
|---|---|---|
en | de | Uniquement les traductions anglais → allemand |
en | * | Toute traduction depuis l’anglais |
* | ja | Toute traduction vers le japonais |
* | * | Toutes les traductions |
Une seule requête de traduction peut déclencher plusieurs évaluateurs IA si plusieurs correspondent à sa paire de langues.
Échantillonnage#
Toutes les traductions n’ont pas besoin d’être évaluées. Le taux d’échantillonnage détermine le pourcentage de requêtes correspondantes qui seront évaluées.
| Échantillonnage | Comportement |
|---|---|
| 100 % | Chaque requête correspondante est évaluée (très complet, mais plus coûteux) |
| 50 % | Environ la moitié des requêtes correspondantes sont évaluées |
| 10 % | Une sur dix — utile pour les moteurs à fort volume, où les tendances comptent davantage que les scores individuels |
| 0 % | L’évaluateur IA est effectivement en pause sans être désactivé |
L’échantillonnage est appliqué au moment de la requête à l’aide d’une vérification aléatoire. Sur un volume suffisant de requêtes, le taux réel d’évaluation converge vers le pourcentage configuré.
Prise en charge de N/A#
Lorsque allowsNA est activé, le LLM d’évaluation peut renvoyer "not applicable" au lieu d’un score. C’est utile pour les évaluateurs IA dont les critères ne s’appliquent pas à toutes les paires de langues.
Exemple : un évaluateur IA qui vérifie les conventions de vouvoiement renvoie N/A pour les traductions anglais → anglais (l’anglais ne fait pas la distinction entre registre formel et informel), mais renvoie un score pour anglais → allemand.
Les résultats N/A sont exclus des moyennes et des taux de réussite dans les rapports — ils ne font ni baisser les scores ni les gonfler artificiellement.
Justification#
Les évaluateurs IA fournissent une justification pour les résultats imparfaits afin de vous aider à comprendre ce qui n’a pas fonctionné :
- Score parfait (réussite ou 100 %) — la justification est nulle (rien à expliquer)
- N/A — la justification est nulle
- Score imparfait — une brève explication en une phrase
Les résultats restent ainsi exploitables : lorsqu’une traduction échoue à une vérification, la justification vous indique pourquoi, sans investigation manuelle.
Modèle d’évaluation#
Chaque évaluateur IA dispose de sa propre configuration de fournisseur LLM et de modèle, indépendante du modèle de traduction. Cette séparation est intentionnelle — le modèle qui produit la traduction ne doit pas être le même que celui qui l’évalue.
Indépendance du modèle
Utiliser un modèle différent pour l’évaluation et pour la traduction apporte un regard indépendant. Si GPT-4o produit la traduction, l’évaluer avec Claude Sonnet vous donne un second avis plutôt qu’une auto-évaluation.
Rapports des évaluateurs IA#
Les résultats d’évaluation sont visualisés dans le tableau de bord, dans la section dédiée aux rapports des évaluateurs IA, avec :
- Taux de réussite dans le temps — pour les évaluateurs IA booléens, affichés sous forme de pourcentages quotidiens
- Scores moyens dans le temps — pour les évaluateurs IA en pourcentage, affichés sous forme de moyennes quotidiennes
- Répartition par paire de langues — visualisez les performances de chaque paire source → cible indépendamment
- Vue agrégée — combinez toutes les paires de langues en une seule courbe de tendance
Les rapports des évaluateurs IA complètent Reports, centré sur les volumes — ensemble, ils vous donnent une vision complète du débit et de la qualité.
Gérer les évaluateurs IA via MCP#
Si vous utilisez le serveur MCP Lingo.dev, votre assistant IA de développement peut créer et configurer directement des évaluateurs IA :
"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations.""Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."