KI-Bewerter

KI-Bewertungen sind automatisierte Qualitätsprüfungen für Übersetzungen, die von Ihrer Lokalisierungs-Engine erstellt werden. Nach jeder Übersetzungsanfrage führt Lingo.dev unabhängige LLM-Auswertungen durch, um die Ausgabe zu überprüfen – einschließlich Glossarkonformität, Einhaltung von Anweisungen und aller benutzerdefinierten Kriterien, die Sie festlegen. Die Bewertungen laufen asynchron und blockieren die Übersetzungsantwort nie.

So funktioniert's#

Sobald die Lokalisierungs-Engine eine Übersetzungsanfrage abgeschlossen hat, stellt sie die passenden Bewertungen zur asynchronen Auswertung in die Warteschlange. Jede Bewertung nutzt ein unabhängiges LLM, das den Ausgangstext, die übersetzte Ausgabe, den Kontext und die Bewertungskriterien erhält. Es liefert ein strukturiertes Ergebnis zurück – Bestanden/Nicht bestanden oder einen Prozentwert – inklusive Begründung bei nicht perfekten Ergebnissen.

Im Tab Reviews der Engine steuern Sie, welche Bewertungen für diese Engine ausgeführt werden. Es gibt drei Kategorien:

Kategorie	Was geprüft wird	Ergebnistyp	Konfiguration
Glossareinträge KI-Bewertung	Ob Übersetzungen den Regeln des glossary der Engine folgen	Bestanden / Nicht bestanden	Integrierter Schalter pro Engine
Anweisungen KI-Bewertung	Ob Übersetzungen jede instructions der Engine befolgen	Bestanden / Nicht bestanden pro Anweisung	Integrierter Schalter pro Engine
Benutzerdefinierte KI-Bewerter	Ihre eigenen Bewertungskriterien, auf Organisationsebene definiert	Bestanden / Nicht bestanden oder 0–100 %	Pro Engine aus den Bewertern auf Organisationsebene auswählen

Integrierte KI-Bewertungen#

Jede Lokalisierungs-Engine enthält zwei integrierte Bewertungstypen, die Übersetzungen anhand der eigenen Konfiguration der Engine prüfen. Aktivieren oder deaktivieren Sie sie im Tab Reviews der Engine.

Glossareinträge KI-Bewertung#

Prüft, ob die Übersetzung alle relevanten Glossarregeln eingehalten hat. Wenn die Engine benutzerdefinierte Übersetzungen (z. B. "Deploy" → "Bereitstellen") oder nicht übersetzbare Begriffe (z. B. "OAuth") enthält, überprüft die Bewertung, ob die Übersetzung diese Vorgaben eingehalten hat.

Die Bewertung berücksichtigt grammatische Variationen – eine Glossarregel für einen Begriff in einem bestimmten grammatischen Fall gilt für alle Formen dieses Begriffs. Wenn widersprüchliche Glossarregeln existieren, gilt die Übersetzung als konform, solange mindestens eine davon befolgt wurde.

Das Ergebnis ist ein einzelnes Bestanden/Nicht bestanden-Ergebnis für die gesamte Übersetzungsanfrage, mit Begründung, wenn das Ergebnis Nicht bestanden ist.

Anweisungen KI-Bewertung#

Bewertet jede Anweisung unabhängig. Wenn die Engine drei Anweisungen hat, liefert die Bewertung drei separate Bestanden/Nicht bestanden-Ergebnisse – jeweils mit eigener Begründung, wenn das Ergebnis Nicht bestanden ist.

Eine Anweisung kann N/A zurückgeben, wenn ihre Kriterien auf den übersetzten Inhalt nicht anwendbar sind. Zum Beispiel gibt eine Anweisung zur formellen Anrede N/A zurück, wenn die Übersetzung nur einen Produktnamen oder einen technischen Begriff enthält, bei dem Formalität keine Rolle spielt. N/A-Ergebnisse werden aus aggregierten Bewertungen ausgeschlossen.

Beide integrierten Bewertungen werden nur ausgelöst, wenn die Engine entsprechend konfiguriert ist – wenn keine Glossareinträge zum Sprachpaar passen, wird keine Glossareinträge KI-Bewertung ausgeführt.

Bewertungen pro Engine konfigurieren#

Öffnen Sie den Tab Reviews der Engine, um festzulegen, welche Bewertungen für diese Engine ausgeführt werden. Der Tab hat zwei Bereiche:

Integrierte Schalter oben steuern die Glossareinträge KI-Bewertung und die Anweisungen KI-Bewertung. Beide sind unabhängig voneinander – Sie können also die eine ohne die andere aktivieren, je nachdem, was für die Engine konfiguriert ist.

Benutzerdefinierte KI-Bewerter unter den Schaltern listen alle KI-Bewerter auf, die auf Organisationsebene definiert wurden. Schalten Sie jeden einzelnen für diese Engine ein oder aus. So können Sie eine gemeinsame Bibliothek mit Qualitätsprüfungen pflegen und gezielt einsetzen.

Eine einzelne Engine kann sowohl integrierte Bewertungen als auch mehrere benutzerdefinierte KI-Bewerter gleichzeitig ausführen. Alle Bewertungen laufen asynchron nach jeder Übersetzungsanfrage, und die Ergebnisse erscheinen im Übersetzungsprotokoll sowie in Reports.

Arten von KI-Bewertern#

Boolesche KI-Bewerter#

Geben ein binäres Ergebnis zurück: bestanden oder nicht bestanden. Verwenden Sie sie für Regeln, die entweder erfüllt sind oder nicht.

Beispiele:

"Bewahrt die Übersetzung alle HTML-Tags und Attribute?"
"Werden die Pluralisierungsregeln für die Zielsprache korrekt angewendet?"
"Verwendet die Übersetzung im Deutschen die formelle Anrede (Sie)?"

Die Ergebnisse werden als Erfolgsquote aggregiert – 75 % bedeutet, dass 3 von 4 bewerteten Übersetzungen bestanden haben.

Prozentuale KI-Bewerter#

Geben einen Wert von 0 bis 100 zurück. Verwenden Sie sie für Qualitätsdimensionen, die auf einem Spektrum liegen.

Beispiele:

"Bewerte die Natürlichkeit der Übersetzung aus Sicht eines Muttersprachlers (0–100)"
"Bewerte, wie gut die Übersetzung den ursprünglichen Ton und die ursprüngliche Absicht bewahrt (0–100)"
"Bewerte die grammatische Korrektheit auf einer Skala von 0–100"

Die Ergebnisse werden als Durchschnittswerte über den Bewertungszeitraum aggregiert.

Konfiguration von KI-Bewertern#

Feld	Beschreibung
Name	Eine Bezeichnung zur Identifizierung des KI-Bewerters (z. B. "Pluralisierungsprüfung")
Anweisung	Die Bewertungskriterien, in natürlicher Sprache formuliert
Typ	`boolean` (Bestanden/Nicht bestanden) oder `percentage` (0–100)
Ausgangssprache	Die passende Ausgangssprache oder `*` für beliebige
Zielsprache	Die passende Zielsprache oder `*` für beliebige
Anbieter / Modell	Das für die Bewertung verwendete LLM (unabhängig vom Übersetzungsmodell)
Sampling	Prozentsatz der Anfragen, die bewertet werden sollen (0–100 %)
N/A zulassen	Ob der KI-Bewerter für irrelevante Paare "nicht anwendbar" zurückgeben kann
Aktiviert	Bewertung ein- oder ausschalten, ohne die Konfiguration zu löschen

Anweisungen für KI-Bewerter schreiben#

Das Feld für die Anweisung ist das Herzstück eines KI-Bewerters. Es sagt dem bewertenden LLM genau, worauf es achten soll. Formulieren Sie es als spezifisches, testbares Kriterium.

Gute Anweisungen#

Boolesch:

text

Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.

Prozentual:

text

Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.

Was eine gute Anweisung ausmacht#

Spezifische Kriterien – definieren Sie genau, was Bestanden/Nicht bestanden bedeutet oder wofür 0 und 100 stehen
Beobachtbare Ergebnisse – das LLM sollte den Text anhand dessen bewerten können, was tatsächlich darin steht, statt die Absicht zu erraten
Ein Aspekt pro KI-Bewerter – teilen Sie mehrdimensionale Qualitätsprüfungen in separate KI-Bewerter auf

Abgleich nach Sprache#

KI-Bewerter gleichen Übersetzungsanfragen anhand von Ausgangs- und Zielsprache ab. Das Platzhalterzeichen * passt auf jede Sprache.

Ausgangssprache	Zielsprache	Trifft zu auf
`en`	`de`	Nur Übersetzungen Englisch → Deutsch
`en`	`*`	Jede Übersetzung aus dem Englischen
`*`	`ja`	Jede Übersetzung ins Japanische
`*`	`*`	Alle Übersetzungen

Eine einzelne Übersetzungsanfrage kann mehrere KI-Bewerter auslösen, wenn mehrere auf ihr Sprachpaar passen.

Sampling#

Nicht jede Übersetzung muss bewertet werden. Die Sampling-Rate steuert, welcher Prozentsatz der passenden Anfragen ausgewertet wird.

Sampling	Verhalten
100 %	Jede passende Anfrage wird bewertet (gründlich, aber mit höheren Kosten)
50 %	Ungefähr die Hälfte der passenden Anfragen wird bewertet
10 %	Eine von zehn – nützlich für Engines mit hohem Volumen, bei denen Trends wichtiger sind als einzelne Bewertungen
0 %	Der KI-Bewerter ist damit faktisch pausiert, ohne deaktiviert zu werden

Sampling wird beim Eingang der Anfrage per Zufallsprüfung angewendet. Bei ausreichend hohem Anfragevolumen nähert sich die tatsächliche Bewertungsrate dem konfigurierten Prozentsatz an.

N/A-Unterstützung#

Wenn allowsNA aktiviert ist, kann das Bewertungs-LLM statt eines Werts "nicht anwendbar" zurückgeben. Das ist nützlich für KI-Bewerter, deren Kriterien nicht auf jedes Sprachpaar zutreffen.

Beispiel: Ein KI-Bewerter, der die Konventionen formeller Anrede prüft, gibt für Englisch → Englisch N/A zurück (im Englischen gibt es keine formell/informell-Unterscheidung), liefert aber einen Wert für Englisch → Deutsch.

N/A-Ergebnisse werden in Berichten aus Durchschnittswerten und Erfolgsquoten ausgeschlossen – sie drücken die Werte nicht nach unten und blähen sie auch nicht künstlich auf.

Begründung#

KI-Bewerter liefern bei nicht perfekten Ergebnissen eine Begründung, damit Sie nachvollziehen können, was schiefgelaufen ist:

Perfektes Ergebnis (bestanden oder 100 %) – Begründung ist null (nichts zu erklären)
N/A – Begründung ist null
Nicht perfektes Ergebnis – eine kurze Erklärung in einem Satz

So bleiben die Bewertungsergebnisse direkt nutzbar: Wenn eine Übersetzung eine Prüfung nicht besteht, erfahren Sie durch die Begründung warum – ganz ohne manuelle Nachforschung.

Bewertungsmodell#

Jeder KI-Bewerter hat seine eigene LLM-Anbieter- und Modellkonfiguration, unabhängig vom Übersetzungsmodell. Diese Trennung ist bewusst gewählt – das Modell, das die Übersetzung erstellt, sollte nicht dasselbe Modell sein, das sie bewertet.

Modellunabhängigkeit

Ein anderes Modell für die Prüfung als für die Übersetzung zu verwenden, sorgt für eine unabhängige Bewertung. Wenn GPT-4o die Übersetzung erstellt, gibt Ihnen Claude Sonnet bei der Bewertung eine zweite Meinung statt einer Selbsteinschätzung.

Berichte zu KI-Bewertern#

Die Bewertungsergebnisse werden im Dashboard im Abschnitt für KI-Bewerter-Berichte visualisiert und zeigen:

Erfolgsquoten im Zeitverlauf – für boolesche KI-Bewerter, dargestellt als tägliche Prozentsätze
Durchschnittswerte im Zeitverlauf – für prozentuale KI-Bewerter, dargestellt als tägliche Mittelwerte
Aufschlüsselung nach Sprachpaar – sehen Sie, wie jedes Ausgangs- → Zielsprachenpaar unabhängig abschneidet
Aggregierte Ansicht – kombinieren Sie alle Sprachpaare zu einer einzigen Trendlinie

Berichte zu KI-Bewertern ergänzen die volumenorientierten Reports – zusammen geben sie Ihnen ein vollständiges Bild von Durchsatz und Qualität.

KI-Bewerter über MCP verwalten#

Wenn Sie den Lingo.dev MCP server verwenden, kann Ihr KI-Coding-Assistent KI-Bewerter direkt erstellen und konfigurieren:

text

"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations."

text

"Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."

Nächste Schritte#

Reports

Übersetzungsvolumen, Token-Nutzung und Sprachabdeckung im Blick behalten

LLM-Modelle

Konfigurieren Sie die Übersetzungsmodelle, die von KI-Bewertern bewertet werden

Glossare

Legen Sie Begriffe an, gegen die KI-Bewerter für Glossarkonformität prüfen können

API-Referenz

Integrieren Sie die Lokalisierungs-API in Ihren Workflow

So funktioniert's#

Im Tab Reviews der Engine steuern Sie, welche Bewertungen für diese Engine ausgeführt werden. Es gibt drei Kategorien:

Kategorie	Was geprüft wird	Ergebnistyp	Konfiguration
Glossareinträge KI-Bewertung	Ob Übersetzungen den Regeln des glossary der Engine folgen	Bestanden / Nicht bestanden	Integrierter Schalter pro Engine
Anweisungen KI-Bewertung	Ob Übersetzungen jede instructions der Engine befolgen	Bestanden / Nicht bestanden pro Anweisung	Integrierter Schalter pro Engine
Benutzerdefinierte KI-Bewerter	Ihre eigenen Bewertungskriterien, auf Organisationsebene definiert	Bestanden / Nicht bestanden oder 0–100 %	Pro Engine aus den Bewertern auf Organisationsebene auswählen

Integrierte KI-Bewertungen#

Glossareinträge KI-Bewertung#

Das Ergebnis ist ein einzelnes Bestanden/Nicht bestanden-Ergebnis für die gesamte Übersetzungsanfrage, mit Begründung, wenn das Ergebnis Nicht bestanden ist.

Anweisungen KI-Bewertung#

Bewertungen pro Engine konfigurieren#

Öffnen Sie den Tab Reviews der Engine, um festzulegen, welche Bewertungen für diese Engine ausgeführt werden. Der Tab hat zwei Bereiche:

Arten von KI-Bewertern#

Boolesche KI-Bewerter#

Geben ein binäres Ergebnis zurück: bestanden oder nicht bestanden. Verwenden Sie sie für Regeln, die entweder erfüllt sind oder nicht.

Beispiele:

"Bewahrt die Übersetzung alle HTML-Tags und Attribute?"
"Werden die Pluralisierungsregeln für die Zielsprache korrekt angewendet?"
"Verwendet die Übersetzung im Deutschen die formelle Anrede (Sie)?"

Die Ergebnisse werden als Erfolgsquote aggregiert – 75 % bedeutet, dass 3 von 4 bewerteten Übersetzungen bestanden haben.

Prozentuale KI-Bewerter#

Geben einen Wert von 0 bis 100 zurück. Verwenden Sie sie für Qualitätsdimensionen, die auf einem Spektrum liegen.

Beispiele:

"Bewerte die Natürlichkeit der Übersetzung aus Sicht eines Muttersprachlers (0–100)"
"Bewerte, wie gut die Übersetzung den ursprünglichen Ton und die ursprüngliche Absicht bewahrt (0–100)"
"Bewerte die grammatische Korrektheit auf einer Skala von 0–100"

Die Ergebnisse werden als Durchschnittswerte über den Bewertungszeitraum aggregiert.

Konfiguration von KI-Bewertern#

Feld	Beschreibung
Name	Eine Bezeichnung zur Identifizierung des KI-Bewerters (z. B. "Pluralisierungsprüfung")
Anweisung	Die Bewertungskriterien, in natürlicher Sprache formuliert
Typ	`boolean` (Bestanden/Nicht bestanden) oder `percentage` (0–100)
Ausgangssprache	Die passende Ausgangssprache oder `*` für beliebige
Zielsprache	Die passende Zielsprache oder `*` für beliebige
Anbieter / Modell	Das für die Bewertung verwendete LLM (unabhängig vom Übersetzungsmodell)
Sampling	Prozentsatz der Anfragen, die bewertet werden sollen (0–100 %)
N/A zulassen	Ob der KI-Bewerter für irrelevante Paare "nicht anwendbar" zurückgeben kann
Aktiviert	Bewertung ein- oder ausschalten, ohne die Konfiguration zu löschen

Anweisungen für KI-Bewerter schreiben#

Das Feld für die Anweisung ist das Herzstück eines KI-Bewerters. Es sagt dem bewertenden LLM genau, worauf es achten soll. Formulieren Sie es als spezifisches, testbares Kriterium.

Gute Anweisungen#

Boolesch:

text

Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.

Prozentual:

text

Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.

Was eine gute Anweisung ausmacht#

Spezifische Kriterien – definieren Sie genau, was Bestanden/Nicht bestanden bedeutet oder wofür 0 und 100 stehen
Beobachtbare Ergebnisse – das LLM sollte den Text anhand dessen bewerten können, was tatsächlich darin steht, statt die Absicht zu erraten
Ein Aspekt pro KI-Bewerter – teilen Sie mehrdimensionale Qualitätsprüfungen in separate KI-Bewerter auf

Abgleich nach Sprache#

KI-Bewerter gleichen Übersetzungsanfragen anhand von Ausgangs- und Zielsprache ab. Das Platzhalterzeichen * passt auf jede Sprache.

Ausgangssprache	Zielsprache	Trifft zu auf
`en`	`de`	Nur Übersetzungen Englisch → Deutsch
`en`	`*`	Jede Übersetzung aus dem Englischen
`*`	`ja`	Jede Übersetzung ins Japanische
`*`	`*`	Alle Übersetzungen

Eine einzelne Übersetzungsanfrage kann mehrere KI-Bewerter auslösen, wenn mehrere auf ihr Sprachpaar passen.

Sampling#

Nicht jede Übersetzung muss bewertet werden. Die Sampling-Rate steuert, welcher Prozentsatz der passenden Anfragen ausgewertet wird.

Sampling	Verhalten
100 %	Jede passende Anfrage wird bewertet (gründlich, aber mit höheren Kosten)
50 %	Ungefähr die Hälfte der passenden Anfragen wird bewertet
10 %	Eine von zehn – nützlich für Engines mit hohem Volumen, bei denen Trends wichtiger sind als einzelne Bewertungen
0 %	Der KI-Bewerter ist damit faktisch pausiert, ohne deaktiviert zu werden

Sampling wird beim Eingang der Anfrage per Zufallsprüfung angewendet. Bei ausreichend hohem Anfragevolumen nähert sich die tatsächliche Bewertungsrate dem konfigurierten Prozentsatz an.

N/A-Unterstützung#

Wenn allowsNA aktiviert ist, kann das Bewertungs-LLM statt eines Werts "nicht anwendbar" zurückgeben. Das ist nützlich für KI-Bewerter, deren Kriterien nicht auf jedes Sprachpaar zutreffen.

N/A-Ergebnisse werden in Berichten aus Durchschnittswerten und Erfolgsquoten ausgeschlossen – sie drücken die Werte nicht nach unten und blähen sie auch nicht künstlich auf.

Begründung#

KI-Bewerter liefern bei nicht perfekten Ergebnissen eine Begründung, damit Sie nachvollziehen können, was schiefgelaufen ist:

Perfektes Ergebnis (bestanden oder 100 %) – Begründung ist null (nichts zu erklären)
N/A – Begründung ist null
Nicht perfektes Ergebnis – eine kurze Erklärung in einem Satz

So bleiben die Bewertungsergebnisse direkt nutzbar: Wenn eine Übersetzung eine Prüfung nicht besteht, erfahren Sie durch die Begründung warum – ganz ohne manuelle Nachforschung.

Bewertungsmodell#

Modellunabhängigkeit

Berichte zu KI-Bewertern#

Die Bewertungsergebnisse werden im Dashboard im Abschnitt für KI-Bewerter-Berichte visualisiert und zeigen:

Erfolgsquoten im Zeitverlauf – für boolesche KI-Bewerter, dargestellt als tägliche Prozentsätze
Durchschnittswerte im Zeitverlauf – für prozentuale KI-Bewerter, dargestellt als tägliche Mittelwerte
Aufschlüsselung nach Sprachpaar – sehen Sie, wie jedes Ausgangs- → Zielsprachenpaar unabhängig abschneidet
Aggregierte Ansicht – kombinieren Sie alle Sprachpaare zu einer einzigen Trendlinie

Berichte zu KI-Bewertern ergänzen die volumenorientierten Reports – zusammen geben sie Ihnen ein vollständiges Bild von Durchsatz und Qualität.

KI-Bewerter über MCP verwalten#

Wenn Sie den Lingo.dev MCP server verwenden, kann Ihr KI-Coding-Assistent KI-Bewerter direkt erstellen und konfigurieren:

text

"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations."

text

"Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."

Nächste Schritte#

Reports

Übersetzungsvolumen, Token-Nutzung und Sprachabdeckung im Blick behalten

LLM-Modelle

Konfigurieren Sie die Übersetzungsmodelle, die von KI-Bewertern bewertet werden

Glossare

Legen Sie Begriffe an, gegen die KI-Bewerter für Glossarkonformität prüfen können

API-Referenz

Integrieren Sie die Lokalisierungs-API in Ihren Workflow