|
Dokumentation
Demo buchenPlattform
Plattform
MCPCLIAPIWorkflows
LeitfädenChangelog

Erste Schritte

  • Einführung
  • Verbinde deine Engine

Lokalisierungs-Engine

  • Überblick
  • Markenstimmen
  • Anweisungen
  • Glossare
  • LLM-Modelle
  • Cache-Tokens
  • Sprachauflösung

Qualität

  • Berichte
  • KI-Bewerter
  • Playground
  • Engine Suggestions

Admin

  • API-Schlüssel
  • Team
  • Rollen & Berechtigungen
  • Audit-Logs

KI-Bewerter

KI-Bewertungen sind automatisierte Qualitätsprüfungen für Übersetzungen, die von Ihrer Lokalisierungs-Engine erstellt werden. Nach jeder Übersetzungsanfrage führt Lingo.dev unabhängige LLM-Auswertungen durch, um die Ausgabe zu überprüfen – einschließlich Glossarkonformität, Einhaltung von Anweisungen und aller benutzerdefinierten Kriterien, die Sie festlegen. Die Bewertungen laufen asynchron und blockieren die Übersetzungsantwort nie.

So funktioniert's#

Sobald die Lokalisierungs-Engine eine Übersetzungsanfrage abgeschlossen hat, stellt sie die passenden Bewertungen zur asynchronen Auswertung in die Warteschlange. Jede Bewertung nutzt ein unabhängiges LLM, das den Ausgangstext, die übersetzte Ausgabe, den Kontext und die Bewertungskriterien erhält. Es liefert ein strukturiertes Ergebnis zurück – Bestanden/Nicht bestanden oder einen Prozentwert – inklusive Begründung bei nicht perfekten Ergebnissen.

Im Tab Reviews der Engine steuern Sie, welche Bewertungen für diese Engine ausgeführt werden. Es gibt drei Kategorien:

KategorieWas geprüft wirdErgebnistypKonfiguration
Glossareinträge KI-BewertungOb Übersetzungen den Regeln des glossary der Engine folgenBestanden / Nicht bestandenIntegrierter Schalter pro Engine
Anweisungen KI-BewertungOb Übersetzungen jede instructions der Engine befolgenBestanden / Nicht bestanden pro AnweisungIntegrierter Schalter pro Engine
Benutzerdefinierte KI-BewerterIhre eigenen Bewertungskriterien, auf Organisationsebene definiertBestanden / Nicht bestanden oder 0–100 %Pro Engine aus den Bewertern auf Organisationsebene auswählen

Integrierte KI-Bewertungen#

Jede Lokalisierungs-Engine enthält zwei integrierte Bewertungstypen, die Übersetzungen anhand der eigenen Konfiguration der Engine prüfen. Aktivieren oder deaktivieren Sie sie im Tab Reviews der Engine.

Glossareinträge KI-Bewertung#

Prüft, ob die Übersetzung alle relevanten Glossarregeln eingehalten hat. Wenn die Engine benutzerdefinierte Übersetzungen (z. B. "Deploy" → "Bereitstellen") oder nicht übersetzbare Begriffe (z. B. "OAuth") enthält, überprüft die Bewertung, ob die Übersetzung diese Vorgaben eingehalten hat.

Die Bewertung berücksichtigt grammatische Variationen – eine Glossarregel für einen Begriff in einem bestimmten grammatischen Fall gilt für alle Formen dieses Begriffs. Wenn widersprüchliche Glossarregeln existieren, gilt die Übersetzung als konform, solange mindestens eine davon befolgt wurde.

Das Ergebnis ist ein einzelnes Bestanden/Nicht bestanden-Ergebnis für die gesamte Übersetzungsanfrage, mit Begründung, wenn das Ergebnis Nicht bestanden ist.

Anweisungen KI-Bewertung#

Bewertet jede Anweisung unabhängig. Wenn die Engine drei Anweisungen hat, liefert die Bewertung drei separate Bestanden/Nicht bestanden-Ergebnisse – jeweils mit eigener Begründung, wenn das Ergebnis Nicht bestanden ist.

Eine Anweisung kann N/A zurückgeben, wenn ihre Kriterien auf den übersetzten Inhalt nicht anwendbar sind. Zum Beispiel gibt eine Anweisung zur formellen Anrede N/A zurück, wenn die Übersetzung nur einen Produktnamen oder einen technischen Begriff enthält, bei dem Formalität keine Rolle spielt. N/A-Ergebnisse werden aus aggregierten Bewertungen ausgeschlossen.

Beide integrierten Bewertungen werden nur ausgelöst, wenn die Engine entsprechend konfiguriert ist – wenn keine Glossareinträge zum Sprachpaar passen, wird keine Glossareinträge KI-Bewertung ausgeführt.

Bewertungen pro Engine konfigurieren#

Öffnen Sie den Tab Reviews der Engine, um festzulegen, welche Bewertungen für diese Engine ausgeführt werden. Der Tab hat zwei Bereiche:

Integrierte Schalter oben steuern die Glossareinträge KI-Bewertung und die Anweisungen KI-Bewertung. Beide sind unabhängig voneinander – Sie können also die eine ohne die andere aktivieren, je nachdem, was für die Engine konfiguriert ist.

Benutzerdefinierte KI-Bewerter unter den Schaltern listen alle KI-Bewerter auf, die auf Organisationsebene definiert wurden. Schalten Sie jeden einzelnen für diese Engine ein oder aus. So können Sie eine gemeinsame Bibliothek mit Qualitätsprüfungen pflegen und gezielt einsetzen.

Eine einzelne Engine kann sowohl integrierte Bewertungen als auch mehrere benutzerdefinierte KI-Bewerter gleichzeitig ausführen. Alle Bewertungen laufen asynchron nach jeder Übersetzungsanfrage, und die Ergebnisse erscheinen im Übersetzungsprotokoll sowie in Reports.

Arten von KI-Bewertern#

Boolesche KI-Bewerter#

Geben ein binäres Ergebnis zurück: bestanden oder nicht bestanden. Verwenden Sie sie für Regeln, die entweder erfüllt sind oder nicht.

Beispiele:

  • "Bewahrt die Übersetzung alle HTML-Tags und Attribute?"
  • "Werden die Pluralisierungsregeln für die Zielsprache korrekt angewendet?"
  • "Verwendet die Übersetzung im Deutschen die formelle Anrede (Sie)?"

Die Ergebnisse werden als Erfolgsquote aggregiert – 75 % bedeutet, dass 3 von 4 bewerteten Übersetzungen bestanden haben.

Prozentuale KI-Bewerter#

Geben einen Wert von 0 bis 100 zurück. Verwenden Sie sie für Qualitätsdimensionen, die auf einem Spektrum liegen.

Beispiele:

  • "Bewerte die Natürlichkeit der Übersetzung aus Sicht eines Muttersprachlers (0–100)"
  • "Bewerte, wie gut die Übersetzung den ursprünglichen Ton und die ursprüngliche Absicht bewahrt (0–100)"
  • "Bewerte die grammatische Korrektheit auf einer Skala von 0–100"

Die Ergebnisse werden als Durchschnittswerte über den Bewertungszeitraum aggregiert.

Konfiguration von KI-Bewertern#

FeldBeschreibung
NameEine Bezeichnung zur Identifizierung des KI-Bewerters (z. B. "Pluralisierungsprüfung")
AnweisungDie Bewertungskriterien, in natürlicher Sprache formuliert
Typboolean (Bestanden/Nicht bestanden) oder percentage (0–100)
AusgangsspracheDie passende Ausgangssprache oder * für beliebige
ZielspracheDie passende Zielsprache oder * für beliebige
Anbieter / ModellDas für die Bewertung verwendete LLM (unabhängig vom Übersetzungsmodell)
SamplingProzentsatz der Anfragen, die bewertet werden sollen (0–100 %)
N/A zulassenOb der KI-Bewerter für irrelevante Paare "nicht anwendbar" zurückgeben kann
AktiviertBewertung ein- oder ausschalten, ohne die Konfiguration zu löschen

Anweisungen für KI-Bewerter schreiben#

Das Feld für die Anweisung ist das Herzstück eines KI-Bewerters. Es sagt dem bewertenden LLM genau, worauf es achten soll. Formulieren Sie es als spezifisches, testbares Kriterium.

Gute Anweisungen#

Boolesch:

text
Check whether all HTML tags in the source text are preserved
exactly in the translation. Tags must not be added, removed,
modified, or reordered. Pass if all tags are preserved, fail
if any tag is missing or altered.

Prozentual:

text
Rate the fluency of the translation on a scale of 0-100.
100 means a native speaker would find it completely natural.
0 means it reads like machine output. Deduct points for
awkward phrasing, unnatural word order, or overly literal
constructions.

Was eine gute Anweisung ausmacht#

  • Spezifische Kriterien – definieren Sie genau, was Bestanden/Nicht bestanden bedeutet oder wofür 0 und 100 stehen
  • Beobachtbare Ergebnisse – das LLM sollte den Text anhand dessen bewerten können, was tatsächlich darin steht, statt die Absicht zu erraten
  • Ein Aspekt pro KI-Bewerter – teilen Sie mehrdimensionale Qualitätsprüfungen in separate KI-Bewerter auf

Abgleich nach Sprache#

KI-Bewerter gleichen Übersetzungsanfragen anhand von Ausgangs- und Zielsprache ab. Das Platzhalterzeichen * passt auf jede Sprache.

AusgangsspracheZielspracheTrifft zu auf
endeNur Übersetzungen Englisch → Deutsch
en*Jede Übersetzung aus dem Englischen
*jaJede Übersetzung ins Japanische
**Alle Übersetzungen

Eine einzelne Übersetzungsanfrage kann mehrere KI-Bewerter auslösen, wenn mehrere auf ihr Sprachpaar passen.

Sampling#

Nicht jede Übersetzung muss bewertet werden. Die Sampling-Rate steuert, welcher Prozentsatz der passenden Anfragen ausgewertet wird.

SamplingVerhalten
100 %Jede passende Anfrage wird bewertet (gründlich, aber mit höheren Kosten)
50 %Ungefähr die Hälfte der passenden Anfragen wird bewertet
10 %Eine von zehn – nützlich für Engines mit hohem Volumen, bei denen Trends wichtiger sind als einzelne Bewertungen
0 %Der KI-Bewerter ist damit faktisch pausiert, ohne deaktiviert zu werden

Sampling wird beim Eingang der Anfrage per Zufallsprüfung angewendet. Bei ausreichend hohem Anfragevolumen nähert sich die tatsächliche Bewertungsrate dem konfigurierten Prozentsatz an.

N/A-Unterstützung#

Wenn allowsNA aktiviert ist, kann das Bewertungs-LLM statt eines Werts "nicht anwendbar" zurückgeben. Das ist nützlich für KI-Bewerter, deren Kriterien nicht auf jedes Sprachpaar zutreffen.

Beispiel: Ein KI-Bewerter, der die Konventionen formeller Anrede prüft, gibt für Englisch → Englisch N/A zurück (im Englischen gibt es keine formell/informell-Unterscheidung), liefert aber einen Wert für Englisch → Deutsch.

N/A-Ergebnisse werden in Berichten aus Durchschnittswerten und Erfolgsquoten ausgeschlossen – sie drücken die Werte nicht nach unten und blähen sie auch nicht künstlich auf.

Begründung#

KI-Bewerter liefern bei nicht perfekten Ergebnissen eine Begründung, damit Sie nachvollziehen können, was schiefgelaufen ist:

  • Perfektes Ergebnis (bestanden oder 100 %) – Begründung ist null (nichts zu erklären)
  • N/A – Begründung ist null
  • Nicht perfektes Ergebnis – eine kurze Erklärung in einem Satz

So bleiben die Bewertungsergebnisse direkt nutzbar: Wenn eine Übersetzung eine Prüfung nicht besteht, erfahren Sie durch die Begründung warum – ganz ohne manuelle Nachforschung.

Bewertungsmodell#

Jeder KI-Bewerter hat seine eigene LLM-Anbieter- und Modellkonfiguration, unabhängig vom Übersetzungsmodell. Diese Trennung ist bewusst gewählt – das Modell, das die Übersetzung erstellt, sollte nicht dasselbe Modell sein, das sie bewertet.

Modellunabhängigkeit

Ein anderes Modell für die Prüfung als für die Übersetzung zu verwenden, sorgt für eine unabhängige Bewertung. Wenn GPT-4o die Übersetzung erstellt, gibt Ihnen Claude Sonnet bei der Bewertung eine zweite Meinung statt einer Selbsteinschätzung.

Berichte zu KI-Bewertern#

Die Bewertungsergebnisse werden im Dashboard im Abschnitt für KI-Bewerter-Berichte visualisiert und zeigen:

  • Erfolgsquoten im Zeitverlauf – für boolesche KI-Bewerter, dargestellt als tägliche Prozentsätze
  • Durchschnittswerte im Zeitverlauf – für prozentuale KI-Bewerter, dargestellt als tägliche Mittelwerte
  • Aufschlüsselung nach Sprachpaar – sehen Sie, wie jedes Ausgangs- → Zielsprachenpaar unabhängig abschneidet
  • Aggregierte Ansicht – kombinieren Sie alle Sprachpaare zu einer einzigen Trendlinie

Berichte zu KI-Bewertern ergänzen die volumenorientierten Reports – zusammen geben sie Ihnen ein vollständiges Bild von Durchsatz und Qualität.

KI-Bewerter über MCP verwalten#

Wenn Sie den Lingo.dev MCP server verwenden, kann Ihr KI-Coding-Assistent KI-Bewerter direkt erstellen und konfigurieren:

text
"Create a boolean AI reviewer for all locale pairs that checks
whether HTML tags are preserved in translations."
text
"Add a percentage AI reviewer for English to German that rates
translation fluency on a 0-100 scale, sampling 50% of requests."

Nächste Schritte#

Reports
Übersetzungsvolumen, Token-Nutzung und Sprachabdeckung im Blick behalten
LLM-Modelle
Konfigurieren Sie die Übersetzungsmodelle, die von KI-Bewertern bewertet werden
Glossare
Legen Sie Begriffe an, gegen die KI-Bewerter für Glossarkonformität prüfen können
API-Referenz
Integrieren Sie die Lokalisierungs-API in Ihren Workflow

War diese Seite hilfreich?

Max PrilutskiyMax Prilutskiy·Aktualisiert vor etwa 2 Monaten·7 Min. Lesezeit