DokumentationPreiseResearchEnterpriseKarriere
Karriere
AnmeldenRegistrierenDemo buchen
Alle Beiträge

Retrieval-Augmented Localization senkt Terminologiefehler von LLMs um 17–45 %

In der Produktionslokalisierung werden isolierte Absätze und Strings übersetzt. Eine CI/CD-Pipeline bildet Diffs zur vorherigen Version und übersetzt nur das neu, was sich geändert hat — ein UI-String, ein Tooltip, ein überarbeiteter Absatz. Jede Anfrage landet isoliert beim LLM — ohne die umgebende Seite, ohne den vollständigen Dokumentkontext, ohne jeden Hinweis darauf, ob es sich um juristische EU-Prosa oder Marketingtext handelt. Ohne Domänenkontext, der zur Inferenzzeit eingebracht wird, ist jede isolierte Anfrage eine neue Gelegenheit für Terminologie-Drift.

Retrieval-Augmented Localization (RAL) schließt diese Lücke, indem jede Übersetzungsanfrage zur Inferenzzeit mit Glossarbegriffen, Regeln zur Markenstimme und sprachspezifischen Anweisungen angereichert wird — nach demselben Retrieve-Inject-Muster wie Retrieval Augmented Generation (RAG). In einer kontrollierten Auswertung über fünf LLM-Anbieter und fünf europäische Sprachen hinweg reduzierte RAL Terminologiefehler um 16,6–44,6 %.

Die wichtigsten Erkenntnisse:

  • RAL reduzierte Terminologiefehler bei allen fünf getesteten LLM-Anbietern um 16,6–44,6 %
  • Ganzheitliche Qualitätswerte (GEMBA-DA) konnten diese Unterschiede nicht erfassen. Deltas von 0,0007–0,0178, während MQM Tausende weniger Fehler zählte
  • Modelle mit schwächeren Terminologie-Basiswerten profitierten am stärksten: Mistral (-44,6 %) und Deepseek (-42,1 %) gegenüber Anthropic (-24,4 %) und Google (-16,6 %)
  • Portugiesisch zeigte die größte Verbesserung je Sprache, Französisch die kleinste — je stärker die Domänenterminologie von den Trainingsdaten abweicht, desto mehr hilft RAL

Das Isolationsproblem#

Die Einheit der Produktionslokalisierung ist klein: ein Absatz, ein String, ein Diff. Selten mehr als 200 Wörter. Oft weniger als 50. Eine JSON-Sprachdatei enthält einzelne Schlüssel, die jeweils eine Phrase oder einen Satz enthalten. Eine CMS-Seite besteht aus Blöcken, die jeweils unabhängig voneinander übersetzt werden.

Wenn das Modell in einem isolierten englischen Absatz auf „provider“ stößt, muss es entscheiden: ist das im Portugiesischen „fornecedor“ (das gebräuchliche Wort) oder „prestador“ (der offizielle juristische EU-Begriff)? Ohne Domänenkontext greift es zur gebräuchlichen Variante. Multipliziert man das über jeden domänenspezifischen Begriff in jeder Sprache, wird Terminologie-Drift zum Standard.

Wir wollten genau messen, wie groß diese Lücke ist — und ob eingeschleuster Glossarkontext zur Inferenzzeit sie schließt.

Der erste Versuch zeigte nichts#

Unser erstes Experiment nutzte 37 Glossarbegriffe pro Sprachpaar und bewertete Übersetzungen auf Artikelebene — jeder Artikel (200–700 Wörter) wurde als einzelne Einheit bewertet. Das Ergebnis: GEMBA-DA — der ganzheitliche Qualitäts-Prompt, der bei WMT23 gewann — meldete 0,952 für roh und 0,952 für konfiguriert. Die Fehlerannotation mit MQM ergab für jede Übersetzung Werte von 0,985–0,999. Kein Signal. Kein Unterschied. Nach jeder Metrik waren rohe und glossarangereicherte Ausgaben identisch.

Wir hätten beinahe ein Nullergebnis veröffentlicht. Dann haben wir uns angesehen, warum.

Zwei Probleme. Erstens waren 37 Glossarbegriffe zu wenig — viele Testabsätze enthielten keine Glossartreffer, sodass die konfigurierte Engine keinen Vorteil hatte. Zweitens komprimiert eine Bewertung auf Artikelebene Qualitätsunterschiede mathematisch zu Rauschen. MQM-Werte werden berechnet als 1 - penalty / wordCount. Ein einzelner schwerwiegender Terminologiefehler in einem 500-Wörter-Artikel: 1 - 5/500 = 0.99. Derselbe Fehler in einem 50-Wörter-Absatz: 1 - 5/50 = 0.90. Der Fehler ist identisch. Der Wert ist es nicht. Auf Artikelebene verschwindet jeder reale Qualitätsunterschied oberhalb von 0,98.

Das ist nicht nur ein Messproblem in unserer Studie. Es gilt für jeden Übersetzungs-Benchmark, der auf Seiten- oder Artikelebene bewertet. Die Fehler sind da. Die Metrik sieht sie nur nicht.

Wir haben die Perspektive gewechselt#

Für die zweite Iteration haben wir vier Änderungen vorgenommen.

Erstens erweiterten wir das Glossar von 37 auf 72 Begriffe pro Sprachpaar — extrahiert aus einem Trainingssatz von Artikeln, getrennt vom für die Auswertung verwendeten Testsatz. Zweitens bewerteten wir auf Absatzebene (50–200 Wörter) und passten damit zur tatsächlichen Einheit der Produktionsübersetzung. Drittens fügten wir dem MQM-Bewertungs-Prompt menschliche Referenzübersetzungen hinzu, damit die Bewerter Terminologie direkt vergleichen konnten. Viertens reduzierten wir die Zahl der Bewerter von sechs auf vier. Deepseek und QWEN markierten nur 1–3 Fehler pro Absatz gegenüber 5–15 bei strengeren Bewertern — zu nachsichtig, um zusätzliches Signal zu liefern.

Das Signal war sofort da.

Studiendesign#

Datensatz. Wir wollten eine Textsorte mit maximaler Terminologiedichte, um die Glossar-Injektion unter anspruchsvollen Bedingungen einem Stresstest zu unterziehen. Der EU AI Act (Verordnung 2024/1689) passte perfekt: formaler Regulierungstext, bei dem jeder Absatz Begriffe mit spezifischen, offiziell festgelegten Übersetzungen enthält. EUR-Lex veröffentlicht offizielle menschliche Übersetzungen in allen fünf Zielsprachen, was eine Absatz-für-Absatz-Bewertung gegen Ground Truth ermöglicht. 15 Artikel, Englisch nach Deutsch, Französisch, Spanisch, Portugiesisch und Italienisch.

Engines. Jeder Anbieter wurde in zwei Konfigurationen der Lokalisierungs-Engine getestet: eine rohe Engine (das LLM allein — ohne Glossar, ohne Retrieval, nur mit Übersetzung aus Trainingswissen) und eine RAL-angereicherte Engine (dasselbe Modell, mit einem Domänen-Glossar, einem Profil der Markenstimme und sprachspezifischen Anweisungen zur Inferenzzeit). Insgesamt zehn Engines, mit derselben Konfiguration über alle RAL-angereicherten Engines hinweg.

AnbieterModellRohe EngineRAL-Engine
Anthropicclaude-opus-4.6nur ModellGlossar + Markenstimme + Anweisungen
OpenAIgpt-5.4nur ModellGlossar + Markenstimme + Anweisungen
Googlegemini-3.1-pro-previewnur ModellGlossar + Markenstimme + Anweisungen
Mistralmistral-large-2512nur ModellGlossar + Markenstimme + Anweisungen
Deepseekdeepseek-v3.2nur ModellGlossar + Markenstimme + Anweisungen

QWEN war anfangs enthalten, wurde aber aus dem finalen Set gestrichen — die Übersetzungen waren langsam und unzuverlässig, dasselbe Problem, das auch zum Ausschluss als Bewerter führte.

RAL-Konfiguration. Jede angereicherte Engine enthielt 72 Glossarbegriffe pro Sprachpaar (70 benutzerdefinierte Übersetzungen plus 2 nicht übersetzbare Begriffe), ein Profil der Markenstimme (formales regulatorisches EU-Register) und 13 sprachspezifische Anweisungen. Die Glossarbegriffe wurden aus einem Trainingssatz von Artikeln extrahiert, der vom für die Auswertung verwendeten Testsatz getrennt war. Beispiel-Einträge: EN „provider“ → PT „prestador“ (nicht „fornecedor“); EN „high-risk AI system“ → PT „sistema de IA de risco elevado“ (nicht „sistema de IA de alto risco“). Zur Inferenzzeit werden nur Begriffe abgerufen, die zum aktuellen Absatz passen, und an das Modell übergeben — die Glossargröße bläht das Kontextfenster nicht auf. Die Engines wurden auf Lingo.dev als zustandsbehaftete Lokalisierungs-Engines konfiguriert — persistenter Kontext, der auf jede Anfrage angewendet wird.

Bewertung. Jeder übersetzte Absatz wurde von vier LLM-Bewertern bewertet und gemittelt, um individuelle Verzerrungen einzelner Bewerter auszugleichen. Jeder Bewerter bewertet die Ausgaben aller Anbieter, nicht nur seine eigenen:

BewerterModell
Anthropicclaude-sonnet-4.6
OpenAIgpt-4.1
Googlegemini-2.5-flash
Mistralmistral-large-2512

GEMBA-MQM. MQM (Multidimensionale Qualitätsmetriken) ist ein Standard-Framework zur Bewertung von Übersetzungsqualität — normalerweise durchgeführt von geschulten menschlichen Annotatoren. GEMBA-MQM, die bei WMT23 siegreiche Bewertungsmethode, ersetzt menschliche Annotatoren durch ein LLM und folgt dabei demselben MQM-Protokoll: Der Bewerter liest die Übersetzung und markiert jeden Fehler, wobei jeder Fehler einer Kategorie und einem Schweregrad zugewiesen wird.

Fehlerkategorien: Genauigkeit, Flüssigkeit, Stil, Terminologie. Die Gewichtung der Schweregrade folgt dem offiziellen MQM-Standard: geringfügig = 1, schwerwiegend = 5, kritisch = 25.

MQM-Wert pro Absatz: max(0, 1 - weighted penalty / word count). Ein 50-Wörter-Absatz mit einem schwerwiegenden Terminologiefehler erhält 1 - 5/50 = 0.90. Ein perfekter Absatz erhält 1,0. Die Fehlerzahlen in den Ergebnistabellen sind über alle vier Bewerter und alle Absätze für einen bestimmten Anbieter und eine bestimmte Sprache aufsummiert.

Eine Änderung gegenüber dem Standard-Prompt von GEMBA-MQM: Wir fügten die menschliche Referenzübersetzung hinzu. GEMBA-MQM ist von Haus aus referenzfrei — der Bewerter bewertet die Qualität, ohne die „richtige“ Antwort zu sehen. Wir fügten Referenzen hinzu, weil EUR-Lex offizielle Übersetzungen des EU AI Act in allen fünf Zielsprachen veröffentlicht und den Bewertern damit Ground Truth für den Terminologievergleich liefert.

GEMBA-DA. Ein ganzheitlicher Qualitätswert von 0 bis 1 mit dem Prompt GEMBA-DA (ebenfalls WMT23-Sieger). Anders als MQM erzeugt er einen einzelnen Wert ohne Fehlerannotation. Wir führen ihn als Plausibilitätsprüfung an — wie die Ergebnisse zeigen, kann er Unterschiede auf Terminologieebene nicht erkennen.

Deepseek wurde wegen übermäßig nachsichtiger Bewertung (1–3 Fehler pro Absatz gegenüber 5–15 bei strengeren Bewertern) aus dem Bewerter-Panel ausgeschlossen. Die Mittelung über vier Bewerter gleicht individuelle Verzerrungen aus, und die relative Verbesserung von roh gegenüber RAL ist bei jedem einzelnen Bewerter konsistent.

Stichprobengröße. 535 gepaarte Absatzbeobachtungen pro Anbieter (107 Absätze × 5 Sprachen). Insgesamt über 42.000 einzelne Qualitätsbewertungen (535 Absätze × 5 Anbieter × 2 Konfigurationen × 8 Werte).

Terminologiefehler sinken um 16,6–44,6 %#

AnbieterRohe FehlerRAL-FehlerReduktion
Mistral3,3361,847-44.6%
Deepseek3,6722,127-42.1%
OpenAI2,2761,508-33.7%
Anthropic1,5591,179-24.4%
Google1,9011,586-16.6%

Anzahl der Terminologiefehler aus MQM über 15 Artikel, 5 Sprachen und 4 Bewerter hinweg.

Die Verbesserung verlief umgekehrt zum Basiswert. Mistral und Deepseek — mit den höchsten Roh-Fehlerzahlen — verzeichneten Reduktionen von 42,1–44,6 %. Anthropic und Google — die in ihrem Training bereits mehr juristische EU-Terminologie abbildeten — erzielten geringere Zugewinne. Das Muster: RAL kompensiert, was das Modell noch nicht weiß.

Gleichzeitig meldete GEMBA-DA — der ganzheitliche Wert — über alle Anbieter hinweg eine Delta-Spanne von 0,0007–0,0178 zwischen roh und RAL. Dieselben Übersetzungen, bei denen MQM 16,6–44,6 % mehr Terminologiefehler markierte, erhielten nahezu identische ganzheitliche Werte. Das ist die Messlücke: Eine ganzheitliche Bewertung kann Qualitätsunterschiede auf Terminologieebene — unabhängig von der Granularität — nicht erkennen.

Die Gesamtfehlerzahl (alle MQM-Kategorien) zeigte über alle fünf Anbieter hinweg eine kleinere, aber konsistente Reduktion:

AnbieterRohsummeRAL gesamtVeränderung
Deepseek10,4239,014-13.5%
Mistral8,8467,812-11.7%
OpenAI7,5637,155-5.4%
Google7,7937,545-3.2%
Anthropic6,2326,039-3.1%

Die Lücke zwischen der Reduktion von Terminologiefehlern (16.6–44.6 %) und der Gesamtreduktion (3.1–13.5 %) lässt sich größtenteils durch Stil erklären. LLM-Juroren markieren Text häufig als „holprig“, wenn er von den Präferenzen ihrer Trainingsdaten abweicht – selbst dann, wenn diese Abweichung näher an die offizielle Referenz heranführt. Das ist eine bekannte Einschränkung, die als Self-Preference-Bias bezeichnet wird. Terminologie und Genauigkeit sind an der Referenz verankert; Stil hat keinen anderen Maßstab als das eigene Empfinden des Jurors dafür, was natürlich klingt.

Statistische Signifikanz#

Die Reduktion von Terminologiefehlern wurde pro Anbieter mit einem gepaarten Wilcoxon-Vorzeichen-Rang-Test geprüft (einseitig, Holm-Bonferroni-korrigiert über fünf Anbieter hinweg). Die Terminologiefehler pro Absatz wurden über vier Juroren summiert und anschließend absatzweise gepaart (gleiche Quelle, gleiche Juroren, Rohfassung vs. RAL).

AnbieterGepaarte AbsätzeDurchschnittliche Reduktion/Absatz95-%-KICohens dp (adjustiert)
Mistral5322.80[2.42, 3.21]0.60< 0.001
Deepseek5262.94[2.45, 3.44]0.50< 0.001
OpenAI5351.44[1.12, 1.77]0.37< 0.001
Anthropic5330.71[0.50, 0.93]0.28< 0.001
Google5330.59[0.34, 0.85]0.20< 0.001

Alle fünf Anbieter zeigen statistisch signifikante Reduktionen bei Terminologiefehlern (p < 0.001 nach Holm-Bonferroni-Korrektur für multiple Vergleiche), wobei die 95-%-Konfidenzintervalle null ausschließen. Die Effektgrößen reichen von mittel bis groß (Mistral, d = 0.60) bis klein (Google, d = 0.20) – im Einklang mit dem Muster, dass Modelle mit geringerer Terminologieabdeckung im Ausgangszustand stärker von RAL profitieren.

Wo RAL den größten Unterschied macht#

Portugiesisch zeigte über alle Anbieter hinweg die größten Verbesserungen bei der Terminologie. Die portugiesische Rechtsterminologie weicht deutlich vom Alltagsportugiesisch ab, und portugiesische EU-Rechtsbegriffe sind in den Trainingsdaten von LLMs unterrepräsentiert. Französisch zeigte die geringsten Verbesserungen – französische Rechtsbegriffe sind in Trainingskorpora gut vertreten.

Fallstudie: OpenAI Portugiesisch

OpenAIs Rohoutput übersetzte den EU AI Act ins Portugiesische und verwendete dabei 71-mal „alto risco“ (das umgangssprachliche „high risk“), 39-mal „fornecedores“ und 36-mal „fornecedor“. Die offiziellen Übersetzungen in EUR-Lex verwenden „risco elevado“ und „prestadores“. Mit RAL sanken die portugiesischen Terminologiefehler bei OpenAI von 648 auf 266 – eine Reduktion um 59 %.

Das Muster lässt sich verallgemeinern: Sprachen, deren Fachterminologie weiter von der Trainingsverteilung des LLM entfernt ist, profitieren stärker von RAL.

Der Mechanismus#

Der Mechanismus ist einfach. Zur Inferenzzeit zerlegt die Engine den Eingabetext in n-Gramm-Phrasen und erstellt daraus Embeddings. Anschließend führt sie eine Kosinusähnlichkeitssuche im Vektorindex des Glossars aus, um passende Begriffe zu finden. Treffer werden zusammen mit dem Quelltext in das Kontextfenster des LLM eingespeist. Das Modell errät nicht „fornecedor“ oder „prestador“ – es sieht die korrekte Zuordnung im Kontext und verwendet sie. Strukturell ist das identisch zu RAG: einbetten, abrufen, einfügen, generieren.

Anbieter-Ranking nach Rohqualität#

Ohne RAL – nur der rohe Modelloutput:

RangAnbieterMQM-Durchschnitt
1Anthropic0.955
2OpenAI0.942
3Google0.938
4Mistral0.915
5Deepseek0.883

Die Lücke von 0.072 zwischen Anthropic und Deepseek entspricht grob 3–4 zusätzlichen Fehlern pro Absatz mit 100 Wörtern. RAL hat diese Lücke verkleinert: Mistral mit RAL (0.940 im Durchschnitt) näherte sich Googles Rohqualität (0.938) an. Ein Modell zu einem Bruchteil der Kosten pro Token, ergänzt um ein Glossar mit 72 Begriffen, erreichte die Terminologiegenauigkeit eines teureren Modells ohne Glossar.

Was das in der Produktion bedeutet#

Die Qualitätslücke zwischen rohem LLM-Output und produktionsreifer Lokalisierung ist ein Kontextproblem – und sie verstärkt sich mit der Zeit. Nach zehn Releases ohne RAL existieren im Produkt bereits drei verschiedene falsche Übersetzungen von „provider“ nebeneinander.

RAL durchbricht dieses Muster. Das Glossar ist persistent – es gilt für jede Anfrage, unabhängig davon, was sich geändert hat. Das Glossar mit 72 Begriffen, das in unserer Studie die Fehler um 16.6–44.6 % reduzierte, ist keine einmalige Verbesserung. Es ist eine Konsistenzschicht für jede Übersetzungsanfrage über den gesamten Lebenszyklus des Produkts hinweg.

Zwei Erkenntnisse für Teams, die LLM-Übersetzungen in Produktion bringen: Erstens können ganzheitliche Qualitätswerte Probleme auf Terminologieebene nicht erkennen. GEMBA-DA – die Siegermethode bei WMT23 – bewertete rohe und mit RAL angereicherte Übersetzungen mit nur 0.0007–0.0178 Unterschied. MQM zählte dagegen 16.6–44.6 % weniger Terminologiefehler. Wenn Sie auf Seitenebene mit einem einzigen Wert evaluieren, sehen Sie nicht das ganze Bild.

Zweitens ist die Lösung einfacher, als das Problem vermuten lässt. Ein zur Inferenzzeit eingefügtes Domainglossar reduzierte Terminologiefehler bei jedem Anbieter, den wir getestet haben. Selbst das Modell mit der besten Übersetzungsleistung (Anthropic, MQM 0.955) verbesserte sich noch. Das Modell mit der höchsten Ausgangsfehlerrate (Deepseek, MQM 0.883) verbesserte sich am stärksten.

RAL ist für Lokalisierung das, was RAG für Generierung ist: die Engineering-Schicht zwischen Modell und Produktion.

Nächste Schritte#

Lingo.dev v1.0 ist da
Die Lokalisierungs-Engineering-Plattform rund um RAL
Lokalisierungs-Engines
Modelle, Glossare und Markenstimme pro Sprache konfigurieren

Plattform

Lokalisierungs-APIAPI für asynchrone JobsLokalisierungs-EnginesSpracherkennungLingo.dev Platform MCPPreise

Entwicklertools

Lingo React MCPLingo CLILingo GitHub ActionLingo React Compiler
Alpha

Ressourcen

DokumentationLabsLeitfädenChangelogSprachenLLM-Modelle

Unternehmen

BlogResearchDemo buchenKundenKarriere
Karriere
humans.txt

Community

GitHubDiscordTwitterLinkedIn
Mit Hauptsitz in San Francisco — und weltweit unterwegs
SOC 2 Type II·CCPA·GDPR
Unterstützt von Y Combinator
Combinator
& Initialized Capital
Initialized Capital
& unseren Kunden
Datenschutz·Bedingungen·Cookies·security.txt

© 2026 Lingo.dev (Replexica, Inc).

Alle Systeme funktionieren normal
AnmeldenRegistrierenDemo buchen
Veronica PrilutskayaVeronica Prilutskaya, CPO & Mitgründer·Veröffentlicht vor 4 Monaten·10 Min. Lesezeit