Die Antwort ist gar nicht so einfach – denn die gängigen Vergleichstests, sogenannte Benchmarks, sind fast ausschließlich auf Englisch verfügbar. Viele Anbieter übersetzen diese Benchmarks einfach ins Deutsche, um Modelle für unseren Sprachraum zu bewerten. Doch genau hier liegt das Problem.
Eine aktuelle Studie der Mittelstand-Digital Zentrum – Fokus Mensch Mitarbeiter Darius Hennekeuser, Daryoush Vaziri und David Golchinfar untersucht, wie zuverlässig diese Übersetzungen sind. Das Ergebnis: Automatische Übersetzungen reichen nicht aus.
Auf den ersten Blick scheinen automatische Übersetzungstools wie DeepL, Google Translate oder GPT-4 gute Arbeit zu leisten. Die übersetzten Sätze sind flüssig, die Aufgaben verständlich – doch im Detail ergeben sich gravierende Probleme.
So verschwinden beispielsweise im Original bewusst eingebaute Grammatikfehler, die ein LLM erkennen und korrigieren soll, nach der Übersetzung spurlos. Damit ist die Aufgabe nutzlos geworden, weil das Modell gar nicht mehr beweisen kann, ob es Fehler identifiziert. Ein anderes Beispiel betrifft Programmieraufgaben: Übersetzungssysteme verändern Schlüsselwörter in Python-Code, wodurch der Code schlicht nicht mehr lauffähig ist. Für ein Modell, das eigentlich seine Programmierfähigkeiten demonstrieren soll, ist die Aufgabe damit nicht lösbar. Hinzu kommen subtile Bedeutungsveränderungen. Einzelne Begriffe oder Redewendungen verlieren bei der Übersetzung ihren Sinn, sodass ein Test plötzlich unklar oder sogar unsinnig wird. Kurz gesagt: Was auf Englisch ein sauberer Benchmark ist, wird im Deutschen schnell zur Stolperfalle.
Für KMU ist das mehr als eine akademische Randnotiz. Denn wenn ein Benchmark fehlerhaft übersetzt ist, kann leicht das falsche Modell als „besser“ erscheinen. Wer sich auf solche Testergebnisse verlässt, riskiert teure Fehlentscheidungen – etwa indem ein Modell gewählt wird, das in englischen Tests stark abschneidet, aber in der deutschen Praxis schwach performt. Besonders heikel wird es in regulierten Branchen wie Gesundheit, Recht oder Verwaltung. Dort können falsche Annahmen über die Leistungsfähigkeit eines Modells nicht nur zu finanziellen Verlusten, sondern auch zu Compliance-Verstößen führen.
Was also tun? Die Studie liefert eine klare Richtung. Internationale Benchmarks können durchaus als Orientierung dienen, sollten aber niemals ungeprüft übernommen werden. Automatische Übersetzungen sind ein nützlicher Startpunkt, doch sie müssen durch menschliche Revision ergänzt werden, um die ursprüngliche Funktionalität der Aufgaben zu bewahren. Vor allem sollten Unternehmen ihre Modelle nicht nur anhand fremder Benchmarks bewerten, sondern auch mit eigenen Beispielen testen – etwa mit typischen Kundenanfragen, Produkttexten oder internen Dokumenten. So zeigt sich, wie ein Modell im konkreten Arbeitsalltag funktioniert.
Ebenso wichtig ist eine realistische Erwartung an den Prozess. Eine gründliche Evaluierung kostet Zeit, spart aber langfristig Ressourcen, weil Fehlentscheidungen und kostspielige Nachbesserungen vermieden werden. Und nicht zuletzt sollte der Blick auf regulatorische Entwicklungen nicht fehlen: Mit dem EU AI Act werden in den kommenden Jahren strengere Anforderungen an Nachvollziehbarkeit und Qualität von KI-Systemen eingeführt. Eine saubere, sprachspezifische Evaluierung ist damit nicht nur eine Frage der Best Practice, sondern bald eine gesetzliche Pflicht.
Die zentrale Botschaft lautet also: Wer im Mittelstand auf LLMs setzt, darf sich nicht mit der bequemen Lösung zufriedengeben. Automatisch übersetzte Benchmarks wirken auf den ersten Blick hilfreich, bergen aber erhebliche Risiken. Erst durch eine Kombination aus maschineller Übersetzung, menschlicher Nachbearbeitung und eigenen Praxistests lassen sich fundierte Entscheidungen treffen – und damit die richtigen Weichen für einen erfolgreichen und sicheren KI-Einsatz im deutschen Mittelstand stellen.