Prof. Fraser, wie funktioniert maschinelle Übersetzung?
Prof. Fraser: Maschinelle Übersetzung läuft in zwei Schritten ab: Zuerst analysiert das Modell den Quellsatz, dann erstellt es die Übersetzung. Der Teil des neuronalen Netzes, der für den Analyseschritt verantwortlich ist, wird „Encoder“ genannt. Er erstellt eine numerische Repräsentation des Satzes – idealerweise mit identischen Ergebnissen für Sätze wie „I saw the dog“ und „Ich sah den Hund“. Diese Repräsentationen kann man dann in beliebige Sprachen übersetzen. Wenn das System fehlerhaft arbeitet, bekommt man beispielsweise für einen obersorbischen und einen deutschen Satz mit der gleichen Bedeutung sehr unterschiedliche Repräsentationen. Dann kann die Ausgabe nicht korrekt sein. Das lässt sich überprüfen, indem man das Modell auffordert, einen deutschen Satz ins Sorbische zu übersetzen. Anschließend verwenden wir automatische Systeme, um nach Ähnlichkeiten zwischen einer einzelnen richtigen Übersetzung und der hypothetischen System-Übersetzung zu suchen.
Obersorbisch, eine in der Lausitz gesprochene Minderheitensprache, steht im Mittelpunkt Ihres Forschungsprojekts EPICAL. Ziel ist es, ressourcenschwache Sprachen am Leben zu erhalten. Was fasziniert sie an der Analyse von Sprachen und Texten?
Prof. Fraser: In den Vorgängerprojekten „Domain Adaptation for Statistical Machine Translation“ und „Health in my Language“ haben wir mit medizinischen Texten für Verbraucher gearbeitet – mit einem System, das ausschließlich mit solchen Texten trainiert wurde und daher nur in diesem Bereich gut funktionierte. Damals hatte ich seltene Sprachen noch gar nicht im Fokus. Ich erkannte aber bald: Es ist gar nicht vom Fachgebiet abhängig, ob ein Modell funktioniert. Es liegt an der Sprache, in die beziehungsweise aus der übersetzt wird. Gerade für ressourcenschwache Sprachen gibt es oft nicht genug Paralleltexte, um leistungsfähige maschinelle Übersetzungssysteme zu trainieren.
Wie viele Sprachen weltweit sind derzeit bedroht?
Prof. Fraser: Es gibt insgesamt etwa 7.000 Sprachen auf der Welt – doch alle zwei Wochen stirbt eine aus. Rund 40 Prozent gelten als gefährdet. Laut dem Summer Institute for Language, einer christlichen Organisation, die die Bibel in unterschiedliche Sprachen übersetzt hat, könnten rund 1.500 Sprachen in naher Zukunft verschwinden. Es wäre natürlich naiv zu denken, maschinelle Übersetzungen für alle 7.000 Sprachen könnten dies verhindern. Entscheidend sind das Prestige der Sprache und dass sie aktiv genutzt wird – insbesondere von Kindern.
Was kann EPICAL hier bewirken?
Prof. Fraser: Wir wollen Sprachaktivistinnen und -aktivisten dabei unterstützen, mithilfe von Chatbots Texte in ihrer Sprache zu verfassen. Je mehr Texte entstehen, desto besser können wir die Bots trainieren, und je besser diese sind, desto leichter wird das Schreiben neuer Texte. Wir versuchen also, die Sprachmodelle für diese Sprachen zu verbessern, damit sie mehr genutzt werden. So könnten Aktivistinnen und Aktivisten zum Beispiel Wikipedia-Artikel mit KI-Unterstützung erstellen und anschließend manuell korrigieren. Das trainiert die Sprachmodelle schrittweise, verhilft zu einer besseren Encodierung und ermöglicht schließlich schnelleres Arbeiten. Ich behaupte nicht, dass unsere Technologien Sprachen retten werden. Aber sie können dazu beitragen, dass Sprachen als modern wahrgenommen werden und ihre Sprecherinnen und Sprecher damit arbeiten können.
Mit welchen Sprachen außer Obersorbisch beschäftigen Sie sich noch?
Prof. Fraser: Wir suchen gezielt nach Sprachen, für die es eine aktive Gemeinschaft von Sprachaktivistinnen und -aktivisten gibt. Außerdem sollten bereits einige Texte vorliegen, da wir ja ausschließlich mit Textdaten arbeiten. Besonders interessiert uns eine möglichst große sprachliche Vielfalt. Daher wollen wir auch mit Aktivistinnen und Aktivisten in Afrika, Südamerika und Asien zusammenarbeiten.
Lassen sich die Erkenntnisse aus EPICAL auch auf andere Bereiche des maschinellen Lernens übertragen?
Prof. Fraser: Ja, unsere Forschung könnte zum Beispiel die englische Version von ChatGPT verbessern, insbesondere für spezielle technologische Themen, über die noch nicht viel geschrieben wurde. Zudem beeinflussen Sprachmodelle wie das Transformer-Modell, das aus der Sprachverarbeitung kommt, viele andere Bereiche des maschinellen Lernens. Wenn wir es schaffen, bessere Transformer mit weniger Daten zu trainieren, könnte das weitreichende Effekte auf alle Bereiche des maschinellen Lernens haben. Ein Beispiel ist die medizinische Bildverarbeitung: Systeme zur automatischen Erkennung von Tumoren benötigen aktuell eine sehr hohe Anzahl von Trainingsbildern. Gelingt es uns, leistungsfähige Modelle mit viel weniger Daten zu trainieren, könnte das die Früherkennung erheblich verbessern.