DeepMind: Sprachmodell RETRO dank “externem Gedächtnis” noch mächtiger

Zwei Jahre ist es her, dass OpenAI sein beeindruckendes Sprachmodell GPT-3 veröffentlicht hat. Seither haben die meisten namhaften KI-Labore eigene Textgeneratoren produziert. Google, Facebook und Microsoft sowie eine Handvoll chinesischer Unternehmen haben Systeme entwickelt, die auf den ersten Blick überzeugende Inhalte generieren können – und mit Menschen chatten, Fragen beantworten und vieles mehr.

Die Systeme sind unter der Bezeichnung Large Language Models bekannt – aufgrund ihrer enormen Größe der ihnen zugrunde liegenden neuronalen Netze. Sie haben sich mittlerweile zu einem dominierenden Trend in der KI entwickelt. Sie haben Stärken und Schwächen – neben der bemerkenswerten Fähigkeit, glaubhaft Sprache zu erzeugen, gibt es immer noch KI-typische Verzerrungen und vor allem einen enormen Verbrauch an Rechenleistung durch die Technik.

Bislang ist DeepMind bei den Large Language Models durch seine Abwesenheit aufgefallen. Doch vergangene Woche meldete sich die britische Google-Tochter, die hinter einigen der beeindruckendsten Errungenschaften im Bereich der KI steht – darunter AlphaZero und AlphaFold – mit drei großen Studien über neuartige Sprachmodelle zu Wort. Das wichtigste Ergebnis dieser Forschungsarbeiten ist eine KI mit einer Besonderheit: Sie verfügt über ein externes Gedächtnis in Form einer riesigen Datenbank mit Textpassagen, die sie bei der Generierung neuer Phrasen und Sätze als eine Art Spickzettel verwendet.

Die KI mit dem Namen RETRO (für “Retrieval-Enhanced Transformer”) erreicht laut der Entwickler die Leistung von neuronalen Netzen, die 25 Mal so groß sind wie sie selbst, und spart so Zeit und Kosten für das Training sehr großer Modelle. Die Forscher behaupten auch, dass die Datenbank die Analyse der von der KI gelernten Informationen erleichtert – was dabei helfen könnte, Bias und Hate Speech herauszufiltern.

“Wenn man in der Lage ist, Dinge spontan nachzuschlagen, anstatt alles auswendig lernen zu müssen, kann das oft nützlich sein – das ist genauso wie bei Menschen”, sagt Jack Rae von DeepMind, der die Forschung des Unternehmens im Bereich großer Sprachmodelle leitet.

Sprachmodelle erzeugen Text, indem sie vorhersagen, welche Wörter in einem Satz oder einer Unterhaltung als Nächstes kommen. Je größer ein Modell ist, desto mehr Informationen über die Welt kann es während seines Trainings lernen, wodurch seine Vorhersagen besser werden. GPT-3 hat 175 Milliarden Parameter – also Werte in einem neuronalen Netzwerk, die Daten speichern und beim Lernen des Modells angepasst werden können. Das Sprachmodell Megatron von Microsoft hat 530 Milliarden Parameter. Große Modelle benötigen jedoch auch enorme Mengen an Rechenleistung, um sie zu trainieren, was sie nur für die reichsten Unternehmen erschwinglich macht.

Mit RETRO hat DeepMind nun versucht, die Kosten für das Training zu senken, ohne die Lernleistung der KI zu verringern. Die Forscher trainierten das Modell mit einem riesigen Datensatz aus Nachrichtenartikeln, Wikipedia-Seiten, Büchern und Texten von GitHub, dem populären Online-Code-Repository. Der Datensatz enthält Texte in 10 Sprachen, darunter Englisch, Spanisch, Deutsch, Französisch, Russisch, Chinesisch, Swahili und Urdu.

Das neuronale Netz von RETRO hat in seiner Grundeinstellung nur 7 Milliarden Parameter. Dafür verfügt das System über eine Datenbank mit rund 2 Billionen Textpassagen. Sowohl die Datenbank als auch das neuronale Netz werden gleichzeitig trainiert. Wenn RETRO einen Text generiert, nutzt es die Datenbank, um ähnliche Passagen wie die, die es gerade schreibt, nachzuschlagen und zu vergleichen, wodurch seine Vorhersagen genauer werden. Indem ein Teil des Speichers des neuronalen Netzes in die Datenbank ausgelagert wird, kann RETRO mit weniger Training mehr erreichen.

Die Idee ist nicht neu. Aber es ist das erste Mal, dass ein solches “Nachschlagewerk” für ein großes Sprachmodell entwickelt wurde – und gleichzeitig das erste Mal, dass die Ergebnisse dieses Ansatzes mit der Leistung der besten Sprach-KI-Systeme auf dem Markt mithalten können. RETRO stützt sich dabei auf zwei weitere Studien, die DeepMind durchgeführt hat. In der einen wird untersucht, wie sich die Größe eines Modells auf seine Leistung auswirkt, in der anderen werden die möglichen Probleme untersucht, die durch diese KI verursacht werden könnten.

Um die Auswirkungen der Größe zu untersuchen, erstellte DeepMind ein großes Sprachmodell namens Gopher mit 280 Milliarden Parametern. Es übertraf die modernsten konkurrierenden Modelle bei 82 Prozent von mehr als 150 üblichen Sprachaufgaben, die für den Test verwendet wurden. Die Forscher verglichen die Ergebnisse dann mit RETRO und stellten fest, dass das Modell mit 7 Milliarden Parametern bei den meisten Aufgaben mit Gopher mithalten konnte.

Mehr von MIT Technology Review

Mehr von MIT Technology Review

Studie Nummer zwei beschäftigt sich mit dem Thema generierte Hate Speech. Sie ist ein umfassender Überblick über bekannte Probleme, die mit großen Sprachmodellen verbunden werden. Diese Modelle nehmen Bias, Falschinformationen und toxische Sprache aus den Artikeln und Büchern auf, mit denen sie trainiert wurden. Infolgedessen spucken sie manchmal schädliche Aussagen aus, indem sie das wiedergeben, was sie im Trainingstext vorgefunden haben – ohne zu wissen, was es bedeutet. “Selbst ein Modell, das alle Daten perfekt nachahmt, wäre voreingenommen”, sagt Rae.

DeepMind zufolge könnte RETRO dazu beitragen, dieses Problem zu lösen, da es einfacher ist, zu sehen, was die KI gelernt hat, indem man die Datenbank untersucht – als gleich das komplette neuronale Netz zu studieren. Theoretisch könnten so Beispiele für problematische Sprache herausgefiltert oder mit unproblematischen Trainingsdaten “ausgeglichen” werden. DeepMind hat diese Annahme jedoch noch nicht getestet. “Das Problem ist noch nicht vollständig gelöst, und es wird weiter daran gearbeitet, um diese Herausforderung zu bewältigen”, sagt Laura Weidinger, eine Forscherin bei DeepMind.

Die Datenbank kann auch aktualisiert werden, ohne das neuronale Netz neu zu trainieren. Das bedeutet, dass neue Informationen, zum Beispiel wer das Tennisturnier US-Open gewonnen hat, schnell hinzugefügt und veraltete oder falsche Informationen entfernt werden können. Systeme wie RETRO sind transparenter als Black-Box-Modelle wie GPT-3, sagt Devendra Sachan, Doktorand an der McGill University in Kanada. “Aber das ist keine Garantie dafür, dass sie toxische Sprache und Bias verhindern.” Sachan hat in einer früheren Zusammenarbeit mit DeepMind einen Vorläufer von RETRO entwickelt, war aber an dieser jüngsten Arbeit nicht beteiligt.

Für Sachan erfordert die Behebung problematischen Verhaltens von Sprachmodellen eine sorgfältige Kuratierung der Trainingsdaten vor Beginn des Trainings. Dennoch können Systeme wie RETRO helfen: “Es ist einfacher, solche Richtlinien zu übernehmen, wenn ein Modell externe Daten für seine Vorhersagen verwendet.” DeepMind mag in dieser Diskussion spät dran sein. Doch anstatt bestehende KI-Systeme zu überholen, stellt es ihnen einen alternativen Ansatz zur Seite. “Dies ist die Zukunft der großen Sprachmodelle”, glaubt Sachan.

(bsc)

Zur Startseite