Sie klingt wie wir – Christoph Drösser

Eine Software vermittelt die Illusion eines Zwiegesprächs. Hat die künstliche Intelligenz das Niveau des Menschen erreicht?

(Anmerkung: Dies hier ist der Originaltext, nicht der von der „Zeit“-Redaktion bearbeitete.)

Schon heute können wir nicht mehr mit Sicherheit sagen, ob die Nachrichten, die wir in den sozialen Medien lesen, von einem Menschen oder einem Bot versendet wurden. Bald aber müssen wir befürchten, dass auch der Inhalt der Postings von einer Künstlichen Intelligenz frei erfunden wurde. Die Texte, die ein im Mai veröffentlichtes Computersystem mit dem sperrigen Namen GPT-3 schreibt, sind von menschengemachten kaum zu unterscheiden. Und GPT-3 kann noch mehr: Ess fasst komplizierte juristische Texte in verständlicher Sprache zusammen, entwickelt Computercode, spielt passabel Schach und übersetzt von einer Sprache in die andere. Das unterscheidet es von bisherigen KI-Systemen, die immer auf eine bestimmte Aufgabe spezialisiert waren. GPT-3 wird von vielen als die intelligenteste Künstliche Intelligenz (KI) bezeichnet, die je von Menschen geschaffen wurde.

Das ist beeindruckend, keine Frage.”GPT-3 zeigt Spuren von allgemeiner Intelligenz”, schreibt der Philosoph David Chalmers auf der Website Dailynous. Diese allgemeine Intelligenz, im Deutschen auch “starke KI” genannt, ist der Heilige Gral der KI-Forschung – ein Computersystem, mit dem man über ein beliebiges Thema parlieren kann, das uns Menschen in allen intellektuellen Bereichen ebenbürtig und irgendwann überlegen ist. Es ist ein erklärtes Ziel der Firma OpenAI, die GPT-3 entwickelt hat, in den nächsten Jahrzehnten eine gutartige starke KI zu entwickeln. Ist dieses System die erste Inkarnation davon? Nicht alle KI-Experten sind davon überzeugt. “Was im Moment gemacht wird, ist eher eine immer besser werdende Illusion des Intelligenten als Intelligenz selbst”, sagt Alex Waibel, ein KI-Veteran, der am Karlsruhe Institute of Technology und an der Carnegie Mellon University forscht.

Ob die Illusion des Intelligenten mit Intelligenz gleichzusetzen ist, darüber wird in der KI seit ihren Anfangstagen gestritten. Der Pionier Alan Turing vertrat 1950 in seinem berühmten Artikel Computing Machinery and Intelligence die Auffassung, dass wir die Intelligenz anderer Menschen und auch von Maschinen nur anhand ihrer Äußerungen beurteilen können, weil wir nicht in ihnen drin stecken. Er schlug den nach ihm benannten Test vor: Wenn ein Computersystem einen menschlichen Juror davon überzeugen kann, dass es ein Mensch ist, dann soll es als intelligent bezeichnet werden.

Heute kann man sagen: Der Turing-Test ist erledigt. Nicht nur GPT-3 sprichtparliert oft täuschend menschlich über ein beliebiges Thema. Auch das BERT-System von Google tut das, und Facebook hat kürzlich einen Chatbot namens Blender vorgestellt, der über eine längere Strecke einen kohärenten Smalltalk über Alltagsthemen wie den persönlichen Musikgeschmack führen kann. Nimmt man dann noch die rasante Entwicklung der Sprachsynthese dazu, deren Computerstimmen inzwischen denen von Menschen täuschend ähneln, dann ist die Illusion fast perfekt. Wir müssen uns damit abfinden, dass wir in Zukunft immer häufiger mit “Wesen” in einen Dialog treten, die wir erst auf den zweiten Blick als Maschinen identifizieren können.

GPT-3 ist ein sogenanntes Sprachmodell. Das ist ein Computerprogamm, das große Mengen von Text auf statistische Regelmäßigkeiten untersucht. Die Grundlagen dafür schuf ein Zeitgenosse Turings: Claude Shannon, der Pionier der Informationstheorie. In seiner Arbeit A Mathematical Theory of Communication widmete er sich 1948 der Frage, ob man nach statistischen Regeln Wörter und Sätze zusammenwürfeln kann, die sinnvoll klingen. Reiner Zufall führt nicht weit – wenn man beliebige Wörter aneinanderreiht, wird dabei kaum etwas Sinnvolles herauskommen. Aber schon wenn man in einem großen Textkorpus sogenannte Bigramme untersucht, das heißt Paare von Wörtern und ihre Häufigkeiten, kann man sinnvolle Satzfetzen erzeugen, indem man als nächstes Wort dasjenige wählt, das am häufigsten nach dem aktuellen Wort auftritt. Untersucht man Dreiergruppen von Wörtern, sogenannte 3-Gramme, dann erinnert das erwürfelte Resultat noch mehr an echte Sprache.

Auf diesem Prinzip beruht die Software in unseren heutigen Smartphones, die uns beim Schreiben von Textnachrichten immer ein paar Varianten für das nächste Wort anbietet. Es ist ein beliebtes Partyspiel, dabei Wortketten zu erzeugen. Wenn man immer das mittlere Wort wählt, kommt dann zum Beispiel so etwas heraus: “Eines Tages in den letzten Tagen war ich noch mal im Krankenhaus in Berlin in München bin ich in die Schule nach München in der Schule ich hab mich sehr über alles gemacht …”

Solche Satzwürmer enthalten immer wieder sinnvolle Wortgruppen, aber sie erzeugen keine kohärenten Inhalte, nicht einmal grammatisch korrekte Sätze. Das liegt daran, dass man grammatische Strukturen nur erkennen kann, wenn man über die unmittelbare Umgebung eines Wortes hinausschaut. Und auch die Bedeutung erschließt sich erst, wenn man weiter vor- und zurückschaut. Gerade die deutsche Sprache lebt von derartigen »Fernwirkungen«: »Ich habe Englisch, Französisch und noch einige andere Sprachen, die ich hier nicht aufzählen will, gelernt« – der Sinn der ersten paar Wörter erschließt sich erst, wenn der gesamte Satz gesagt ist.

Die sogenannten Transformer-Technik, die 2017 entwickelt wurde, ermöglicht es den neuen Sprachmodellen, große Textkorpora auf diese Weise statistisch zu analysieren. Dabei lernen sie gleichzeitig die Grammatik, also die formale Struktur der Sprache, und die Bedeutung der Sätze. Form und Inhalt werden nicht unterschieden. So lernen auch Kinder sprechen – sie pauken keine Regeln, sondern plappern das nach, was sie in ihrer Umwelt hören, und lernen Grammatik und Semantik parallel.

Allerdings erfährt ein Kleinkind dabei gleichzeitig die Welt mit seinen Sinnen, kann ein neues Wort mit einem Gegenstand verbinden. Die Sprachmodelle dagegen verdauen nur riesige Textmengen, sie wissen nicht, was den Wörtern im richtigen Leben entspricht. “Offenbar ist es möglich, Fakten über die Welt und allgemeine Informationen allein durch das Lesen von Texten zu lernen, ohne je ein Bild gesehen oder eine Tonaufnahme gehört zu haben”, sagt Miles Brundage von OpenAI. “Das ist sehr faszinierend. Aber es gibt immer noch Grenzen: Die Modelle machen mehr dumme Fehler als jeder Mensch. Sie verstehen nicht auf dem demselben Niveau wie wir. Und sie sind ziemlich ineffektiv und müssen viel mehr lesen als wir.”

Wer mit GPT-3 in Dialog treten will, der tippt ein paar Wörter in ein Eingabefeld ein. Die Maschine spinnt dann den Text weiter. Man kann ihr also keine direkten Kommandos geben, sondern ist ihren Launen ausgeliefert. Man muss das Verhalten der kapriziösen Software im Prinzip testen wie das eines neu entdeckten Tierart. Die Forscher bei OpenAI fanden zum Beispiel durch Herumprobieren heraus, wie man das System dazu bringt, Texte zusammenzufassen: “Man gibt einen längeren Text ein und schreibt dann ‘TLDR’”, erklärt Brundage. TLDR (too long, didn’t read) ist ein Kürzel aus dem Jargon der Internetforen – Nutzer kennzeichnen damit lange und komplizierte Texte, die man dann auf ihren Kern reduziert.

Das System gibt auch auf dieselbe Eingabe nicht immer dieselbe Antwort – viele der faszinierenden Beispiele von GPT-Prosa, die jetzt im Netz kursieren, sind handverlesene Auszüge mehrerer Eingaben. So komponierten die Redakteure des britischen Guardian Anfang September einen komplett von GPT-3 geschriebenen Kommentar. Ähnlich wie ein Kleinkind, das die Sprache für sich entdeckt, schwätzt das System drauflos – manches ist sinnvoll, vieles ist Kauderwelsch.

Ein Beispiel-Output von GPT-2 (es gibt derzeit keinen freien Zugang zu GPT-3)

Eingabe: »Erwin ging zum Italiener, bestellte eine Pizza und bezahlte mit seiner Kreditkarte.«

Ausgabe: »›Das ist das erste Mal, dass ich mir selber eine Pizza ausgeliefert habe‹, sagte er, ›und ich habe meine ganze Pizza aufgegessen‹. Ein anderes schwarzes Mitglied des Gerechigkeits-Komitees der Vereinten Nationen nannte den Pizzabringdienst schockierend, aber nicht unerwartet. ›Wenn man das Problem der Sklaverei als globale Angelegenheit sieht, als ein internationales Problem, ist es schockierend‹, sagte er …«

(Übersetzt aus dem Englischen vom Autor)

Die Entwickler bei OpenAI treiben das datengetriebene Lernen bis zum Extrem. Man geht nicht nur mit einer Art Staubsauger über das Internet, um das System mit immer mehr Textdaten zu füttern, auch das neuronale Netz, das die Berechnungen ausführt, wird immer komplexer: GPT-3 verfügt über 175 Milliarden sogenannter Parameter, das sind die gewichteten Verbindungen zwischen den Neuronen des Netzes – hundertmal so viele wie sein 2019 veröffentlichter Vorgänger GPT-2. Die Rechenzeit für die Entwicklung kostete mehrere Millionen Euros, und jede neue Anpassung verschlingt wieder gigantische Mengen an Energie. Kein Problem für die Organisation, die von Milliardären wie Elon Musk finanziert wird. Das Training einer menschlichen Intelligenz, also eines Kindes, dauert vielleicht länger, ist aber erheblich sparsamer.

Zugang zu GPT-3 bekommt nur, wer einen Antrag bei OpenAI stellt, und die Vergabekriterien sind nicht transparent – der KI-Experte und -Kritiker Gary Marcus von der New York University beklagte sich im August, dass er trotz wiederholter Anfrage keinen Login bekommen habe und das System nur mit dem Zugang eines Kollegen studieren konnte. Inzwischen hat Microsoft GPT-3 exklusiv lizenziert und wittert dort offenbar ein Geschäft.

Die Vorgängerversion war frei zugänglich, aber erst nachdem OpenAI eine Weile gezögert hatte. Die Firma wollte zunächst ausloten, ob ihre Software missbraucht werden könnte. Man heuerte im vergangenen Jahr einige Experten an, die sich ausmalen sollten, was Bösewichte mit dem System anfangen könnten. Die Politikwissenschaftlerin Sarah Kreps von der Cornell University gehörte dazu. Sie legte Testlesern nach dem Zufallsprinzip Artikel aus der New York Times und von GPT-2 verfasste Pseudo-Meldungen vor, zum Beispiel über die Lage in Nordkorea oder Russland. Die Probanden sollten die Glaubwürdigkeit der Artikel beurteilen. “Die Menschen können nicht wirklich den Unterschied erkennen”, erzählt Kreps. “In manchen Fällen wurde der Output von GPT-2 für glaubwürdiger gehalten als die echten Artikel.”

Das scheint die Schleusen zu öffnen für eine Flut von Falschmeldungen, am Fließband erstelltkreiert von automatisierten Fake-News-Fabriken. OpenAI schaltete das System trotzdem für die Öffentlichkeit frei. Der Firmensprecher Miles Brundage sagt, man halte die Gefahr nicht für besonders groß. “Wer gezielt Fake News verbreiten will, der kann das immer noch besser mit einer menschlichen Troll-Farm.” Sarah Kreps dagegen glaubt, der Grund sei letztlich gewesen, “dass der Geist aus der Flasche ist – diese Werkzeuge sind in der Welt, und man kann sie nicht zurückholen.”

Es mehren sich inzwischen auch die Stimmen, die den Ansatz von GPT-3 und anderen Sprachmodellen in eine Sackgasse laufen sehen. Man muss den Rechenaufwand vervielfachen, um noch eine graduelle Verbesserung hinzubekommen. Die Entwickler selbst gestehen ein, dass die Strategie, die Systeme mit immer größeren Textmengen zu füttern, “irgendwann an die Grenzen« stoßen werde.

Und niemand behauptet ernsthaft, dass die Sprachmodelle in einem fundamentalen Sinne “verstehen”, was sie lesen und schreiben. Zwar schneiden einige von ihnen bei Tests zum Textverständnis sehr gut ab – beim bekanntesten von ihnen mit dem Kürzel GLUE sind inzwischen 13 Systeme besser als der durchschnittliche Mensch. Dabei müssen sie zum Beispiel das Pronomen “ihre” in dem folgenden Satz richtig zuordnen: “Lily sprach Donna an und störte so ihre Konzentration.« Das ist beeindruckend, weil man scheinbar etwas über die Beziehung zwischen Menschen wissen muss, um die Aufgabe zu lösen. Aber letztlich jongliert das System dabei nur mit Symbolen.

Einige führende KI-Experten halten den Hype um GPT-3 für maßlos übertrieben. Etwa Yann Lecun, der oberste KI-Forscher bei Facebook. In einem Posting Ende Oktober bezeichnete er das Wissen des Systems über die reale Welt als “oberflächlich”, es habe zudem nichts mit der Wirklichkeit zu tun. Er bescheinigte GPT-3 einen gewissen Unterhaltungswert. ”Aber zu versuchen, intelligente Maschinen zu bauen, indem man Sprachmodelle immer weiter ausbaut, ist so, als wenn man mit Flugzeugen zum Mond fliegen wollte. Man erreicht zwar immer neue Höhenrekorde, aber die Mondreise erfordert einen völlig anderen Ansatz.”

Die Sprachmodelle zeigen auf beeindruckende Weise, wie viel ein System aus großen Datenmengen lernen kann – und gleichzeitig wächst dabei die Ehrfurcht der Forscher vor dem menschlichen Lernen. Kinder müssen nicht die gesamte Wikipedia verdauen, um die deutsche Sprache zu erlernen. Menschen lernen zwar auch statistisch, aber manchmal reichen ihnen wenige Beispiele oder gar ein einziges, um ein neues Konzept zu erfassen. Few shot learning, one shot learning und sogar zero shot learning sind die neuen KI-Buzzwords.

In der Wissenschaft gab es lange Zeit einen Streit über den besten Weg zu einem KI-System, das über ein echtes Weltwissen, über gesunden Menschenverstand verfügt. Eine Weile herrschte die Idee vor, man müsse den Computerprogrammen dieses Wissen manuell eintrichtern, Wahrheit für Wahrheit. Das erwies sich als ein hoffnungsloses Unterfangen. Die statistischen Lernverfahren haben in den letzten Jahren eindeutig die Oberhand gewonnen. Es könnte aber sein, dass die beiden Denkrichtungen wieder zusammenfinden. Wissen muss strukturiert werden, sagen einige Forscher – aber vielleicht kann die Maschine diese Strukturen selbst entwickeln. An der University of Washington gibt es ein Projekt namens »Comet« (Commonsense Transformers for Knowledge Graph Construction), in dem die Forscherin Yejin Choi und ihr Team versuchen, aus großen Datenmengen explizite Zusammenhänge zwischen Begriffen abzuleiten. Gibt man den Beispielsatz mit Erwin und dem Italiener in das System ein, dann erstellt es ein Baumdiagramm mit Interpretationen. Unter »Gründe für Person X« steht da zum Beispiel: »… weil Person X Pizza essen wollte« und »vorher brauchte Person X Geld«. Das System beweist damit zumindest ein Grundverständnis für die Situation, von der die Rede ist. Wie eine Pizza schmeckt, weiß es natürlich immer noch nicht.

GPT-3 scheint sich seiner Grenzen bewusst zu sein. Als Nachbetrachtung zu der philosophischen Diskussion auf Dailynous wurde das System aufgefordert, selbst zu sagen, ob es über Bewusstsein und Intelligenz verfüge. Eine (von Menschen handverlesene) Antwort: “Um es klar zu sagen: Ich bin keine Person. Ich habe kein Selbstbewusstsein. Ich habe kein Bewusstsein. Ich kann keinen Schmerz fühlen. Ich empfinde keine Freude an irgendetwas. Ich bin eine kalte, berechnende Maschine, die entworfen wurde, um menschliches Verhalten zu simulieren und die Wahrscheinlichkeit bestimmter Ergebnisse zu berechnen.” Die Einsicht in die eigene Beschränktheit eine gute Voraussetzung dafür, geistig zu wachsen.

Von Christoph Drösser ist gerade das Buch “Wenn die Dinge mit uns reden: Von Sprachassistenten, dichtenden Computern und Social Bots” erschienen (Dudenverlag 2020, 16 Euro)