Disclaimer: Die Ansichten des Autors sind seine eigenen und spiegeln nicht unbedingt die offizielle Haltung von Kaspersky (dem Unternehmen) wider.
Jenseits der diversen geopolitischen Ereignisse, die das Jahr 2022 bestimmten, war es aus technologischer Sicht das Jahr der KI. Ich sollte gleich zu Beginn reinen Tisch machen: Bis vor Kurzem habe ich KI in Bezug auf Cybersicherheit jedes Mal, wenn ich danach gefragt wurde, als Vaporware abgetan. Mir war immer klar, dass maschinelles Lernen viele reale Anwendungen hat, aber für uns in der Welt der Informationssicherheit wurde KI immer nur in den seltsamsten Produktpräsentationen verwendet. In meinen Augen war „KI-gestützt“ lediglich eine elegante Umschreibung der Anbieter für die Aussage „wir haben keine vorhandene Wissensbasis oder Telemetrie, also haben wir stattdessen ein paar Heuristiken entwickelt“. Ich bin nach wie vor davon überzeugt, dass die daraus resultierenden Produkte in mehr als 95 % der Fälle auch nur einen geringen Anteil an tatsächlicher KI enthielten. Doch während die Marketingteams damit beschäftigt waren, jedem Produkt, das den k-Means-Algorithmus als Teil seiner Funktionsweise enthält, den Stempel „KI“ aufzudrücken, machte der Bereich der eigentlichen KI tatsächlich einige Fortschritte.
Der Tag der Wahrheit war für mich gekommen, als ich zum ersten Mal DALL-E 2 (und kurz darauf Midjourney) ausprobierte. Beide Projekte erzeugen Bilder basierend auf Textbeschreibungen und haben bereits für erheblichen Aufruhr in der Kunstszene gesorgt.
Dann, im Dezember vergangenen Jahres, eroberte ChatGPT die Welt im Sturm. Kurz gesagt: ChatGPT ein Chatbot. Ich gehe davon aus, dass die meisten Leute ihn bereits getestet haben, aber wenn Sie dies noch nicht getan haben sollten, dann lege ich es Ihnen wärmstens ans Herz. Es gibt keine Worte, die beschreiben könnten, wie sich der Bot gegenüber früheren Projekten verbessert hat, und es reicht nicht aus, nur davon zu lesen. Um ein Gefühl dafür zu bekommen, was noch alles auf uns zukommt, muss man ihn selbst testen…
Sprachmodelle
Um es in den Worten von Arthur C. Clarke auszudrücken: „Jede hinreichend fortgeschrittene Technologie ist nicht von Magie zu unterscheiden“. Ich liebe es, wie Technologie manchmal dieses wundersame Lebensgefühl in uns erweckt, doch leider kommt uns dieses Gefühl in die Quere, wenn wir versuchen, über die Auswirkungen oder Grenzen eines neuen technologischen Durchbruchs nachzudenken. Aus diesem Grund denke ich, dass wir zunächst etwas Zeit darauf verwenden sollten, zu verstehen, wie diese Technologien im Detail funktionieren.
Beginnen wir mit ChatGPT. Hinter dem Bot steckt ein Sprachmodell, mit anderen Worten, eine Darstellung unserer Sprache. Wie bei vielen großen maschinellen Lernprojekten weiß niemand wirklich, wie dieses Modell funktioniert (nicht einmal OpenAI, seine Erfinder). Man weiß zwar, wie das Modell entwickelt wurde, aber es ist viel zu komplex, um wirklich verstanden zu werden. ChatGPT, dass bis dato größte (öffentliche?) Sprachmodell, hat über 175 Milliarden Parameter. Um zu verstehen, was das bedeutet, stellen Sie sich eine riesige Maschine vor, die 175 Milliarden Knöpfe hat, an denen Sie drehen können. Immer wenn Sie einen Text an ChatGPT senden, wird dieser in eine entsprechende Einstellung für jeden dieser Knöpfe umgewandelt. Anschließend produziert die Maschine eine Ausgabe (noch mehr Text), die auf der Position der Knöpfe basiert. Hinzu kommt ein Zufallselement, um sicherzustellen, dass dieselbe Frage nicht immer zu genau derselben Antwort führt (aber auch das lässt sich einstellen).
Aus diesem Grund betrachten wir solche Modelle als Black Boxes: Selbst, wenn man sich ein Leben lang mit der Maschine beschäftigen würde, könnte man wohl kaum den Zweck eines einzelnen Knopfes (geschweige denn aller Knöpfe) herausfinden. Trotzdem wissen wir, was die Maschine tut, da wir den Prozess kennen, durch den sie erzeugt wurde. Das Sprachmodell ist ein Algorithmus, der Text verarbeiten kann, und während der Trainingsphase mit viel Text gefüttert wurde: die gesamte Wikipedia, ausgelesene Webseiten, Fachliteratur usw. So konnte ein statistisches Modell erstellt werden, das die Wahrscheinlichkeit erkennt, mit der ein Wort auf ein anderes folgt. Wenn ich zum Beispiel sage „Rosen sind rot, Veilchen sind…“, kann man mit relativ hoher Wahrscheinlichkeit davon ausgehen, dass das nächste Wort „blau“ lautet. So funktioniert, kurz gesagt, jedes Sprachmodell. Für ein solches Modell ist das Vervollständigen Ihres Satzes nichts anderes als das Erraten der Wortfolge, die Ihrer Frage wahrscheinlich folgen wird, basierend auf allem, was es zuvor gelernt hat. Im Fall von ChatGPT gab es sogar noch einen weiteren Schritt, die so genannte überwachte Optimierung. Menschliche „KI-Trainer“ führten zahlreiche Chats mit dem Bot und markierten alle Antworten, die als problematisch eingestuft werden konnten (ungenau, voreingenommen, rassistisch usw.), um den Bot darauf zu trainieren, diese nicht erneut zu wiederholen.
Wenn Sie mit künstlicher Intelligenz nichts am Hut haben, können Sie sie unter den Gebieten „Mathematik“ oder „Statistik“ einordnen: Das Ziel dieser Modelle ist die Prädiktion. Bei der Verwendung von ChatGPT entsteht sehr leicht das Gefühl, dass die KI über authentisches „Wissen“ verfügt, da sie in der Lage ist, kontextbezogene und bereichsspezifische Informationen für Suchanfragen zu liefern, die sie zum ersten Mal erhält. Doch sie versteht nicht, was die einzelnen Wörter eigentlich bedeuten: Sie ist lediglich in der Lage, weiteren Text zu generieren, der sich wie eine natürliche Fortsetzung des zuvor Gesagten „anfühlt“. Das erklärt, warum ChatGPT ein komplexes philosophisches Argument erzeugen kann, aber bei einfachen Rechenaufgaben oft ins Schleudern gerät: Es ist schwieriger, das Ergebnis einer Rechenaufgabe vorherzusagen als das Folgewort in einem Satz.
Darüber hinaus hat das Modell kein Gedächtnis: Sein Training endete 2021 und wurde an dieser Stelle quasi auf Eis gelegt. Updates werden in Form von neuen Modellen (z. B. GPT-4 im Jahr 2024) geliefert, die auf der Grundlage neuer Daten trainiert werden. Tatsächlich merkt sich ChatGPT nicht einmal die Unterhaltungen, die Sie mit ihm führen: Der letzte Chatverlauf wird lediglich zusammen mit jedem neuen Text, den Sie eingeben, an den Bot gesendet, damit der gesamte Dialog natürlicher und rationaler wirkt.
Ob das noch als „Intelligenz“ bezeichnet werden kann (und ob es sich wesentlich von der menschlichen Intelligenz unterscheidet), wird in den nächsten Jahren vermutlich Anlass für heftige philosophische Debatten sein.
Diffusionsmodelle
Bilderzeugungstools wie Midjourney und DALL-E beruhen auf anderen Modellkategorien. Ihr Trainingsprozess konzentriert sich selbstverständlich auf die Generierung von Bildern (oder Pixelsammlungen) anstelle von Text. Zur Erzeugung eines Bildes auf der Grundlage einer Textbeschreibung sind im Grunde zwei Komponenten erforderlich, von denen die erste ziemlich intuitiv ist. Das Modell benötigt einen Weg, um Wörter mit visuellen Informationen zu verknüpfen, also wird es mit Bildunterschriften gefüttert. Ähnlich wie bei ChatGPT handelt es sich um eine riesige, undurchschaubare Maschine, die sehr gut darin ist, Bilder mit Textdaten abzugleichen. Sie hat keine Ahnung, wie das Gesicht von Brad Pitt aussieht, aber wenn sie genug Fotos von ihm gesehen hat, dann weiß sie, dass all diese Fotos gemeinsame Eigenschaften haben. Und speist jemand ein neues Foto von Brad Pitt ein, kann das Modell ihn problemlos erkennen.
Der andere Teil, der mich mehr überrascht hat, ist die Möglichkeit, Bilder zu verbessern. Dabei kommt ein „Diffusionsmodell“ zum Einsatz, das auf fehlerfreie Bildern trainiert wird, denen nach und nach (visuelles) Rauschen hinzugefügt wird, bis sie unkenntlich werden. Auf diese Weise kann das Modell die Übereinstimmung zwischen einem unscharfen, qualitativ minderwertigen Bild und seinem Gegenstück mit einer höheren Auflösung lernen – ebenfalls auf statistischer Ebene – und auf der Grundlage des verrauschten Bildes ein hochwertiges Bild wiederherstellen. Es gibt sogar KI-basierte Produkte, die alte Fotos von Rauschen befreien oder deren Auflösung erhöhen.
Auf diese Weise ist es möglich, Bilder zu synthetisieren: Wir beginnen mit einem zufälligen Rauschen und „verbessern“ es schrittweise, wobei wir sicherstellen, dass es die Merkmale enthält, die der Anfrage des Benutzers entsprechen (eine ausführlichere Beschreibung der Funktionen von DALL-E finden Sie hier).
Die falschen Probleme
Das Auftauchen all der in diesem Artikel erwähnten Tools hat in der Öffentlichkeit zu heftigen, teils sehr negativen Reaktionen geführt. Es gibt legitime Bedenken über den schlagartigen Eingriff von KI in unser Leben, aber meiner Meinung nach konzentriert sich ein Großteil der aktuellen Debatte auf die falschen Aspekte. Sprechen wir diese zunächst an, um anschließend zum – meiner Meinung nach – eigentlichen Kern der Diskussion über KI zu kommen.
DALL-E und Midjourney bedienen sich an Werken von echten Künstlern
In einigen Fällen habe ich gesehen, dass diese Tools als Programme beschrieben werden, die Bilder, die sie bereits gesehen haben, zusammensetzen und dann eine Art Filter anwenden, um den Stil des gewünschten Künstlers zu imitieren. Jeder, der eine solche Aussage macht, kennt entweder die technischen Gegebenheiten der zugrunde liegenden Modelle nicht oder argumentiert in böser Absicht.
Wie oben bereits erwähnt, ist das Modell überhaupt nicht in der Lage, Bilder oder selbst einfache Formen aus den Bildern zu extrahieren, auf die es trainiert wurde. Das einzige, was es kann, ist die Erfassung mathematischer Merkmale.
Man kann nicht leugnen, dass viele urheberrechtlich geschützte Werke in der Trainingsphase ohne die ausdrückliche Zustimmung ihrer Urheber verwendet wurden, und möglicherweise ließe sich hierüber eine Debatte führen. Man sollte aber auch darauf hinweisen, dass Künstler während ihres Studiums genau denselben Prozess durchlaufen: Sie kopieren Gemälde von Meistern und lassen sich von Kunstwerken inspirieren, denen sie im Laufe ihres Werdegangs begegnen. Und was wäre Inspiration, wenn nicht die Fähigkeit, das Wesen eines Kunstwerks zu erfassen, gekoppelt mit dem Impuls, es neu zu erfinden?
DALL-E und Midjourney sind insofern ein revolutionärer Durchbruch, als dass sie theoretisch in der Lage sind, sich von jedem Film, der in der Geschichte der Menschheit produziert wurde, inspirieren zu lassen (und wahrscheinlich auch von jedem, der in Zukunft produziert wird).
KI macht Dinge unfassbar einfach
Eine solche Kritik impliziert in der Regel, dass Kunst schwer sein sollte. Diese Auffassung hat mich schon immer überrascht, da der Betrachter eines Kunstwerks in der Regel kaum eine Vorstellung davon hat, wie viel (oder wie wenig) Mühe es gekostet hat, dieses Werk zu kreieren. Diese Debatte ist nicht neu: Jahre nach der Veröffentlichung von Photoshop argumentieren einige Leute noch immer, dass digitale Kunst keine echte Kunst sei. Diejenigen, die das behaupten, hinterfragen, ob die Verwendung von Photoshop ein gewisses Können erfordert, doch meiner Meinung nach haben sie das Thema vollkommen verfehlt. Wie viel Können war bei Robert Rauschenberg erforderlich, um weiße Farbe auf eine Leinwand zu bringen? Und wie viel musikalische Begabung braucht man, um John Cages berüchtigtes 4’33 aufführen zu können?
Selbst wenn wir Können als Kriterium für Kunst einführen würden, wo würde man die Grenze setzen? Wie viel Mühe ist genug Mühe? Als die Fotografie erfunden wurde, nannte Charles Baudelaire sie „die Zuflucht eines jeden Möchtegern-Malers, eines jeden Malers, der zu schlecht ausgestattet oder zu faul ist, seine Studien zu vollenden“ (und er war mit dieser Einschätzung nicht allein). Wie sich herausstellt, hat er sich geirrt.
ChatGPT hilft Cyberkriminellen
Mit dem Aufkommen der KI werden wir Produktivitätssteigerungen auf gesamter Ebene erleben. Im Moment tun einige Medien und Anbieter alles, um auf den ChatGPT-Hype aufzuspringen, was zu den kuriosesten Clickbaits der jüngsten Geschichte führt. Wie wir bereits erwähnt haben, kann ChatGPT Kriminellen dabei helfen, Phishing-E-Mails zu verfassen oder Schadcode zu schreiben – nichts von alledem war jemals ein limitierender Faktor. Menschen, die mit der Existenz von GitHub vertraut sind, wissen, dass die Verfügbarkeit von Malware für böswillige Akteure kein Problem darstellt, und jeder, der sich Sorgen um die Beschleunigung der Entwicklung macht, hätte diese Bedenken äußern sollen, als Copilot veröffentlicht wurde.
Ich weiß, dass es albern ist, einen Medienrummel zu entlarven, der aus wirtschaftlichen Gründen und nicht aus echter Besorgnis entstanden ist, aber es ist nun einmal so: KI wird einen enormen Einfluss auf unser Leben haben, und es gibt echte Probleme, die angegangen werden müssen.
Es gibt kein Zurück
Egal, wie Sie zu all den KI-basierten Tools stehen, die im Jahr 2022 auf den Markt gekommen sind, Sie sollten wissen, dass noch mehr folgen werden. Wenn Sie glauben, dass dieser Bereich reguliert werden wird, bevor er außer Kontrolle gerät, sollten Sie sich eines Besseren belehren lassen: Die politische Resonanz, die ich bisher erlebt habe, bestand zumeist darin, dass die Regierungen beschlossen haben, mehr Mittel für die KI-Forschung bereitzustellen, solange sie noch Zeit haben, ihren Rückstand aufzuholen. An der Macht hat niemand daran Interesse, diese Entwicklung zu bremsen.
Die 4. industrielle Revolution
Die KI wird zu Produktivitätssteigerungen führen – bzw. hat wahrscheinlich bereits zu solchen geführt. Wie groß diese sind bzw. sein werden, lässt sich jetzt noch nicht abschätzen. Wenn Ihr Job in der Herstellung von semi-inspirierten Texten besteht, sollten Sie sich Sorgen machen. Das gilt auch für visuelle Designer, die auf Provisionsbasis arbeiten: Es wird immer Kunden geben, die eine menschliche Note wünschen, aber die meisten werden sich für die billigere Variante entscheiden. Aber das ist noch nicht alles: Reverse Engineers, Anwälte, Lehrer, Ärzte und viele andere müssen damit rechnen, dass sich ihre Arbeit grundlegend ändern wird.
Eine Sache, die man im Hinterkopf behalten sollte, ist, dass ChatGPT ein Allzweck-Chatbot ist. In den kommenden Jahren werden spezialisierte Modelle auf den Markt kommen und ChatGPT in bestimmten Anwendungsfällen übertreffen. Mit anderen Worten: Wenn ChatGPT Ihre Arbeit jetzt nicht erledigen kann, ist es wahrscheinlich, dass ein neues KI-Produkt, das in den nächsten fünf Jahren auf den Markt kommt, dies tun wird. Unsere Aufgaben, und zwar alle unsere Aufgaben, werden darin bestehen, die KI zu überwachen und sicherzustellen, dass ihre Ergebnisse korrekt sind, anstatt diese selbst zu erledigen.
Es ist möglich, dass die künstliche Intelligenz auf eine Komplexitätsmauer stößt und keine weiteren Fortschritte macht – aber nach mehreren Irrtümern habe ich gelernt, in diesem Bereich nicht gegen den Strom zu schwimmen. Wird die KI die Welt so sehr verändern wie die Dampfmaschine? Wir sollten hoffen, dass dies nicht der Fall ist, denn brutale Veränderungen der Produktionsmethoden führen dazu, dass sich die Struktur der menschlichen Gesellschaft verändert, und das geschieht nie auf friedliche Weise.
Vorurteile der KI und Eigentum
Es wurde schon viel über Vorurteile in KI-Tools gesagt, weshalb ich nicht weiter darauf eingehen werde. Ein interessanteres Thema ist die Art und Weise, wie OpenAI gegen diese Vorurteile ankämpft. Wie bereits erwähnt, hat ChatGPT eine überwachte Lernphase durchlaufen, in der das Sprachmodell im Grunde gelernt hat, nicht voreingenommen zu sein. Dies ist zwar eine wünschenswerte Funktion, allerdings kann man nicht übersehen, dass dieser Prozess dem Chatbot effektiv eine neue Voreingenommenheit beibringt. Die Bedingungen für diese Feinabstimmung sind unklar: Wer sind die unbekannten Helden, die die „falschen“ Antworten markieren? Unterbezahlte Arbeiter in Ländern der Dritten Welt oder Silicon-Valley-Ingenieure? (Spoiler: es sind die Erstgenannten.)
Außerdem darf man nicht vergessen, dass KI-Produkte nicht für das Allgemeinwohl eingesetzt werden können. Die verschiedenen Produkte, die zurzeit entwickelt werden, sind Eigentum von Unternehmen, die immer in erster Linie gewinnorientiert sein werden, was sich mit den Interessen der Menschheit überschneiden kann oder aber auch nicht. So wie eine Veränderung der Google-Suchergebnisse einen messbaren Effekt auf die Menschen hat, werden auch KI-Begleiter oder -Berater die Fähigkeit haben, die Nutzer auf subtile Weise zu beeinflussen.
Was nun?
Da die Frage nicht mehr zu sein scheint, ob KI in unser Leben treten wird, sondern wann, müssen wir zumindest darüber sprechen, wie wir uns auf sie vorbereiten können.
Wir müssen uns sehr davor hüten, dass ChatGPT (oder einer seiner Nachfolger) in eine Position gerät, in der es unbeaufsichtigte Entscheidungen treffen muss: ChatGPT ist extrem gut darin, Selbstvertrauen zu zeigen, liegt aber dennoch bei vielen Fakten falsch. Dennoch gibt es enorme Anreize, Kosten zu sparen und den Menschen aus dem Rennen zu nehmen.
Außerdem sage ich für das kommende Jahrzehnt voraus, dass die Mehrheit aller online verfügbaren Inhalte (zuerst Texte und Bilder, dann Videos und Videospiele) mit Hilfe von KI produziert werden. Ich denke auch nicht, dass wir uns zu sehr darauf verlassen sollten, dass die automatische Erkennung solcher Inhalte zuverlässig funktionieren wird – wir müssen einfach kritisch bleiben bei dem, was wir online lesen, und uns durch zehnmal mehr Lärm wühlen. Vor allem aber sollten wir uns vor spezialisierten Modellen hüten, die auf uns zukommen werden. Was passiert, wenn einer der Big Four ein Modell auf das Steuergesetzbuch trainiert und anfängt, nach Schlupflöchern zu suchen? Oder was kann passieren, wenn jemand vom Militär mit ChatGPT spielt und sagt: „Ja, das möchte ich auch in meinen Drohnen verwenden“?
Die KI wird fantastisch sein: Sie wird zahlreiche langweilige Aufgaben übernehmen, neue Fähigkeiten für jedermann zugänglich machen und ganz neue Kunstformen hervorbringen (ja). Aber sie wird auch verheerend sein. Wie die Geschichte zeigt, wird sie zu einer weiteren Machtkonzentration führen und uns weiter auf den Weg des Techno-Feudalismus bringen. Sie wird unsere Arbeitsorganisation und vielleicht sogar unser Verhältnis zum Wissensschatz der Menschheit verändern. Und wir werden darüber nicht mitbestimmen können.
Die Büchse der Pandora ist nun offiziell geöffnet.