So können Hacker deine Chats mit ChatGPT oder Microsoft Copilot lesen

Wie Hacker Chatbot-Funktionen nutzen, um verschlüsselte Chats aus OpenAI ChatGPT, Microsoft Copilot und den meisten anderen KI-Chatbots wiederherzustellen.

Israelische Forscher aus dem Offensive AI Lab beschreiben in einem Paper, wie sich Texte aus abgefangenen KI-Chatbot-Nachrichten wiederherstellen lassen. Wir schauen uns an, wie dieser Angriff funktioniert und wie gefährlich er tatsächlich ist.

Welche Informationen können aus abgefangenen KI-Chatbot-Nachrichten extrahiert werden?

Natürlich verschlüsseln Chatbots ihre Nachrichten vor dem Senden. Dennoch enthalten die Implementierung großer Sprachmodelle (LLMs) und die darauf basierenden Chatbots einige Funktionen, die die Verschlüsselung massiv schwächen. Die Kombination dieser Funktionen ermöglicht einen Seitenkanalangriff, durch den der Inhalt einer Nachricht aus den durchgesickerten Fragmenten wiederhergestellt werden kann.

Was passiert bei diesem Angriff? Um das zu verstehen, müssen wir die LLM- und Chatbot-Mechanik etwas genauer unter die Lupe nehmen. Zunächst musst du wissen, dass LLMs nicht mit einzelnen Zeichen oder Wörtern arbeiten, sondern mit Token – also mit semantischen Texteinheiten. Die Seite Tokenizer auf der OpenAI-Website bietet einen Einblick in die Funktionsweise.

Beispiel für die Tokenisierung eines Texts unter Verwendung der Modelle GPT-3.5 und GPT-4

Dieses Beispiel zeigt, wie die Tokenisierung von Nachrichten mit den Modellen GPT-3.5 und GPT-4 funktioniert. Quelle

 

Die zweite Funktion, die diesen Angriff ermöglicht, kennst du bereits, wenn du schon mal KI-Chatbots verwendet hast: Chatbots senden Antworten nicht in großen Blöcken, sondern nach und nach – fast so, als würde eine Person schreiben. Im Gegensatz zu einer Person geben LLMs jedoch Token aus – nicht einzelne Zeichen. Chatbots senden die generierten Token nacheinander in Echtzeit. Oder besser gesagt, die meisten Chatbots tun dies: Eine Ausnahme bildet Google Gemini, was den Chatbot für diesen Angriff unverwundbar macht.

Und die dritte Besonderheit: Zum Zeitpunkt der Veröffentlichung des Artikels verwendeten die meisten Chatbots vor der Verschlüsselung einer Nachricht keine Komprimierung, Kodierung oder Padding (dabei werden Fülldaten an sinnvollen Text angehängt, um die Vorhersehbarkeit zu reduzieren und die Kryptografie zu stärken).

Seitenkanalangriffe nutzen alle drei genannten Besonderheiten aus. Abgefangene Chatbot-Nachrichten können zwar nicht entschlüsselt werden, Angreifer können jedoch nützliche Daten daraus extrahieren – insbesondere die Länge der vom Chatbot gesendeten Token. Das Ergebnis ähnelt einem Wörterrätsel: Man sieht zwar nicht, was genau verschlüsselt ist, aber die Länge der einzelnen Wörter Token ist bekannt.

Angreifer können die Länge der gesendeten Token ermitteln

Obwohl die Nachricht nicht entschlüsselt werden kann, können Angreifer die Länge der vom Chatbot gesendeten Token ermitteln. Das Ergebnis ähnelt einer versteckten Phrase bei einem Ratespiel mit Wörtern. Quelle

 

Nachrichtentext anhand extrahierter Informationen wiederherstellen

Jetzt muss man nur noch erraten, welche Wörter sich hinter den Token verbergen. Und kaum zu glauben, wer bei solchen Ratespielen besonders gut ist – natürlich LLMs. Tatsächlich ist der Hauptzweck großer Sprachmodelle, in einem gegebenen Kontext die richtigen Wörter zu erraten. Um den Text der ursprünglichen Nachricht aus der ermittelten Abfolge von Token-Längen wiederherzustellen, nutzten die Forscher ein LLM …

Oder, um genau zu sein, zwei LLMs. Die Forscher erkannten nämlich, dass die einleitenden Nachrichten in Chatbots-Gesprächen meist ähnlich sind. Ein speziell auf solche Chatbot-Einleitungen trainiertes Modell kann sie darum leicht erraten. Das erste Modell wird also verwendet, um die Einleitungen wiederherzustellen. Das Ergebnis geht an das zweite Modell, das sich um den Rest der Konversation kümmert.

Überblick über den Angriff zur Wiederherstellung von KI-Chatbot-Nachrichten

Allgemeines Schema des Angriffs. Quelle

 

Es wird ein Text erzeugt, dessen Token-Längen denen in der ursprünglichen Nachricht entspricht. Die Erfolgsrate ist jedoch recht unterschiedlich. Eine perfekte Übereinstimmung zwischen der wiederhergestellten Nachricht und dem Original ist relativ selten – normalerweise wird ein Teil des Textes falsch erraten. Manchmal ist das Ergebnis zufriedenstellend:

Beispiel für eine gelungene Textrekonstruktion

In diesem Beispiel kommt der wiederhergestellte Text dem Original ziemlich nah. Quelle

 

Aber auch das Gegenteil ist möglich. Dann hat der rekonstruierte Text wenig oder gar nichts mit dem Original gemeinsam. Das Ergebnis kann beispielsweise so aussehen:

Beispiel für eine weniger erfolgreiche Textrekonstruktion

Hier lässt das Rätselraten zu wünschen übrig. Quelle

 

Oder auch so:

Beispiel für eine misslungene Textrekonstruktion

Wie man so schön sagt: Knapp daneben ist auch vorbei. Quelle

 

Insgesamt untersuchten die Forscher über ein Dutzend KI-Chatbots und stellten fest, dass die meisten von ihnen anfällig für diesen Angriff sind. Ausnahmen bilden Google Gemini (zuvor Bard) und GitHub Copilot (nicht zu verwechseln mit Microsoft Copilot).

Liste der untersuchten KI-Chatbots

Zum Zeitpunkt der Veröffentlichung unseres Artikels waren viele Chatbots für den Angriff anfällig. Quelle

 

Wie gefährlich ist das?

Zunächst einmal wurde dieser Angriff in der Vergangenheit ausgeführt. Nehmen wir einmal an, jemand hat sich die Mühe gemacht, deine ChatGPT-Konversationen abzufangen und zu speichern (was nicht ganz einfach ist, aber durchaus möglich), und die Chats enthalten empfindliche Geheimnisse. In diesem Fall könnten die Nachrichten mit der beschriebenen Methode theoretisch gelesen werden.

Zum Glück sind die Erfolgschancen nicht allzu hoch: Die Forscher stellten fest, dass sich das allgemeine Gesprächsthema nur in 55 % der Fälle bestimmen ließ. Eine erfolgreiche Rekonstruktion gelang nur bei 29 %. Dabei müssen auch die Kriterien beachtet werden, die die Forscher für eine vollständig erfolgreiche Rekonstruktion anlegten. Hier ein Beispiel:

Beispiel für eine vollständig erfolgreiche

Beispiel für eine Textrekonstruktion, die von den Forschern als vollständig erfolgreich eingestuft wurde. Quelle

 

Wie wichtig solche semantischen Nuancen sind, darf jeder selbst entscheiden. Ebenso bedeutsam ist, dass mit dieser Methode höchstwahrscheinlich keine spezifischen Daten (Namen, Zahlen, Datum, Adressen, Kontaktdaten und andere wichtige Informationen) extrahiert werden können – zumindest nicht mit ausreichender Zuverlässigkeit.

Der Angriff hat eine weitere Einschränkung, die in der Studie gar nicht erwähnt wird: Der Erfolg der Textwiederherstellung hängt stark von der Sprache ab, in der die abgefangenen Nachrichten verfasst sind. Je nach Sprache gibt es nämlich relativ große Unterschiede bei der Tokenisierung. Dieser Artikel konzentriert sich auf das Englische, das sich durch sehr lange Token auszeichnet, die gewöhnlich einem ganzen Wort entsprechen. Der tokenisierte englische Text weist daher bestimmte Muster auf, die eine Rekonstruktion relativ einfach machen.

Für alle anderen Sprache ist es wesentlich schwieriger. Selbst für die Sprachen der germanischen und romanischen Gruppen, die dem Englischen am ähnlichsten sind, ist die durchschnittliche Token-Länge eineinhalb bis zweimal kürzer. Und für das Russische sogar um das 2,5-fache: Ein typisches russisches Token ist nur wenige Zeichen lang, was die Effektivität dieses Angriffs wahrscheinlich drastisch reduzieren würde.

 

Inzwischen haben schon mindestens zwei KI-Chatbot-Entwickler – Cloudflare und OpenAI – auf die Studie reagiert und die oben erwähnte Padding-Methode hinzugefügt, die speziell für diese Bedrohungsart entwickelt wurde. Andere Chatbot-Entwickler werden nachziehen. Und hoffentlich wird dieser Angriff künftig keine Gefahr mehr für die Kommunikation mit Chatbots darstellen.

Tipps