Vor nicht allzu langer Zeit haben wir über Methoden geschrieben, die Mordechai Guri und seine Kollegen an der Ben-Gurion-Universität entwickelt haben, um Informationen aus einem Gerät zu extrahieren, das nicht nur nicht mit dem Internet verbunden, sondern auch physisch vom Netzwerk isoliert ist. Auf der Black Hat USA 2020 Konferenz präsentierte Ben Nassi, ein weiterer Forscher der Ben-Gurion-Universität, seine Ergebnisse über eine visuelle Abhörmethode, die er und seine Kollegen Lamphone nennen.
In diesem Beitrag erklären wir Ihnen, wie Lamphone funktioniert, doch zunächst ein kleiner Exkurs.
Wie ist es möglich, Geräusche zu sehen?
Eine bekannte Technologie zur Fernaufnahme von Tönen mit sogenannten visuellen Methoden ist das Lasermikrofon. Diese Technik ist ziemlich simpel.
Die Personen, die ein Gespräch abhören, richten einen Laserstrahl, der im Infrarotbereich arbeitet (d.h. für das menschliche Auge unsichtbar ist), auf eine geeignete Oberfläche (typischerweise ein Fensterglas) in dem Raum, in dem das Gespräch stattfindet. Der Strahl wird von der Oberfläche reflektiert und wird wieder von einem Rezeptor aufgefangen. Schallwellen erzeugen Vibrationen auf der Oberfläche des Objekts, die wiederum das Verhalten des reflektierten Laserstrahls verändern. Der Empfänger zeichnet die Veränderungen auf, die schließlich in eine Tonaufnahme des Gesprächs umgewandelt werden.
Die Technologie wird seit der Ära des Kalten Krieges eingesetzt und taucht in vielen Spionagefilmen auf. Sie haben sie wahrscheinlich in einem davon gesehen. Mehrere Firmen stellen fertige Geräte für die Laserabhörung her und ihre Reichweite erstreckt sich auf 500 oder sogar 1.000 Meter. Für diejenigen, die befürchten, Ziel von Laserabhörungen zu werden, gibt es hier jedoch zwei gute Nachrichten: Erstens sind Lasermikrofone sehr teuer; und zweitens verkaufen die Hersteller Lasermikrofone nur an Regierungsbehörden (oder behaupten sie jedenfalls).
Laut Nassi ist jedoch die aktive Natur von Lasermikrofonen ein schwerwiegender Nachteil. Damit diese Form des Abhörens funktioniert, muss man eine Oberfläche mit einem Laserstrahl „beleuchten“, und das bedeutet, dass ein IR-Detektor sie entdecken kann.
Vor einigen Jahren schlug eine Gruppe von Forschern am Massachusetts Institute of Technology eine alternative Methode der „visuellen Aufzeichnung“ vor, die völlig passiv war. Ihre Idee war weitgehend die gleiche: Schallwellen erzeugen Vibrationen auf der Oberfläche eines Objekts und diese Vibrationen können natürlich aufgezeichnet werden.
Um die Vibrationen zu erfassen, verwendeten die Forscher eine Hochgeschwindigkeitskamera, die mehrere tausend Bilder pro Sekunde schoss. Durch den Vergleich der Einzelbilder der Kamera (mit Hilfe eines Computers) konnten sie den Ton aus der Sequenz der Videobilder reproduzieren.
Diese Methode hat jedoch auch einen Nachteil, der nicht gerade klein ist. Die Menge an Rechenressourcen, die erforderlich war, um die riesige Menge an visuellen Informationen von der Hochgeschwindigkeitskamera in Ton umzuwandeln, war außergewöhnlich. Selbst mit extrem leistungsstarken Systemen brauchten die MIT-Forscher 2 bis 3 Stunden, um eine 5-Sekunden-Videoaufzeichnung zu analysieren, so dass der Ansatz für das spontane Aufnehmen von Gesprächen nicht geeignet ist.
Wie Lamphone funktioniert
Nassi und seine Kollegen haben sich eine neue „visuelle Abhörtechnik“ ausgedacht, die sie Lamphone nennen. Die Grundidee der Methode besteht darin, eine Glühbirne (daher der Name der Technik) als Objekt zu verwenden, von dem aus man die durch Schall verursachten Vibrationen einfangen kann.
Eine Glühbirne ist nicht nur ein ganz gewöhnlicher Gegenstand, sondern auch ein sehr heller. Daher braucht jemand, der die Vibrationen einer Glühbirne nutzt, keine Rechenressourcen für die Analyse extrem subtiler Veränderungen im Bild zu verschwenden. Alles, was man tun muss, ist ein leistungsstarkes Teleskop auf die Glühbirne zu richten. Das Teleskop lenkt den Lichtstrom von der Glühbirne auf einen elektro-optischen Sensor.
Die Glühbirne strahlt das Licht nicht vollkommen gleichmäßig in verschiedene Richtungen ab (interessanterweise variieren die Unebenheiten auch bei den verschiedenen Glühbirnentypen, wobei sie bei Glühbirnen und LED-Lampen recht hoch, bei Leuchtstofflampen jedoch viel geringer sind). Diese Unebenheiten führen dazu, dass die (durch Schallwellen verursachten) Vibrationen der Glühbirne die Intensität des Lichtstroms, den der elektrooptische Sensor erfasst, leicht verändern. Und diese Veränderungen sind für die Aufzeichnung ausreichend wahrnehmbar. Nachdem die Forscher die Veränderungen aufgezeichnet und eine Reihe einfacher Transformationen vorgenommen hatten, konnten sie den Ton aus der resultierenden „Lichtaufzeichnung“ wiederherstellen.
Um ihre Methode zu testen, installierten die Forscher ein Abhörgerät auf einer 25 Meter weit vom Testraum entfernten Fußgängerbrücke. Im Testraum wurde der Ton über einen Lautsprecher wiedergegeben. Indem die Forscher ein Teleskop auf eine Glühbirne im Raum richteten, konnten sie die kleinsten Lichtschwankungen aufzeichnen und in eine Tonaufnahme umwandeln.
Die dabei entstandenen Aufnahmen erwiesen sich als recht verständlich. So identifizierte Shazam beispielsweise erfolgreich die Testsongs „Let It Be“ von den Beatles und „Clocks“ von Coldplay, und der Spracherkennungsdienst von Google transkribierte die Worte von Donald Trump aus einer seiner Kampagnenreden korrekt.
Stellt Lamphone eine tatsächliche Bedrohung dar?
Nassi und seinen Kollegen ist es gelungen, eine wirklich brauchbare Methode des „visuellen Abhörens“ zu entwickeln. Noch wichtiger ist, dass die Methode völlig passiv ist und daher von keinem IR-Detektor registriert werden kann.
Beachten Sie auch, dass im Gegensatz zu der von den Forschern am MIT entwickelten Methode die Berechnungen für die Dekodierung von Lamphone-Aufnahmen extrem einfach sind. Da die Verarbeitung keine großen Rechenressourcen erfordert, kann Lamphone in Echtzeit verwendet werden.
Nassi räumt jedoch ein, dass der Ton im Testraum während des Experiments mit sehr hoher Lautstärke abgespielt wurde. Daher dürften die Ergebnisse des Experiments im Moment vor allem von theoretischem Interesse sein. Andererseits sollten wir die Einfachheit der Methoden zur Umwandlung der „Lichtaufnahmen“ in Schall nicht unterschätzen. Die Technik könnte möglicherweise weiter verfeinert werden, z.B. durch maschinelle Lernalgorithmen, die sich für diese Art von Aufgaben hervorragend eignen.
Zum jetzigen Zeitpunkt schätzen die Forscher die derzeitige Durchführbarkeit der Anwendung dieser Technik in der Praxis als weder extrem schwierig noch einfach ein, sondern irgendwo dazwischen. Sie gehen jedoch davon aus, dass die Methode möglicherweise praktischer wird, wenn jemand ausgeklügelte Algorithmen zur Umwandlung der Messwerte des elektro-optischen Sensors in Tonaufnahmen anwenden kann.