Diogenes benutzte bekanntlich eine Laterne, um nach einem (guten und wahren) Menschen zu suchen – der Philosoph vertraute ganz auf optische Erkennungsmethoden. Inzwischen versuchen Forscher es schon mit WLAN-Signalen. Genauer gesagt, haben drei Forscher der Carnegie Mellon University eine Methode entwickelt, bei der das Signal eines gewöhnlichen WLAN-Routers verwendet wird, um nicht nur den Standort einer Person in einem Raum zu bestimmen, sondern auch deren Körperhaltung zu ermitteln.
Warum WLAN? Dafür gibt es mehrere Gründe. Erstens funktionieren Funksignale im Gegensatz zur optischen Erkennung auch im Dunkeln perfekt und werden durch kleine Hindernisse oder Möbel nicht beeinträchtigt. Zweitens ist es billig im Vergleich zu Lidar und Radar, die diese Aufgabe theoretisch auch erfüllen könnten. Drittens ist WLAN so gut wie allgegenwärtig – einfach einloggen und los geht’s. Aber wie effektiv ist diese Methode? Und was kann man wirklich damit erreichen? Das schauen wir uns jetzt genauer an.
DensePose: Methode zur Erkennung der Körperhaltung auf Bildern
Zuerst müssen wir aber etwas ausholen und erklären, wie der menschliche Körper und dessen Posen ganz allgemein erkannt werden. Im Jahr 2018 stellte eine andere Forschergruppe die Methode DensePose vor. DensePose kann menschliche Posen auf Fotografien erkennen – also auf zweidimensionalen Bildern ohne zusätzliche räumliche Daten.
Und das funktioniert so: Zunächst sucht DensePose auf den Bildern nach Objekten, die wie menschliche Körper aussehen. Diese Objekte werden dann in verschiedene Bereiche unterteilt, die jeweils bestimmten Körperteilen entsprechen. Anschließend werden die Bereiche einzeln analysiert. Bei diesem Ansatz wird berücksichtigt, dass sich Körperteile sehr unterschiedlich bewegen: Kopf und Rumpf verhalten sich zum Beispiel ganz anders als Arme und Beine.
Das Modell hat gelernt, wie ein zweidimensionales Bild mit der 3D-Oberfläche des menschlichen Körpers zusammenhängt. Es liefert nicht nur Anmerkungen, die der erkannten Pose entsprechen, sondern auch ein geometrisches Modell (UV-Map) des fotografierten Körpers. Dadurch kann das Bild beispielsweise mit einer Struktur überlagert werden.
Besonders beeindruckend ist, dass diese Technik die Posen mehrerer Personen auf Gruppenfotos genau unterscheiden kann. Es funktioniert auch mit Bildern, auf denen die Personen eng beieinander stehen und sich teilweise gegenseitig verdecken.
Glaubt man den im Rahmen der Studie veröffentlichten Bildern und Videos, so meistert das System selbst die außergewöhnlichsten Körperhaltungen völlig problemlos. Das neuronale Netz identifiziert beispielsweise Personen auf Fahrrädern, Motorrädern und Pferden korrekt und bestimmt auch die Körperhaltung von Baseballspielern, Fußballern und sogar Breakdancern, deren Bewegungen oft völlig unvorhersehbar sind.
Ein weiterer Vorteil von DensePose besteht darin, dass es keine außergewöhnlich hohe Rechenleistung benötigt. Mit einer GeForce GTX 1080 – zum Zeitpunkt der Veröffentlichung der Studie nicht eben eine Grafikkarte der Spitzenklasse – erfasst DensePose 20 bis 26 Bilder pro Sekunde bei einer Auflösung von 240×320 und bis zu fünf Bilder pro Sekunde bei einer Auflösung von 800×1100.
DensePose via WLAN: Funkwellen statt Fotos
Die ursprüngliche Idee der Carnegie Mellon-Forscher war, das bestehende Hochleistungs-KI-Modell zur Körpererkennung DensePose zu verwenden, es aber anstelle von Fotos mit WLAN-Signalen zu füttern.
Das Experiment hatte folgenden Aufbau:
- Zwei Stände mit handelsüblichen TP-Link-Heimroutern, die jeweils mit drei Antennen ausgestattet waren: Ein Router diente als Sender, der andere als Empfänger.
- Die zu erkennende Szene befand sich zwischen diesen Ständen.
- Eine Kamera, die auf einem Stativ neben dem Router des Empfängers montiert war, filmte die Szene, die mithilfe von WLAN-Signalen erkannt werden sollte.
Dann starteten die Forscher DensePose, das Körperpositionen mithilfe der Kamera neben dem Empfänger-Router identifizierte, und trainierten ein weiteres neuronales Netzwerk, das mit dem WLAN-Signal des empfangenden Routers arbeitete. Dieses Signal wurde für eine zuverlässigere Erkennung vorverarbeitet und modifiziert – aber lassen wir die Details. Das Wichtigste ist, dass es den Forschern tatsächlich gelang, ein neues Wi-Fi-DensePose-Modell zu erstellen, das die räumlichen Positionen menschlicher Körper mithilfe von WLAN-Signalen genau rekonstruieren kann.
Grenzen der Methode
Aber immer mit der Ruhe – es ist noch zu früh für Schlagzeilen wie „Wissenschaftler können mithilfe von WLAN durch Wände sehen“. Zunächst einmal ist das „Sehen“ hier ziemlich abstrakt – das Modell „sieht“ den menschlichen Körper nicht wirklich, kann jedoch seinen Standort und seine Haltung auf Basis indirekter Daten mit einer gewissen Wahrscheinlichkeit vorhersagen.
Die Visualisierung komplexer Objekte mithilfe von WLAN-Signalen ist eine echte Herausforderung. Dies zeigt eine ähnliche Studie, in der Forscher mit Objekten experimentierten, die viel einfacher waren als menschliche Körper – und dabei waren die Ergebnisse alles andere als ideal.
Zudem ist zu beachten, dass das Modell, das von den Forschern der Carnegie Mellon University entwickelt wurde, deutlich weniger genau ist als die ursprüngliche Methode zur Posenerkennung auf Fotos. Zudem treten ernsthafte „Halluzinationen“ auf. Besondere Schwierigkeiten hat das Modell mit ungewöhnlichen Posen sowie bei Szenen mit mehr als zwei Personen.
Darüber hinaus waren die Testbedingungen in der Studie überaus günstig gestaltet: Eine einfache, klar definierte Geometrie, eine ungestörte Sichtverbindung zwischen Sender und Empfänger sowie minimale Störungen des Funksignals – die Forscher hatten alles so eingerichtet, dass die Szene ganz einfach mit Funkwellen „penetriert“ werden konnte. In der Wirklichkeit lässt sich ein solch ideales Szenario wahrscheinlich nicht reproduzieren.
Du musst also nicht befürchten, dass jemand deinen WLAN-Router hackt und dich zu Hause überwacht. Wenn es in deinem Zuhause wirklich etwas gibt, worüber du dir Sorgen machen musst, sind es intelligente Haushaltsgeräte. Intelligente Futterautomaten und Kinderspielzeug haben beispielsweise Kameras und Mikrofone und sind mit der Cloud verbunden. Und Staubsaugerroboter können sich bewegen und verfügen sogar über Lidarsensoren, die auch im Dunkeln einwandfrei funktionieren.
Und vor deiner Haustür wartet ein weiterer Spion mit vier Rädern auf dich. Moderne Autos liegen nämlich in Bezug auf die Menge der gesammelten Informationen meilenweit vor Smartwatches, Smart-Lautsprechern und anderen intelligenten Geräten.