In den letzten Jahren hat es viele Debatten um Big Data gegeben. Diese handelten meist von den verblüffenden Möglichkeiten, die durch die Technologie geschaffen wurden. Der Nebeneffekt dieser Debatten ist, dass die Nutzung von Big Data angsteinflößend sein kann. Auch wenn wir damit übereinstimmen, dass Big Data verblüffend ist, beinhaltet es — genau wie die meisten anderen aufstrebenden Technologien — einige Schwachstellen. In diesem Artikel werden wir verschiedene Problempunkte ansprechen, die mit der Anwendung von Big Data einhergehen können.
Keine Privatsphäre
Wenn es um mögliche Problempunkte von Big Data geht, ist das erste woran man denkt, in der Regel die Privatsphäre.
Der Name spricht für sich selbst: Big Data basiert darauf, so viel Informationen wie möglich zusammenzutragen. Je privater diese sind, desto effizienter kann der Algorithmus nichtoffensichtliche Schlussfolgerungen ziehen. Vereinfacht ausgedrückt sind die privaten Daten sozusagen der Feenstaub der gesamten Big-Data-Magie.
Dieser Feenstaub wird regelmäßig verteilt und kann dabei in dunklen Ecken hängen bleiben. Jedoch ist das noch nicht alles: es gibt eine ganze Reihe von Problemen, die auf komplizierte Weise miteinander in Zusammenhang stehen.
#BigData ist sicherlich verblüffend, aber genau wie jede andere Technologie hat es seine Problembereiche
Tweet
Pure Wissenschaft (oder auch nicht)
Oft werden Big-Data-Lösungen als Wissenschaft angesehen. Das Problem ist jedoch, dass der Algorithmus mehr mit Technik und Ingenieurwesen zu tun hat, was ein großer Unterschied ist.
Das ist ein ähnlich großer Unterschied wie zwischen Physik und Raketentechnologie. Physik ist Wissenschaft und lässt keinen Raum für Fragen: jeder ihrer Aspekte wurde sowohl theoretisch als auch praktisch erforscht und bewiesen; und anschließend wurden diese von der Wissenschaftswelt überprüft, da das nun einmal so gemacht wird in der Wissenschaft.
Zudem ist die Wissenschaft immer offen zugänglich; folglich kann alles jederzeit von jedem der sich dafür interessiert nochmals überprüft werden. Für den Fall, dass grobe Fehler entdeckt werden oder neue Theorien aufkommen, sind diese immer Gegenstand für Diskussionen in der globalen Wissenschaftswelt.
Raketentechnologie basiert nur auf Ingenieurwesen und bestimmten physikalischen Prinzipien. Und wie Sie sicherlich nur allzu gut wissen, gehen Raketen oftmals „nach hinten los“, wenn sie nicht korrekt gebaut sind. Dies gilt ebenfalls wenn die Bedingungen nicht stimmen — was eigentlich dasselbe ist, denn das heißt, dass die Bauweise nicht für die vorherrschenden Bedingungen geeignet war.
The scary side of #big #data http://t.co/jka3ZJSK6R #bigdata #analytics pic.twitter.com/9beTnrKice
— Kaspersky (@kaspersky) August 21, 2015
Über Mathematik lässt sich nicht streiten, oder?
Eine Konsequenz dieses Missverständnisses ist die unanfechtbare Machtposition von Big Data. Man muss die Entscheidungen des Big-Data-Algorithmus als vertrauenswürdig annehmen und kann darüber nicht diskutieren. Nur professionellen Mathematikern wäre es möglich, Big-Data-Modelle oder -Algorithmen in Frage zu stellen, wenn sie diese untersuchen könnten. Aber können sie das?
Tiefschwarze Blackbox
Selbst wenn Sie mit gutem Wissen und mathematischer Erfahrung ausgestattet sind und herausfinden wollen, wie genau dieser oder jener Algorithmus funktioniert, wird Ihnen nur in den seltensten Fällen Zugriff gewährt werden. Das hängt damit zusammen, dass dies eine kommerzielle Software ist, deren Quellcode geschützt ist. Forscher werden in aller Regel weggeschickt, mit dem Hinweis, dass es sich um geschütztes Eigentum handelt. Ganz nach dem Motto „Vielen Dank für Ihr Interesse und gute Nacht.“
In ihrem Vortrag „Weapons of Math Destruction“ spricht Cathy O’Neil, Mathematikerin und Menschenrechtsaktivistin, über Value-added Modeling („Wertschöpfungsmodell“), einem Algorithmus, der Lehrer der Vereinigten Staaten bewerten soll: „Eine Freundin von mir, die eine Highschool in New York leitet, wollte diesen Algorithmus verstehen. Diese Schule ist auf Mathematik und Wissenschaft spezialisiert, deswegen dachte sie, dass sie den Algorithmus verstehen könnte. Sie kontaktierte das Bildungsministerium und bat um Informationen diesbezüglich. Die Antwort: „Oh, das möchten Sie nicht wirklich wissen, das ist Mathematik!“
„Sie bestand dennoch darauf und bekam schließlich doch einen Fachbericht zugesandt, den sie mir daraufhin zeigte. Dieser war sehr abstrakt und vollkommen unverständlich. Daraufhin stellte ich gemäß dem Gesetz zur Informationsfreiheit einen Antrag, um den Quellcode zu erhalten, doch die Anfrage wurde abgelehnt. Später fand ich heraus, dass die Expertenkommission in Madison (Wisconsin), die für dieses Modell verantwortlich ist, eine Lizenzvereinbarung geschlossen hatte, [die besagt,] dass kein Zugriff auf interne Informationen des Modells gewährt werden darf.“
„Im New Yorker gibt es niemanden, der dieses Modell versteht; den Lehrern wird nicht erklärt, wie ihre Beurteilung zustande kommt, noch wissen sie wie sie diese verbessern können, da ihnen nicht mitgeteilt wird wie dies möglich wäre.“
Eingabeinformationen — Ausgabeinformationen
Seitdem die Algorithmen undurchsichtig sind, sind die Eingabedaten ebenfalls undurchschaubar. Wer mit Big Data arbeitet, kann nicht sicher sein, welche Daten vom Algorithmus verwendet wurden und welche nicht. Aus diesem Grund besteht die Möglichkeit, dass einige Daten sich zweifach auf das Ergebnis auswirken: zuerst fließen sie in den Algorithmus ein und anschließend berücksichtigt der Anwender sie zusätzlich. Umgekehrt ist es ebenfalls möglich, dass Daten unberücksichtigt bleiben, wenn der Anwender fälschlicherweise dachte, dass sie bereits in die Ergebnisse eingeflossen sind, diese jedoch nicht vom Algorithmus berücksichtigt worden waren.
Nehmen wir einmal an, Polizisten betreten ein Stadtviertel mit hoher Kriminalitätsrate. Ihre Software warnt sie, dass eine 55-prozentige Wahrscheinlichkeit besteht, dass der Mann, der vor ihnen steht, ein Einbrecher ist. Der Mann trägt einen verdächtigen Koffer mit sich herum, aber die Polizisten wissen nicht, ob der Algorithmus dies berücksichtigt hat oder nicht.
Ganz zu schweigen davon, dass Eingabedaten auch Fehler enthalten können oder Informationen fehlen können, die für die korrekte Vorhersage entscheidend sind.
Our top 10 list of the most interesting big data projects in the world http://t.co/YWMxJCTSYZ
— Kaspersky (@kaspersky) April 3, 2015
Ist das Glas halb voll oder halb leer?
Die Ausgangsinformationen können aufgrund fehlender Transparenz oftmals missverstanden werden. Nummern können sehr subjektiv verstanden werden, da zwei verschiedene Personen diese auf komplett unterschiedliche Weise auslegen können. Was zum Beispiel bedeutet 30 Prozent? Die Interpretation kann von „nicht sehr wahrscheinlich“ bis hin zu „wahrscheinlich ja“ reichen, dies hängt von vielen Faktoren ab, die nicht vorhersehbar sind.
Noch schlimmer kommt es, wenn dieser Wahrscheinlichkeitsfaktor dazu verwendet wird, um Vergleiche zu ziehen: ungeachtet dessen, dass die Wahrscheinlichkeit, dass eine Person eine Straftat begehen könnte nicht hoch genug ist, um als Bedrohung angesehen zu werden, kann dies unter Umständen dazu führen, dass bestimmte Personen isoliert werden.
Beispielsweise benutzt man in den Vereinigten Staaten solche Algorithmen für Sicherheitsüberprüfungen, um damit vorherzusagen wie wahrscheinlich es ist, dass eine Person Informationen preisgibt. Und da man sich in der Arbeitswelt gegen viele Mitstreiter behaupten muss, werden Kandidaten häufig von Anfang an aus einem Auswahlverfahren ausgeschlossen, sobald deren Wahrscheinlichkeitsfaktor — wenn auch nicht sehr signifikant — über dem Durchschnitt liegt.
Why Eugene Kaspersky has big problems with big data http://t.co/QPaWyddi via @itworldca cc: @e_kaspersky
— Kaspersky (@kaspersky) May 22, 2012
Unvoreingenommen?
Wenn man alle zuvor genannten Problempunkte in Betracht zieht, dann kann man sicherlich sagen, dass der am meisten angepriesene Vorteil von Big Data — die Unvoreingenommenheit — nicht gegeben ist. Eine Entscheidung, die von einem Menschen getroffen wurde, die auf der Berechnung eines Algorithmus basiert, welcher wiederum von einem Menschen entwickelt worden ist, ist und bleibt eine Entscheidung, die von einem Menschen getroffen wurde. Sie kann von Vorurteilen beeinträchtig sein, oder auch nicht. Das Problem ist, dass man aufgrund des undurchsichtigen Algorithmus und der undurchschaubaren Daten nicht weiß, welche Ausgangsinformationen man letzten Endes vorliegen hat. Und das kann man auch nicht ändern, da der Algorithmus in der Software programmiert ist.
Willkommen auf der dunklen Seite, Anakin
Algorithmen für Vorhersagen sind darüber hinaus anfällig für Rückführschleifen und selbsterfüllende Prophezeiungen. Zum Beispiel kann ein Algorithmus, den die Polizeibehörde in Chicago benutzt, ein Kind als potenziell gefährlich einstufen. Daraufhin entscheiden Polizisten, das Kind „im Auge zu behalten“, tätigen Hausbesuche und so weiter. Das Kind merkt, dass es von der Polizei wie ein Krimineller behandelt wird, auch wenn es bis jetzt noch gar keine Straftat begangen hat und fängt schließlich an, sich dementsprechend zu verhalten. Letzten Endes wird es zu einem Bandenmitglied, nur weil es sich von der Polizei angegriffen gefühlt hat.
Whitney Merrill erwähnte dies in ihrem Vortrag „Predicting Crime in a Big Data World“ (Verbrechensvorhersage in der Big-Data-Welt) auf dem Chaos Communication Congress 32: „Wenn sich ein Polizist auf Streife befindet, und der Algorithmus errechnet, dass die Wahrscheinlichkeit bei 70 Prozent liegt, dass man in dieser Gegend auf einen Einbrecher trifft — werden die Polizisten dann einen Einbrecher finden, weil ihnen vorher mitgeteilt wurde, dass sie auf einen Einbrecher treffen könnten?
Keine Ausstiegsmöglichkeiten
Wenn staatliche oder gewerbliche Organisationen Big-Data-Algorithmen anwenden, und Sie das nicht befürworten, können Sie nicht einfach sagen „Mir reicht’s, ich kündige“. Wahrscheinlich werden Sie nicht einmal gefragt, ob Sie Teil einer Big-Data-Untersuchung sein wollen oder nicht. Im schlimmsten Falle wird man Ihnen nicht einmal sagen, dass Sie Teil der Untersuchungen sind.
Verstehen Sie mich nicht falsch: ich möchte damit nicht sagen, dass alle oben genannten Schwachstellen ein Grund sind, um fortgeschrittene Prognosealgorithmen abzulehnen. Big Data ist erst im Kommen und wird definitiv seinen Platz behaupten. Aber vielleicht ist es an der Zeit, die Schwachstellen ins Auge zu fassen, bevor es zu spät ist um diese zu beheben.
Algorithmen und Eingabedaten sollten nachvollziehbarer und geschützter sein, unabhängigen Forschern sollte Zugang zu den Quellcodes gewährt werden und dies muss in der Gesetzgebung verankert werden. Wir müssen darüber informieren, was es mit Big Data auf sich hat. Und definitiv müssen wir aus bereits begangenen Fehlern lernen.