Zum Hauptinhalt springen
TECHNOLOGIE

Big Data-Verarbeitung durch Astraea

In diesem Expertensystem laufen alle statistischen Werte und Metadaten von verdächtigen Objekten weltweit in Echtzeit zusammen. Diesbezüglich getroffene Entscheidungen werden allen Nutzern unverzüglich über die Kaspersky Security Network-Cloud zur Verfügung gestellt.

Die Astraea-Technologie bildet das zentrale „Cloud-Cybergehirn“ des Kaspersky Security Network (KSN) – ein weiteres Element des mehrstufigen Next Generation-Schutzes von Kaspersky. In diesem System werden alle erfassten Statistiken und Metadaten über verdächtige Aktivitäten und Bedrohungen weltweit in Echtzeit zusammengeführt, um daraus Erkennungsentscheidungen in Bezug auf schädliche Objekte abzuleiten. Anschließend werden diese Informationen sofort über das Kaspersky Security Network allen Benutzern zur Verfügung gestellt.

Jeden Tag profitieren mehr als 80 Millionen Nutzer vom KSN Cloud-Service. Von dort rufen die Produkte von Kaspersky Informationen zur Reputation von fragwürdigen Objekten ab und geben ihrerseits Statistiken mit Metadaten von verdächtigen Objekten dorthin weiter. Im Ergebnis werden dabei jeden Tag Hunderte von Millionen Benachrichtigungen und Hunderte von Gigabytes gestreamt.

Alle diese Daten werden an ein Expertensystem zur Filterung und Erkennung namens Astraea weitergeleitet. Dieses System prüft die eingehenden Daten auf Konsistenz, um jeden auch noch so hypothetischen Versuch der Datenmanipulation zu verhindern. Anschließend werden die Daten in einer Big Data-Datenbank mit Objekten wie Dateien, URLs etc. mit entsprechenden Metadaten und den gegenseitigen Zusammenhängen gesammelt.

Die Daten, die ein Produkt zu einem verdächtigen Objekt einschickt, könnten in etwa so aussehen:

  • Object 0xc9e13b88​a6f74509​6f7cf4b2​32aad4d4​1054b32d​464c5bed​95aa7de2​16bc22a0
  • der Name des Objekts ist „überarbeitete Rechnung und Packliste.docx.exe“
  • das Objekt befindet sich im Archiv „überarbeitete Rechnung und Packliste.docx.exe“
  • das Objekt wurde gestartet aus dem Dateipfad c:\windows\temp
  • das Objekt ist nicht signiert
  • usw.

Nachdem die eingehenden Informationen zusammengeführt wurden, können daraus Erkenntnisse abgeleitet werden, wie:

  • Wann eine bestimmte Datei in der Welt bekannt wird
  • Vollständige Liste der URLs, von denen die Datei heruntergeladen wurde bzw. zu denen sie angefordert wurde
  • Vollständige Liste der Pfade, unter denen sie auf der Festplatte gespeichert wurde
  • Vollständige Liste der Erkennungen zu dieser Datei, falls vorhanden
  • Vollständige Liste der Prozesse, die die Datei gestartet haben
  • Verbreitungsgrad der Datei, und wie sie sich im Laufe der Zeit verändert hat

Jedes Objekt wird anhand einer langen Liste von Indikatoren überprüft, die von Experten und Expertensystemen erstellt wurde. Folgende Überprüfungen könnten beispielsweise wichtig sein:

  • Ob die Datei zum Zeitpunkt der Ausführung eine doppelte Erweiterung hat („MeineFotos.jpg.exe“)
  • Ob sich die Datei im Ordner C:\Windows\System32 befindet, obwohl sie gepackt ist und das Dateiattribut „versteckt“ aufweist
  • Ob die Datei eine veraltete Erweiterung hat (z. B. „.com“, „.pif“ etc.)
  • Ob der Dateiname bis auf eine sehr kleine Abweichung mit dem einer vertrauenswürdigen Systemdatei fast identisch ist (z. B. „svcnost.exe“)
  • Ob die Datei von einem Objekt heruntergeladen wurde, das bereits als schädlich bekannt ist
  • usw.

Anhand der Liste von Regeln wird für jedes Objekt ein Risikowert berechnet, den Astraea verwendet, um eine fundierte Entscheidung darüber zu treffen, ob das Objekt schädlich ist oder nicht. Je mehr Informationen über ein Objekt gesammelt werden, desto präziser kann die automatische Schlussfolgerung ausfallen. Natürlich kann es in manchen Fällen passieren, dass nicht genügend Informationen zu einem Objekt vorliegen, um eine Beurteilung vorzunehmen. In diesem Fall wird der Risikowert zu einem späteren Zeitpunkt noch einmal berechnet, wenn weitere Daten vorliegen.

Sobald Astraea eine Beurteilung des Objekts vorgenommen hat, wird das Ergebnis an den Cloud-Service Kaspersky Security Network übertragen und damit den Benutzern in der ganzen Welt sofort zugänglich gemacht.

Dabei ist zu beachten, dass die dahinter stehende Logik nicht statisch ist – das System trainiert sich permanent selbst, Denn in einer Welt, in der Malware-Autoren ihren Code immer wieder überarbeiten und mit neuen Techniken ausstatten, um der Erkennung durch Sicherheitslösungen zu entgehen, würde das System der Indikatoren schnell an Aktualität verlieren, was die Erkennungsrate drücken und die Zahl von False Positives in die Höhe schnellen lassen könnte. Deshalb müssen die einzelnen Indikatoren und die Indikatorenliste als Ganzes immer wieder auf ihre Schlagkraft überprüft und dynamisch mit den gesammelten Informationen aus der Kaspersky-Datenbank und dem Know-how der Experten aktualisiert werden.

Seit dem Start von Astraea im Jahr 2012 stieg der prozentuale Anteil der dort erstellten Erkennungen an der Gesamtzahl der neuen Erkennungen bis Ende 2016 von 7,53 auf 40,5 % (323.000 neue Erkennungen täglich), mit insgesamt einer Milliarde eindeutig schädlicher Dateien.

Verwandte Produkte

WHITEPAPER

Whitepaper Kaspersky Security Network Big Data-powered Security


Finding the Needle in the Haystack Introducing Astraea.

Year 2016 One Billion Items of Malware Held in Kaspersky Labs Cloud Database

Auszeichnungen

Zugehörige Technologien

Threat Intelligence in der Cloud: Kaspersky Security Network (KSN)

Die komplexe Cloud-Infrastruktur sammelt und analysiert für die Cybersicherheit relevante Daten von Millionen freiwilligen Teilnehmern aus aller Welt, um mithilfe von Big Data-Analysen, lernfähigen Systemen und menschlicher Expertise schnellstmöglich auf neue Bedrohungen reagieren zu können.

Maschinelles Lernen und Cybersicherheit

Entscheidungsbäume, standortbasiertes Hashing, Verhaltensmodelle und Clustering eingehender Streams – alle unsere lernfähigen Systeme sind so konzipiert, dass sie den Sicherheitsanforderungen der realen Welt entsprechen: weniger False Positives, Interpretierbarkeit und Robustheit gegenüber einem potenziellen Gegner.

Mehrschichtiges Sicherheitsmodell

True Cybersecurity sollte auf der Synergie verschiedener Schutztechniken basieren, vom klassischen AV-Datensatz bis hin zur verhaltensbasierten Erkennung anhand von Deep Learning-Modellen.