Federated Learning im Kampf gegen E-Mail-Bedrohungen

Unsere Methode für Trainingsmodelle zum Herausfiltern von Spam ermöglicht es Ihnen, Ihre Privatsphäre zu wahren, ohne an Effizienz einzubüßen.

Wie können Sie am einfachsten eine Bedrohung (entweder Phishing oder Spam) in Ihrer E-Mail finden? Eine Vielzahl von technischen Headern und anderen indirekten Markierungen einer unerwünschten Nachricht können den Weg weisen, aber wir sollten nicht das offensichtlichste Element vergessen – den Nachrichtentext. Man könnte meinen, er sei das erste, was zu analysieren ist; schließlich ist der Text das, was Cyberkriminelle oder skrupellose Werbetreibende nutzen, um Empfänger zu manipulieren. Die Aufgabe ist jedoch nicht ganz so einfach. Während die Signaturanalyse in der Vergangenheit die Aufgabe bewältigen konnte, ist es jetzt notwendig, den Text mit maschinellen Lernalgorithmen zu analysieren. Und falls das Modell des maschinellen Lernens darauf trainiert werden soll, Nachrichten korrekt zu klassifizieren, müssen ihm Nachrichten in beträchtlichen Mengen zugeführt werden – und das ist aus Datenschutzgründen nicht immer praktikabel. Wir haben eine Lösung gefunden.

Warum ist die Signaturanalyse nicht mehr effektiv?

Vor zehn Jahren war es relativ einfach, einen großen Teil unerwünschter E-Mails allein aufgrund des Nachrichtentextes abzufangen, da Cyberkriminelle die gleichen Vorlagen verwendeten – der Text von Spam- (und Phishing-) Nachrichten änderte sich kaum. Heute verbessern Cyberkriminelle kontinuierlich die Effizienz ihrer Mailings, und sie verwenden Millionen von Aufhängern: neue Videospiele, Fernsehserien oder Smartphone-Modelle; politische Nachrichten; sogar Notfälle (nehmen Sie zum Beispiel die Fülle von Phishing- und Spam-Nachrichten im Zusammenhang mit Covid-19). Diese riesige Vielfalt der Themen erschwert den Aufdeckungsprozess. Darüber hinaus können Angreifer sogar den Text innerhalb einer massiven Mailing-Welle variieren, um E-Mail-Filter zu umgehen.

Natürlich werden immer noch signaturbasierte Ansätze verwendet, obwohl ihr Erfolg im Wesentlichen davon abhängt, auf Text zu stoßen, den jemand bereits als unerwünscht oder schädlich eingestuft hat. Diese Verfahren können jedoch nicht proaktiv arbeiten, da Spammer sie umgehen können, indem sie Änderungen am Mailing-Text vornehmen. Die einzige Möglichkeit, mit diesem Problem umzugehen, ist das maschinelle Lernen.

Was ist das Problem mit dem Lernen?

In den letzten Jahren haben die Methoden des maschinellen Lernens bei der Lösung vieler Probleme gute Ergebnisse gezeigt. Durch die Analyse einer großen Datenmenge lernen Modelle, Entscheidungen zu treffen und nicht-triviale gemeinsame Funktionen in einem Informationsstrom zu finden.  Zur Erkennung von E-Mail-Bedrohungen verwenden wir zusammen mit dem DMARC neuronale Netzwerke, die an technischen E-Mail-Headern geschult wurden. Warum können wir also nicht dasselbe mit dem Nachrichtentext tun?

Wie bereits erwähnt, erfordern Modelle eine riesige Datenmenge. In diesem Fall bestehen die Daten aus E-Mails, und zwar nicht nur aus böswilligen – wir brauchen auch legitime Nachrichten. Ohne sie wäre es unmöglich, dem Modell beizubringen, einen Angriff von legitimer Korrespondenz zu unterscheiden. Wir haben zahlreiche E-Mail-Fallen, die alle Arten unerwünschter E-Mails abfangen (wir benutzen sie, um Signaturen zu erstellen), aber das Erlangen legitimer Briefe zum Lernen ist eine kompliziertere Aufgabe.

Typischerweise werden die Daten auf Servern für zentralisiertes Lernen gesammelt. Aber wenn wir über Text sprechen, entstehen zusätzliche Schwierigkeiten: E-Mails können private Daten enthalten, sodass es inakzeptabel wäre, sie in ihrer ursprünglichen Form zu speichern und zu verarbeiten. Wie können wir also eine ausreichend große Sammlung legitimer E-Mails erhalten?

Das Zauberwort: Federated Learning

Wir haben dieses Problem gelöst, indem wir die Methode des Federated Learning einsetzen. Damit entfällt die Notwendigkeit, legitime E-Mails zu sammeln und stattdessen Modelle auf dezentralisierte Weise zu trainieren. Das Modelltraining findet direkt auf den Mailservern des Kunden statt, und der zentrale Server erhält nur die angelernten Bewertungen der maschinell lernenden Modelle, nicht den Nachrichtentext. Auf dem zentralen Server kombinieren Algorithmen die Daten mit der sich ergebenden Version des Modells, und dann senden wir sie an die Kundenlösungen zurück, wo das Modell wiederum den E-Mail-Strom analysiert.

Das ist ein leicht vereinfachtes Bild: Bevor das neu trainierte Modell auf echte Briefe losgelassen wird, durchläuft es mehrere Versionen eines zusätzlichen Trainings. Mit anderen Worten: Zwei Modelle arbeiten gleichzeitig auf dem E-Mail-Server: das eine im Trainingsmodus, das andere im aktiven Modus. Nach mehreren Touren zum zentralen Server ersetzt das trainierte Modell das aktive.

Es ist unmöglich, den Text spezifischer E-Mails aus den gespeicherten Daten der Modelle wiederherzustellen. Somit ist der Datenschutz während der Verarbeitung gewährleistet. Dennoch verbessert ein Training an realen E-Mails die Qualität des Erkennungsmodells erheblich.

Gegenwärtig verwenden wir diesen Ansatz zur Spam-Klassifizierung bereits im Testmodus in Kaspersky Security for Microsoft Office 365, und er zeigt hervorragende Ergebnisse. Bald soll er weiter verbreitet und auch zur Identifizierung anderer Bedrohungen wie Phishing, BEC usw. eingesetzt werden..

Tipps