Cybersecurity ohne maschinelles Lernen? Think Again.

Data Leaks: Still Doing Cybersecurity Without Machine Learning? Think Again.

Wenn sensible Daten durchsickern, ist Zeit das A und O. Es dauert nicht lange, bis ein Leck zu einer Datenpanne wird. Vor einigen Wochen richtete das Sicherheitsforschungsteam von Comparitech einen Honeypot ein, der eine Datenbank auf einer ElasticSearch-Instanz simulierte, und fügte gefälschte Benutzerdaten darin ein. Der erste Angriff erfolgte weniger als 9 Stunden nach dem Einsatz. (Quelle: Ungesicherte Datenbanken werden 18 Mal pro Tag von Hackern angegriffen, Comparitech) Um Angreifer zu schlagen, kann man entweder auf gleicher Augenhöhe konkurrieren und eine Internet-of-Things-Suchmaschine wie Shodan.io oder BinaryEdge verwenden, und zwar durch eine Kombination aus manueller Zufallssuche und Python-Skripten. Oder man nutzt maschinelles Lernen. Laut Ponemon besteht der größte Vorteil des maschinellen Lernens darin, dass die Analyse von Bedrohungen schneller erfolgt. Da es die Zeit für die Reaktion auf Cyberangriffe verkürzt, können Unternehmen im Durchschnitt mehr als $2,5 Millionen an Betriebskosten einsparen. (Quelle: Der Wert von künstlicher Intelligenz in der Cybersicherheit, Ponemon/IBM Security)

Vorteile von Modellen des maschinellen Lernens

Wenn jede Sekunde zählt, verschaffen Ihnen Modelle des maschinellen Lernens einen Vorsprung im kritischen Wettlauf gegen bösartige Akteure. Deshalb entwickelt unser Data-Science-Team Vorhersagemodelle, die den Prozess der ersten Alarmtriage beschleunigen. Im Handumdrehen werden Milliarden von Erkennungen automatisch aussortiert, bevor sie die Untersuchungsplattform unserer Cyber-Analysten erreichen können. Hier kommt das maschinelle Lernen ins Spiel. Prevent Data Leaks Before They Become Major Breaches

Erstellung von Modellen für maschinelles Lernen für Data Leak Detection

Durch iterative Optimierung erstellen Data Scientists mathematische Funktionen, die es Algorithmen ermöglichen, sich wie ein Cyber-Analyst zu verhalten und dieselbe Entscheidung zu treffen wie ein Mensch, wenn er mit demselben Problem konfrontiert wird. Der Aufbau eines Modells für maschinelles Lernen beginnt mit der Sammlung von Daten über :

  • Die Informationen, die das Modell verstehen muss (auch als Input bezeichnet)
  • Die Entscheidung, die das Modell vorhersagen muss (auch bekannt als Output)
  • Die richtige Entscheidung, die ein Mensch getroffen hätte (aka das Ziel)

Je mehr Daten Sie haben, desto genauer ist die Modell für maschinelles Lernen sein wird. Sobald die Daten gesammelt sind, werden sie in einen Trainingssatz und einen Testsatz unterteilt. Die Daten aus dem Trainingssatz werden verwendet, um ein Modell zu erstellen, bei dem der Algorithmus die gleiche Entscheidung trifft wie unser Analyst. Während des Prozesses können Sie Feature Engineering verwenden, um gemeinsame Merkmale zwischen verworfenen Erkennungen zu identifizieren. Dadurch wird die Vorhersagekraft von Algorithmen für maschinelles Lernen erhöht. Das Modell muss dann anhand der Testmenge bewertet werden. Diese Bewertung wird so gründlich wie möglich durchgeführt, um böse Überraschungen bei der Verallgemeinerung auf die Produktion zu vermeiden. Data Scientists transformieren das Modell iterativ, bis es mit den Trainings- und Testdaten gut abschneidet. Am Ende des Prozesses ist der Algorithmus in der Lage, echte Datenlecks in den Milliarden von Daten zu erkennen, die täglich im Internet ausgetauscht werden. Es ist, als würde man automatisch Nadeln im Heuhaufen finden.

Maschinelles Lernen, der Weg des CybelAngels

Wenn unsere Scan-Tools ein öffentlich zugängliches, mit dem Internet verbundenes Gerät entdecken, das mit dem Schlüsselwort eines Kunden übereinstimmt, erstellen sie eine so genannte Erkennung. In den meisten Fällen handelt es sich bei einer Erkennung um einen echten Negativbefund, d. h. das Gerät ist für unseren Kunden nicht relevant. Wir verwenden alle Erkennungen, sogar die echten Negativmeldungen, um unsere Modelle für maschinelles Lernen zu erstellen und zu trainieren. Im Laufe der Zeit hat unser einzigartiger historischer Datensatz 5.000 Milliarden Datensätze erreicht. Erfahren Sie mehr über unser Content Scoring Machine Learning Modell Je größer der Datensatz ist, desto genauer sind die Vorhersagen und desto robuster ist das Modell. Die einzigartige Größe unseres Datensatzes ermöglicht es uns auch, vielseitig zu sein: Wir können Unterdatensätze für bestimmte Trainingssequenzen auf der Grundlage von Anwendungsfällen wie dem Ursprung des Lecks anpassen und sehr präzise Modelle erstellen. Die Trainingsdaten sind repräsentativ für alle unsere Kunden, Anwendungsfälle und Alarmtypen, die im wirklichen Leben vorkommen, so dass der Algorithmus in der Lage ist, beim Auftreten solcher Beispiele zu punkten. Average Daily Data Leaks Detection Counts Jeden Tag werden nur 70 von einer Milliarde Erkennungen an unser Analystenteam zur weiteren Untersuchung weitergeleitet. Die meisten Erkennungen, die sich auf einen einzelnen Kunden beziehen, werden innerhalb von Millisekunden als echte Negative verworfen. Das Modell stellt auch sicher, dass echte Positivmeldungen nicht versehentlich aussortiert werden. Wir stellen auch sicher, dass wir die Machine Learning-Modelle immer wieder neu trainieren. Maschinelles Lernen ist nur so leistungsfähig wie seine Vorhersagekraft, sowohl zu einem bestimmten Zeitpunkt als auch auf lange Sicht. Da es bei Algorithmen keine "Einheitsgröße" gibt, müssen Datenwissenschaftler die Modelle an die Besonderheiten jedes neuen Kunden und jedes neuen Anwendungsfalls anpassen. Wenn CybelAngel seine Scan- und Erkennungskapazitäten auf neue Quellen ausweitet, müssen unsere Modelle für maschinelles Lernen entsprechend umgeschult werden:

  • Die Entwicklung der Warnmeldung mit der Art der zuletzt gefundenen Dateien (Größe, Pfade, Erweiterungen, Inhalt);
  • Die Synergie zwischen den verschiedenen maschinellen Lernmodellen in der Pipeline.

Cybersicherheit ohne maschinelles Lernen ist heute einfach nicht mehr vorstellbar. Auf diese Weise erreichen Sie sowohl Vollständigkeit als auch Handlungsfähigkeit.  

Über den Autor