Maschinelles Lernen ermöglicht die Erkennung von Datenlecks

4 min lesen - August 4, 2020

Machine Learning Models Power Data Leak Detection

Data Science ist ein entscheidendes Rädchen in CybelAngels Data Leak Detection. Unsere Modelle des maschinellen Lernens schützen Kunden vor Datenschutzverletzungen, indem sie das Fachwissen der CybelAngel-Sicherheitsanalysten ergänzen. Eine rein menschliche Lösung würde extrem lange brauchen, um tatsächliche Datenlecks zu erkennen, da die exponentielle Zunahme der im Internet ausgetauschten Daten zu Fehlalarmen führt. Effiziente Modelle für maschinelles Lernen ermöglichen eine effektive Unterscheidung zwischen echten Fehlalarmen und potenziellen Bedrohungen. Sie reduzieren die Gesamtzahl der Alarme, die Analysten untersuchen müssen. Aber wie trainiert man ein mathematisches Modell so, dass es sich wie ein Mensch verhält - indem man es trainiert und wieder trainiert. Mal sehen, wie wir das machen.

Vorbereitung der Schulungssitzung

Bei CybelAngel erstellen wir Modelle, um die "sicheren" Daten von den "nicht kritischen" Daten unterscheiden zu können. Dabei handelt es sich um eine Klassifizierungsaufgabe, bei der es nur zwei Klassen gibt: die negative Klasse "unkritisch" und die positive Klasse "kritisches Dokument". Bevor wir mit dem eigentlichen Training beginnen, bereiten wir den Datensatz vor. Wir bereinigen ihn, d. h. wir führen eine Deduplizierung und eine Unterauswahl durch, und schon glänzt er! Der Datensatz wird dann in einen Trainings-, einen Test- und einen Validierungs-Teilsatz aufgeteilt, wobei alle notwendigen Prüfungen durchgeführt werden, um eine ähnliche Verteilung zu erreichen. Wir haben auch eine Merkmalsexploration durchgeführt und ausgewählt, welche Merkmale wir verwenden wollen. Nun können wir zur Trainingsphase übergehen, die sich in fünf Schlüsselkomponenten gliedert. Diese Schritte sind nicht sequenziell, Sie können Ihr Modell an jedem beliebigen Punkt des Prozesses optimieren - solange Sie jeden Schritt abschließen.

#1 - Benchmarking-Algorithmen

Der Aufbau eines Modells für maschinelles Lernen beginnt mit der Auswahl der richtigen Algorithmen. Sie können neuronale Netze (NN) verwenden - aber Sie können auch gute Standardmodelle verwenden. Obwohl NN im Trend liegen und oft als die besseren Lerner dargestellt werden, lohnt es sich, sie mit anderen Algorithmen zu vergleichen, z. B. Random Forest Classifiers (RFC), logistische Regression (logreg) oder sogar k-nearest neighbors algorithm (kNN). Bei CybelAngel arbeiten unsere Datenwissenschaftler mit all diesen Algorithmen, um unseren Ansatz an die jeweiligen Datensätze anzupassen. Unser Ziel? Interpretierbarkeit und Robustheit. Das ist sehr wichtig, denn unsere Daten ändern sich von Monat zu Monat!

#2 - Auswahl von Hyperparametern

Die meisten Modelle benötigen Hyperparameter, um die Algorithmen zu vervollständigen. Der Trick bei der Feinabstimmung von Hyperparametern besteht darin, dass es leicht zu einer Überanpassung kommen kann. Ein gutes Beispiel ist die Verwendung eines RFC für eines unserer Modelle. Dieses Modell ist empfindlich gegenüber Überanpassung. Warum? RFC ist eine Ensemble-Methode, die auf Bäumen basiert. Sie müssen entscheiden, wie tief die Bäume gehen dürfen und wie viele Daten ein Blatt enthalten muss. Wenn Sie die Zweige immer weiter aufteilen, bis nur noch wenige Instanzen pro Blatt vorhanden sind, können Sie sicher sein, dass Sie ein Modell erstellen, das nicht in der Lage ist, von unseren Trainingsdaten auf unbekannte Daten zu verallgemeinern. Unser Ziel? Optimale Anpassungsfähigkeit mit Verallgemeinerungsfähigkeit.

#3 - Implementierung der Probengewichtsmethode

Bei CybelAngel ist unser Klassifizierungsziel RisikoerkennungDas bedeutet, dass nicht alle Dokumente die gleiche Bedeutung haben. Während es lästig ist, eine Rechnung in der freien Wildbahn zu haben, könnte es für Ihr Unternehmen verheerend sein, wenn die Baupläne für Ihren Hauptsitz in einem dunklen Forum verkauft werden! Die Klassifizierung von CybelAngel unterscheidet zwischen unproblematischen Risiken und solchen, die Ihrem Unternehmen Schaden zufügen könnten. Wir weisen den Lerninstanzen unterschiedliche Stichprobengewichte zu: Je schwerwiegender die Datenverletzung ist, desto wichtiger ist es für den Algorithmus zu lernen, sie gut zu klassifizieren. Unser Ziel: jeder Art von Daten einen Koeffizienten zuzuweisen, der sich nach ihrem Schweregrad richtet.

#4 - Verwendung von Lernkurven

Es gibt einen ständigen Streit darüber, wie viele Daten genug Daten sind. Wie viele Daten sind ausreichend, um die Qualität und Robustheit des Modells zu gewährleisten? Wir haben Freunde in Lernkurven! Lernkurven stellen die Leistung des Modells für eine bestimmte Metrik in Abhängigkeit von der Größe Ihres Datensatzes dar. Die Leistung auf dem Testsatz nimmt zu, während die Leistung auf dem Trainingssatz abnimmt, was die Verallgemeinerung des Trainings darstellt. Sobald die Leistung im Testdatensatz nicht mehr zunimmt und sich der Leistung im Trainingsdatensatz annähert, war's das! Wir können sagen, dass wir genug Daten haben, um ein allgemeines Modell zu erstellen. Lernkurven geben auch Aufschluss darüber, ob Sie sich in einer Situation der Überanpassung oder der Unteranpassung befinden. Sie zeigen Ihnen, wie gut Sie lernen, d. h. ob Ihr Modell für die Produktion geeignet ist. Bei einer Überanpassung sollten Sie Ihre Hyperparameter erneut feinabstimmen.

#5 - Umlernen von Modellen des maschinellen Lernens

Modelle bleiben nie für lange Zeit auf ihrem Optimum. Die Daten und das Verhalten ändern sich ständig. Online-Lernen ist eine Lösung, um an der Grenze zu sein, um Ihr Modell kohärent zu halten zwischen dem, worauf es trainiert wurde, und dem, was es behandelt. Die Idee ist, Feedback von der Vorhersage des Modells zu erhalten und es daraus lernen zu lassen. Bei CybelAngel arbeitet das Data Science-Team Hand in Hand mit den Cyber-Analysten von CybelAngel. Der letzte Filter ermöglicht die Validierung der Modelle mit menschlichem Fachwissen. Die Cyber-Analysten klassifizieren die Instanzen, während die Data Scientists das Feedback nutzen, um das Modell zu aktualisieren und es scharf zu halten. Auf diese Weise trainieren wir bei CybelAngel Modelle für maschinelles Lernen, um das Verhalten eines Cyber-Analysten zu kopieren, der ein potenzielles Leck untersucht. Aber Modelle des maschinellen Lernens können die menschliche Untersuchung nicht ersetzen. Sie können sie nur verbessern. Durch das Aussortieren von Milliarden echter Negativmeldungen ermöglichen es diese Modelle den Cyber-Analysten, ihre Zeit und ihre Fähigkeiten auf kritische Bedrohungen zu konzentrieren, anstatt auf falsch positive Meldungen. It’s this unique combination of Machine Learning and Human Expertise, that enables CybelAngel to provide comprehensive, scalable, and actionable coverage to our enterprises across the globe.

Über den Autor

Benedicte Matran

Bénédicte Matran ist Marketingleiterin bei CybelAngel, einem Cybersecurity-SaaS-Unternehmen, das sich auf External Attack Surface Management spezialisiert hat. Sie verfügt über mehr als 10 Jahre Erfahrung in der B2B-Marketingleitung in den Bereichen Account-Based Marketing, Growth und Field Marketing. Mit Sitz in Paris ist sie Expertin für Enterprise Go-to-Market-Strategien, Demand Generation und die Skalierung von Marketingfunktionen in schnell wachsenden Technologieumgebungen.

lies alle Artikel

How we took down a QR code scam in 24 hours

Cyber Roundup — Week of July 20