Innovatives maschinelles Lernmodell zur Aufdeckung von Datenlecks

Machine Learning for Data Leak Detection

CybelAngel ist in der Lage, eine Reihe sensibler Entwürfe inmitten der Tausenden von Milliarden von Dokumenten, die im Internet verfügbar sind, aufzuspüren. Haben Sie sich schon einmal gefragt, wie wir das machen können? Lassen Sie uns Ihnen vorstellen das neueste Modell für maschinelles Lernen zur Erkennung von Datenlecks: Content Scoring. Wir kombinieren modernstes maschinelles Lernen mit menschlichem Fachwissen. Cyber-Analysten sind zwar durch nichts zu ersetzen, aber die Technologie kann helfen, das Rauschen zu verringern, die Erkennung echter Bedrohungen zu beschleunigen und das Leck in einen Kontext zu stellen, um die Untersuchung zu erleichtern. Während CybelAngel neue Erkennungskapazitäten auf Dateiservern einsetzt, haben wir unsere Algorithmen für maschinelles Lernen, die zur Filterung und Kontextualisierung verwendet werden, drastisch verbessert. Unterm Strich können unsere Kunden schneller auf die kritischsten Lecks reagieren, die ihr Unternehmen bedrohen.

Wie CybelAngel maschinelles Lernen zur Erkennung von Datenlecks einsetzt 

Bevor sie auf der Website eines Kunden erscheinen CybelAngel DRPS-Plattform In Form eines Vorfallsberichts hat ein auf einem offenen Server entdecktes Dokument einen Trichter durchlaufen:   Bei CybelAngel wird das maschinelle Lernen für zwei Hauptziele eingesetzt. Das erste Ziel besteht darin, anhand von Metadaten wie den Dateipfaden automatisch zu erkennen, wie schwerwiegend die Gefahr ist, dass ein offener Server Dokumente ausspäht. Auf diese Weise kann CybelAngel das gesamte Web schnell und effizient scannen. Unsere Algorithmen für maschinelles Lernen, die auf realen, umfangreichen Datensätzen trainiert wurden, bestimmen die Wahrscheinlichkeit, dass der Server kritisch ist. Liegt diese Wahrscheinlichkeit über einem bestimmten Schwellenwert, wird der Server zur Analyse an Cybersicherheitsexperten weitergeleitet. Das zweite Ziel des maschinellen Lernens besteht darin, relevante Inhalte in den Dokumenten zu erkennen. Es analysiert den semantischen Kontext um die übereinstimmenden Schlüsselwörter, um sicherzustellen, dass die Informationen wirklich von unseren Kunden stammen.  Der Sinn des maschinellen Lernens besteht darin, Tausende von Übereinstimmungen in Dutzende von Warnmeldungen umzuwandeln, bevor sie zur weiteren Untersuchung an Cyber-Analysten weitergeleitet werden können. Um dies zu erreichen, erstellen, trainieren und nutzen wir Modelle für maschinelles Lernen wie z. B. Content Scoring.

Über die Inhaltliche Bewertung Modell für maschinelles Lernen

Inhaltliche Bewertung ist ein proprietäres Modell für maschinelles Lernen, das den Inhalt erkannter Dokumente auf offenen Dateiservern untersucht, um zu entscheiden, ob sie eine echte Bedrohung darstellen. Wenn dies der Fall ist, wird der Warnung anhand der unten erläuterten Kriterien eine Punktzahl zugewiesen.  Inhaltliche Bewertung arbeitet in Kombination mit anderen Modellen in der Pipeline für maschinelles Lernen und fügt eine zusätzliche Ebene der Filterung und Kontextualisierung hinzu. Umsetzung von Inhaltliche Bewertung hat uns das ermöglicht:

  • Reduzieren Sie den Lärm um 30% für Analysten;
  • Schicken Sie kritische Warnungen zur Untersuchung vor anderen;
  • Sicherstellen, dass es keine Fehlalarme gibt;
  • Vermeiden Sie falsch negative Ergebnisse.

Lesen Sie auch: CISOs: Machen Sie 2020 zu dem Jahr, in dem Sie sich auf Cyber-Risiken Dritter konzentrieren

Wie funktioniert die Inhaltliche Bewertung Modell für maschinelles Lernen arbeiten?

Die Inhaltliche Bewertung Das Modell des maschinellen Lernens erhält Input von zwei anderen Algorithmen, die direkt mit dem Dateikontext arbeiten, um sowohl die Dateikategorie als auch die Dateiempfindlichkeit zu bestimmen. Wie andere Machine-Learning-Modelle besteht es aus:

  • Ein Klassifikatordie darauf abzielt, den Inhalt der Warnmeldung zu lesen, wie es ein Mensch tun würde. Er prognostiziert die Kritikalität einer Erkennung auf der Grundlage dessen, was er in den Dateien findet. Der Klassifikator bewertet die Erkennung auf einer Skala von 1 bis 100.
  • Eine Schwelle, die verwendet wird, um Entscheidungen auf der Grundlage der vom Klassifikator erzielten Punktzahl zu treffen.

Unter einem bestimmten Schwellenwert wird die Meldung verworfen. Sie wird nie den Analysten-Feed zur Untersuchung erreichen.  Hier ein Beispiel dafür, was in der Pipeline für maschinelles Lernen an einem durchschnittlichen Tag und für einen durchschnittlichen Kunden passiert:

  • 400 Warnungen für freigegebene Dokumente auf offenen Servern gelangen in die Pipeline für maschinelles Lernen;
  • 100 von diesen 400 werden von der Kommission analysiert. Inhaltliche Bewertung Modell, nach 75% des ursprünglichen Feeds verworfen werden, weil die Metadaten der Dateien nicht relevant sind. 
  • Nur 70 Warnungen werden schließlich an Analysten zur Untersuchung weitergeleitet.

Dieser gesamte Prozess dauert nur wenige Minuten. In einer Welt, in der jede Sekunde zählt, verschafft unser robustes Machine Learning-Modell den Kunden einen Vorsprung bei der Sicherung unwissentlich gefährdeter Vermögenswerte.