La cybersécurité sans machine learning ? Pensez-y encore.

Data Leaks: Still Doing Cybersecurity Without Machine Learning? Think Again.

Lorsqu'il s'agit d'une fuite de données sensibles, le temps est un facteur essentiel. Il ne faut pas longtemps pour qu'une fuite se transforme en violation de données. Il y a quelques semaines, l'équipe de recherche en sécurité de Comparitech a mis en place un pot de miel simulant une base de données sur une instance ElasticSearch, et y a placé de fausses données d'utilisateur. La première attaque a eu lieu moins de 9 heures après le déploiement. (Source : Les bases de données non sécurisées sont attaquées 18 fois par jour par des pirates informatiques, Comparitech) Pour battre les attaquants, vous pouvez soit vous battre à armes égales et utiliser un moteur de recherche de l'internet des objets comme Shodan.io ou BinaryEdge, en combinant des recherches manuelles aléatoires et des scripts Python. Ou bien vous utilisez l'apprentissage automatique. Selon Ponemon, le plus grand avantage de l'apprentissage automatique est l'augmentation de la vitesse d'analyse des menaces. Parce qu'il réduit le temps de réponse aux cyber-exploits, les organisations peuvent potentiellement économiser en moyenne plus de $2,5 millions de dollars en coûts d'exploitation. (Source : The Value of Artificial Intelligence in Cybersecurity, Ponemon/IBM Security : La valeur de l'intelligence artificielle dans la cybersécurité, Ponemon/IBM Security)

Avantages des modèles d'apprentissage automatique

Lorsque chaque seconde compte, les modèles d'apprentissage automatique vous donnent une longueur d'avance dans la course critique contre les acteurs malveillants. C'est pourquoi notre équipe Data Science crée des modèles prédictifs qui accélèrent le processus de triage des premières alertes. En un clin d'œil, des milliards de détections sont automatiquement éliminées avant d'atteindre la plateforme d'investigation de notre cyber-analyste. Voici comment l'apprentissage automatique entre en jeu. Prevent Data Leaks Before They Become Major Breaches

Construire des modèles d'apprentissage automatique pour Data Leak Detection

Grâce à l'optimisation itérative, les Data Scientists construisent des fonctions mathématiques qui permettront aux algorithmes de se comporter comme le ferait un cyber-analyste et de prendre la même décision que l'humain lorsqu'il est confronté au même problème. La construction d'un modèle d'apprentissage automatique commence par la collecte de données sur :

  • Les informations que le modèle devra comprendre (c'est-à-dire les données d'entrée)
  • La décision que le modèle devra prédire (alias la sortie)
  • La décision correcte qu'un être humain aurait prise (c'est-à-dire la cible)

Plus vous disposez de données, plus l'analyse est précise. Modèle d'apprentissage automatique sera. Une fois les données collectées, elles sont séparées en un ensemble de formation et un ensemble de test. Les données de l'ensemble d'apprentissage sont utilisées pour créer un modèle dans lequel l'algorithme prend la même décision que notre analyste. Au cours du processus, vous pouvez utiliser l'ingénierie des caractéristiques pour identifier les caractéristiques communes entre les détections rejetées. Cela augmente le pouvoir prédictif des algorithmes d'apprentissage automatique. Le modèle doit ensuite être évalué sur l'ensemble de tests. Cette évaluation est réalisée de la manière la plus complète possible afin d'éviter les mauvaises surprises lors de la généralisation à la production. Les Data Scientists transforment itérativement le modèle jusqu'à ce qu'il soit performant par rapport aux données d'entraînement et de test. À la fin du processus, l'algorithme est capable de détecter de véritables fuites de données parmi les milliards de données partagées chaque jour sur l'internet. C'est comme trouver automatiquement des aiguilles dans une botte de foin.

L'apprentissage automatique, à la manière d'un CybelAngel

Lorsque nos outils d'analyse détectent un appareil connecté à l'internet et accessible au public correspondant au mot-clé d'un client, ils créent ce que nous appelons une détection. La plupart du temps, une détection est un vrai négatif : par exemple, l'actif ne concerne pas notre client. Nous utilisons toutes les détections, même les vraies négatives, pour créer et entraîner nos modèles d'apprentissage automatique. Au fil du temps, notre ensemble unique de données historiques a atteint 5 000 milliards d'enregistrements. En savoir plus sur notre modèle d'apprentissage automatique de l'évaluation du contenu (Content Scoring Machine Learning) Plus l'ensemble de données est important, plus les prédictions sont précises et plus le modèle est robuste. La taille unique de notre ensemble de données nous permet également d'être polyvalents : nous pouvons personnaliser des sous-ensembles de données pour des séquences d'entraînement spécifiques, sur la base de cas d'utilisation tels que l'origine de la fuite, et construire des modèles très précis. Les données d'entraînement sont représentatives de tous nos clients, cas d'utilisation et types d'alertes rencontrés dans la vie réelle, de sorte que l'algorithme sera prêt à marquer des points lorsque de tels exemples apparaîtront. Average Daily Data Leaks Detection Counts Chaque jour, seules 70 détections sur un milliard sont transmises à notre équipe d'analystes pour un examen plus approfondi. La plupart des détections liées à un seul client sont éliminées en quelques millisecondes, car il s'agit de vrais négatifs. Le modèle veille également à ce que les vrais positifs ne soient pas écartés par erreur. Nous veillons également à recycler en permanence les modèles d'apprentissage automatique. La puissance de l'apprentissage automatique dépend de son efficacité prédictive, à la fois à un moment donné et à long terme. Comme il n'y a pas de modèle unique pour les algorithmes, les scientifiques des données doivent adapter les modèles aux spécificités de chaque nouveau client et de chaque nouveau cas d'utilisation. Au fur et à mesure que CybelAngel étend ses capacités de balayage et de détection à de nouvelles sources, nos modèles d'apprentissage automatique doivent être réajustés en conséquence :

  • L'évolution du flux d'alerte avec la nature des derniers fichiers détectés (taille, chemins, extensions, contenu) ;
  • La synergie entre les différents modèles d'apprentissage automatique dans le pipeline.

La cybersécurité sans apprentissage automatique n'est tout simplement pas envisageable aujourd'hui. C'est ainsi que l'on parvient à la fois à l'exhaustivité et à l'actionnabilité.