L’IA et la sécurité numériqueMythe et réalité
1
Agenda
2
• Quelques définitions
• Un peu d’histoire
• La création d’un modèle de Machine Learning
• L’intelligence artificielle appliquée à la reconnaissance d’images
• L’intelligence artificielle appliquée à la cyber sécurité
Quelques définitions
3
5
ARTIFICIAL INTELLIGENCE
MACHINE LEARNING
K-MEANS HIDDENMARKOV
NEARESTNEIGHBOR
CLUSTERING, STATISTICAL
DISTRIBUTION
DEEPLEARNING DECISION
TREES
6
K-MEANS HIDDENMARKOV
NEARESTNEIGHBOR
CLUSTERING, STATISTICAL
DISTRIBUTION
DEEPLEARNING DECISION
TREES
SUPERVISÉ NON SUPERVISÉ
Apprentissage supervisé et non supervisé
7
• Dans le cas de l’apprentissage supervisé, la robustesse de l’algorithme dépendra de la précision de son entrainement. Un algorithme apprenant des contenus supervisés produit une carte interne qui permet sa réutilisation pour classifier de nouvelles quantités de données.
Machine Learning vs. Deep Learning
9
DEE
P L
EAR
NIN
G
Couche de neurones interconnectés, Chacun identifiant des caractéristiques plus complexes
ENTREE SORTIE
SORTIE
MA
CH
INE
LEA
RN
ING
Arbre de décision
ENTREE
Random Forest
SORTIEENTREE
Un peu d’histoire
11
Au début c’était simple
Anti-Virus à base de signatureo Pouvait détecter chacune des menaceso Les malwares étaient des exécutables et des
choses comme des documents ou des scriptso Le checksum d’un malware était de 1 pour 1o Le ‘String Scanning’ était la façon de faire
Nouveau malware o Vulnérable tant qu’une mise à jour n’était pas
publiée par les éditeurs d’antivirus
Faux positiveo Les antivirus globalement ne confondaient pas
les bons fichiers avec les mauvais
“Fin 2001, environ 60 000 formes de malwares ou menaces étaient connus”Microsoft – ‘The evolution of malware and the threat landscape – a 10 year review’ Feb 2012
Circa - 200160,000
Today600,000,000
Total malware
Circa – 19921,500
Mais le problème a commencé à se compliquer
1995 – Les éditeurs d’antivirus pouvaient détecter chaque variante de malwares grâce aux checksums
o Avec la forte augmentation du volume de menaces, les éditeurs d’antivirus ont commencé à utiliser le « string scanning » pour détecter les composants de malwares connus
o Les malwares polymorphiques ont rendu la modification d’une signature triviale et automatique et le volume de malwares a explosé
o Les antivirus ont répondu en construisant des règles d’heuristiques
o Les auteurs de malwares ont répondu en chiffrant les charges exécutables
o Les antivirus ont donc répondu avec des émulateurs et des détections de données chiffrées
2005 – Les éditeurs d’antivirus avec juste un « checksummer » AV sont morts
Les arbres de décisions et les heuristiques ont créés un problème
o Faux négatifs – Certains malwares ne sont pas détectés
o Faux positifs – Certains fichiers légitimes sont détectés comme malicieux
Seen on 100 network workstations
Has suspiciousheaders
Has suspicious headers
MaliciousLegitimate
NO
NO
YES
YES NO YES
Legitimate Is digitally signed
NO YES
Contains Encrypted Data
Contains Encrypted Data
MaliciousLegitimate
NO YES
MaliciousLegitimate
NO YES
“ Signature-based scanning only detects
known malware”Symantec– ‘Heuristic Techniques in AV Solutions: An overview’ Feb 2002
“ The virus problem will be with us forever”
Dr Alan Soloman – ‘Computer Virus History 1‘ 2002
L’émergence du machine learning pour améliorer les heuristiques
Si un nouveau malware bypasse une détection heuristiques, ajouter simplement une nouvelle règle
o Les règles heuristiques sont devenues rapidement complexes et lentes
o Beaucoup de mises à jour pour la redéfinition des règles
En 2011 le premier machine learning est prometteur
o Ceci permettait de tuner les règles et de construire des évaluations statistiques complexes, Naive Bayesian, K-Nearest Neighbor…
o Ceci restait relativement simpliste et nécessitait des hommes pour identifier ce qui devait être mesuré
Sélectionner le classificateur était critiqueo Quel classificateur va-t-on utiliser?o Quels types d’attributs va-t-on utiliser ?
A single malware family was responsible for 80% of all attack sessions during Oct 2014”Palo Alto – ‘Kolous, Asprox malware family accounts for 80% of attacks’ Dec 2015
Machine learning model evaluation (Nearest Neighbour)
Source – ‘Analysis of Machine Learning techniques used in behavior-based malware detection’ 2009
Mais le taux de faux positifs était catastrophique…
Se focaliser sur l’efficacité est essentielIl n’y a pas de remède magique
o Aucune méthode de détection ne va détecter chaque pièce d’un malware
o Les malwares non détectés sont des faux négatifs
Le logiciels légitimes ne doivent pas être détectés comme des malwares
o Quand un logiciel légitime a été détecté comme un malware, c’est un faux positif
Le machine learning nétait pas encore prêt
Vrai positifVrai malware détecté
Faux négatifMalware non détecté
Faux positifLogiciels légitimes qui ont
été détecté comme un malware
Vrai négatifLogiciels légitimes qui ont
été détecté comme correct
Malware Legitimate software
94.3%
5.7%
8.1%
91.2%
Current machine learning models from both traditional and ‘next generation’ anti-malware
companies are still primarily focused on improving legacy heuristic models / decision trees
Les réseaux neuronaux et le Deep Learning
Le Deep learning n’utiliee pas d’heuristiques / arbres de décisionso Le Deep learning automatise le processus d’identification
Le Deep learning s’adapte intrinsèquement au volume énorme de données
o Des centaines de millions d’échantillons de malwares utilisés pour l’apprentissage
o Ajouts d’environ 400K par jour
o Les pré requis mémoire restent constants
Le Legacy machine learning basé sur l’optimisation d’arbres de décision ne peut simplement pas s’adapter
o Chaque nouvelle branche (toujours plus nombreuses) augmente la taille et influe sur les coûts d’évaluation plus importants avec une précision minimale améliorée
Deep learning vs legacy machine learningo Plus rapide
o Plus petit
o Plus précis
Deep learning neural networks – ‘A quantum leap over traditional machine learning’Invencia , Josh Saxe – ‘A quantum leap over traditional machine learning’ June 2017
Machine learning model evaluation (Deep learning)
Source – Sophos Labs testing of new executable malware, 2017
True positiveReal malware detected
False negativeUndetected Malware
False positiveLegitimate software that is detected as malware
True negativeLegitimate software that
is detected as good
Malware Legitimate software
>99%
<1%
<1%
>99%
Tout repose sur un modèle de Machine Learning
17
Produire un modèle…
18
…c’est comme essayer de trouver la recette pour la brioche parfaite
1. Trouver LA recette (Data Preparation)
19
A qui allez-vous demander la recette ?
2. Réunir les bons ingrédients (Data Preparation)
20
Vous préférez lesquels ?
3. Mesurer les ingrédients (Feature selection and learning)
21
Exactitude versus précision
4. Mélanger les ingrédients (Model Selection)
22
5. Entraîner le modèle (Cuire la brioche)
23
6. Evaluation du modèle (Créer votre carte d’évaluation)
24
7. Evaluation du modèle (Tester la brioche !)
25
Applications à la reconnaissance d’images
26
Comment ca fonctionne ?
27
CARACTERISTIQUES
CouleurFormeTaillePoids
PREDICTIONS
LEARNER
REPONSES
MODELE EN PRODUCTIONPREDICTION Fruit
ENTREES
ENTRAINERLE MODELE
TYPES
Légumes
Fruit
Chien ou muffin ?
28”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition
Chien ou bagel ?
29”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition
Chien ou serpillère?
30”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition
Chien ou cuisse de poulet pané ?
31”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition
Chien ou croissant ?
32”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition
Applications à la cybersécurité
33
Comment ca fonctionne ?
34
CARACTERISTIQUES
VendeurOrigineTailleHash
PREDICTIONS
LEARNER
REPONSES
MODELE EN PRODUCTIONPREDICTION
ENTREES
ENTRAINERLE MODELE
TYPES
Exécutable
Malware
Plus il y a d’échantillons et d’attributs utilisés pour entraîner le modèle, meilleure est la prédiction. Malheureusement, le Machine Learning traditionnel est limité dans les nombres qu’il peut efficacement traiter.
Pourquoi le Deep Learning ?
Apprend automatiquement à optimiser les caractéristiquesAUTOMATISATION
ECHELLE
EFFICACITE
Caractéristiques extraites manuellement des données cibles
Difficulté à atteindre les 10 millions
Nécessite des tailles de modèles énormes Tailles des modèles très compressées
Peut atteindre allègrement les 100 millions
MACHINE LEARNING
Taille : 1m80Poids : 75 kgCheveux : ChâtainYeux : MarronsAge : 32Droitier…
Meilleure Protection
Meilleure Performance
MeilleurePrécision
DEEP LEARNING
Tout n’est pas malware ET vous n’en voulez toujours pas
• Applications Potentiellement Indésirables (PUAs) o Spyware
o Adware
o Pskill…
• Le Deep Learning classifie les logiciels comme étant malicieux, PUA ou légitimes
• Savoir que ce n’est pas un malware mais que ce n’est quand même pas voulu permet à l’administrateur de prendre des décisions plus rapidemento Personne ne veut autoriser des malwares
o Mais certains administrateurs auront besoin d’autoriser certains PUAs
Classification Deep Learning
Malware
Logiciels légitimes
Applications potentiellement indésirables
Deep Learning augmenté
Suppression des faux positifso Live Protect – Contrôles de la suppression des FP à l’exécution
o Mise à jour des règles de suppression- Encapsules les règles de suppression des faux positifs dans des mises à
jour de petite taille disponibles sur l’endpoint
o Gestion par l’administrateur- Les administrateurs peuvent supprimer une détection sur un logiciel
connu légitime par hash, nom du fichier, chemin et certificat- Les méta données des fichiers sont envoyés aux laboratoires pour
améliorer le moteur de Deep Learning dans le temps
Pourquoi la gestion des faux positifs est-elle si importante ? o Permet un déploiement immédiat sans période d’apprentissageo Permet l’utilisation d’un modèle de détection plus agressif
(Moins de faux négatifs) o Fait baisser considérablement le taux de faux positifs du modèleo Il en résulte des mises à jour moins fréquentes du modèle Deep
Learning dans le temps
Deep Learning augmenté
Malware
Logiciels légitimes
PUA
Exclure les applications légitimes connues par les laboratoires
Exclure les applications autorisées par l’administrateur
Quarantaine
En conclusion
38
En conclusion
39
• Le Deep Learning est une fonctionnalité importante pour la lutte contre les menaces avancées
• Il est rapide, léger et performant
• Mais il ne doit pas être le seul composant de votre sécurité
• N’oubliez pas les fondamentaux comme l’antivirus traditionnel et tout élément qui vous permettra de réduire la surface d’attaque
Merci
40