responsabilité sociale des algorithmessi le gain est important et l’attaquant déterminé, la...
TRANSCRIPT
Responsabilité Sociale des Algorithmes : quelques enjeux
LIFO (eq. Sécurité des Données et des Systèmes)Inria PETRUS (Cloud Personnel Sécurisé)
Responsabilité Sociale des Algorithmes : De quoi parle-t-on ?
• Algorithmes d’aide à la décision / de prise de décision– Règles construites par l’humain– Data Mining– IA (Deep Learning)
• Exploitent l’existence de grandes masses de données (personnelles)
Responsabilité Sociale des Algorithmes : quelques enjeux
• Explicabilité des algorithmes• Accountability (Responsabilité)• Vie privée• Contrôle des données• Sécurité des données• Disponibilité des données
Explicabilité
• Vers une décroissance de l’importance de cette caractéristique ?
• Credit Scoring (USA)– Arbres de décision :
permet l’explicabilité demandée par la législation
– Problème de « surexposition » des données
DEFINITION L’explicabilité est le fait qu’unhumain puisse comprendre le raisonnement qui conduit à la prise de décision
Explicabilité
• Techniques classiques permettant d’avoir l’explicabilité– Arbres de décision– Règles de décision– Raisonnement basé sur la logique de description
• Techniques ne permettant pas d’avoir l’explicabilité– Clustering kNN– Deep Learning– ...
Explicabilité
• La plupart des algorithmes cherchent à atteindre la meilleure solution possible d’un problème
• L’explicabilité (le sens?) ne semble plus être un but recherché (e.g. deep learning vs logiques de description)
• L’efficacité des algorithmes va dépendre des jeux de données “Modernity is a deal, the entire contract can be
summarised in a single phrase: humans agree to give up meaning in exchange for power.” Y.N. Harari
Accountability = rendre des comptes
• Admission post bac– Optimisation de l’orientation
des étudiants– Explicabilité, un prérequis ? (transparence d’APB ?)
DEFINITION L’accountability d’un algorithmeest le fait que l’algorithme estresponsable de ses résultats
Accountability
● Véhicule autonome– Amélioration de la sécurité
(à long terme)– Responsabilité en cas d’accident ?
Arguments invoqués : statistique (130m / 1 mort vs 85m / 1 mort)
– Critères pour prendre la décision
(si aucune décision n’est bonne)–
Accountability
• Les systèmes de vote– Possibilité d’implémenter
divers processus (algorithmes) de vote
– Le gagnant va varier selon l’algorithme
Accountability• Au sens « légal »• Qui décide de l’algorithme ? Pour quel
objectif ? – Fairness dans le cas d’APB?
• Comment évaluer ce choix ?– Preuve de l’algorithme– Audit de l’implémentation de l’algorithme– Etude de cas litigieux
• Qui est responsable des résultats / du comportement de l’algorithme ? (e.g. google car)
• Quand modifier l’algorithme / le jeu de données d’entrainement ?• Faut-il rajouter « en dur » certaines contraintes ?
DEFINITION L’accountability d’un algorithmeest le fait que le concepteurd’un algorithme estresponsable de ses résultats
Vie Privée
• Smart grids– Efficacité énergétique (en particulier pour les centrales nucléaires)– Atteintes à la vie privée
Législation
General Data Protection Regulation (EU-GDPR)Définit de nombreux concepts de VP
Traités sur la circulation des données (TAFTA)
ENJEU Utilité vs Vie Privée
Vie Privée
• Sécurité Nationale / Terrorisme (PRISM / Loi sur le renseignement)– Techniques d’apprentissage (e.g.
clustering/classification, deep learning, etc.)– Impossibilité de déceler des signaux faibles (i.e.
dont la fréquence est de l’ordre de grandeur du taux d’erreur)
ENJEU Sécurité vs Vie Privée
Vie Privée
• Publicité ciblée– Finance internet, améliore la qualité de la pub– Très intrusive, exploite des données personnelles
ENJEU Gain financier vs Vie Privée
Vie privée
• Anonymisation– Anonymiser le jeu de données (k-anonymat, l-diversité, differential
privacy)– Puis appliquer les techniques habituelles avec une qualité variable
sur l’utilité• Secure Multiparty Computation
– Privacy-Preserving Data Mining (e.g. Règles d’association: Srikant, Agrawal et al. SIGKDD’02)
– K-means (Jagannathan & Wright, KDD’05)– Naïve Bayes (Vaidya et al. VLDB’08)– Deep Learning / Stochastic Gradient Descent (Shokri & Shmatikov
CCS’15)
Zoom sur : la Minimalité (Anciaux et al. Fund. Inf.’15)
L’explicabilité permet d’appliquer d’autres principes de vie privée e.g. la minimisation des données [GDPR]Classification à base de règles :
Collection rule r1
Atomic rule a12Label l1
Predicate p112
(year_income>$30K assets>$100K ) (collateral>$50K life_insurance=’yes’) higher_loan
“Only a minimum subset of the data required
for any given purpose should be collected”
Minimalité
ER=Λ ( V ( Λ B(pijk) ) )i j kMin (Weighted) SAT
Contrôle des données
De nombreux modèles de contrôle d’accès existent (DAC, MAC, RBAC, ABAC, etc.). Ils permettent au propriétaire d’un objet de définir les accès autorisés sur cet objet.
• Qui est le propriétaire d’une donnée ?• Qui peut définir l’accès à une donnée ?• Faut-il étendre la liste des actions possibles sur
une donnée ? (e.g. Usage control, Park & Sandu, TISSEC’02)
Sécurité des Données
• Assistance médicale / médecine personnalisée– IVM Watson oncology– Exploitation de données de types très variés– Sécurité gérée par le service prov. qui encourage
publication et regroupement de données
Sécurité des Données : Le paradoxe
• Données sensibles → rendre le contrôle à l’utilisateur
• reponsabilité de l’utilisateur de les sécuriser• Les S.P. proposent de les sécuriser• → perte de contrôle au profit de la délégation
Sécurité des Données :Les modèles d’attaque
• Doit-on avoir confiance en l’entité qui exécuté l’algorithme ?– Modèle Honnête mais curieux / Semi-honnête.– « Covert adversary »– Attaquant malicieux (e.g. DoS)
• Comment décourager l’attaquant ?– Coût de l’attaque– Faiblesse du gain– Rétorsion après l’attaque
• Comment régler les litiges après une attaque ?– Tribunal …
Si le gain est important et l’attaquant déterminé, la rétorsion ne suffit pas !
Sécurité des données• Donnée primaire et donnée secondaire
• Private Information Retrieval (Chor et al. JACM’98)• SQL sur des données chiffrées (Hacigumus et al.
SIGMOD’02)• Fully homomorphic crypto
(Gentry STOC’09)• Utilisation de matériel
sécurisé pour le cloud perso (Allard et al. VLDB’12)
SD card
Bluetooth
Fingerprintreader
Smartcard
(data managt)
(secrets)(data)
MCU
USB
Disponibilité des données
• L’open data (la sécurité pour l’INSEE : signature d’une charte)
• Les bases de données propriétaires (e.g. Facebook, google, mais aussi médicale, liste de propriétaires de voitures, etc.)
• Risque de détournement de finalité des données
Bilan
Avantages• Automatisation• Efficacité lorsqu’un taux
d’erreur est accepté• Absence d’arbitraire humain
(?)• Utilisation de techniques
éprouvées (type IA, data mining, etc.)
Risques• Utilisation massive de
données (personnelles)• Opacité pour le néophyte
(i.e. non informaticien)• Perte de contrôle : Absence
d’interlocuteur/opérateur humain capable de reprendre la main
• Pas forcément d’explication• Responsabilité ?
Ces techniques ne peuvent fonctionner que parce qu’il y a de grandes masses de données disponibles !
Préconisations
• Problème pluridisciplinaire– Informatique, droit, sciences humaines
• Problématique importante sur le contrôle– Conception des algos– Implémentation des algos– Propriétaire des données
• Conception d’algos « Privacy by design »
• Hypermnésie vs droit à l’oubli