data mining: concepts et techniques
DESCRIPTION
Data Mining: Concepts et Techniques. Plan du Cours. Introduction Règles d’association Classification et prédiction Regroupement (Clustering) Extraction de types complexes Applications du Datamining et tendances actuelles (génomique). Chapitre 1. Introduction. - PowerPoint PPT PresentationTRANSCRIPT
1
Data Mining: Concepts et Techniques
2
Plan du Cours
Introduction Règles d’association Classification et prédiction Regroupement (Clustering) Extraction de types complexes Applications du Datamining et tendances actuelles
(génomique)
3
Chapitre 1. Introduction
Motivation: Pourquoi le Data mining?
Ce qu’est le Data mining?
Data Mining: Sur quels types de données?
Fonctionnalités du Data mining
Intérêt des motifs (patterns)
Classification des systèmes de Data mining
Problèmes rencontrés
4
Motivation: Le besoin crée l’invention
Problème de l’explosion de données
Les outils automatiques de collecte de données font que
les Bases de Données (BD’s) contiennent énormément de
données (Ex: La base de données des transactions d’un
super marché)
Beaucoup de données mais peu de connaissances !
Solution: Data warehousing et data mining
Data warehousing et OLAP (On Line Analytical Processing)
Extraction de connaissances intéressantes (règles,
régularités, patterns, contraintes) à partir de données
5
Evolution des Bases de Données
1960s: Collecte des données, création des BD’s, IMS et le modèle
réseau
1970s: Modèle et SGBD’s relationnels, SQL, transactions, OLTP
1980s: Modèles de données et SGBD’s avancés (relationnel étendu,
OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique, engineering, etc.)
1990s—2000s: Data mining et data warehousing, BD’s multimédia, BD’s sur
le WEB
6
Ce qu’est le Data Mining
Data mining : Extraction d’informations intéressantes (non
triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données.
Autres appellations: ECD (Extraction de Connaissances à partir de
Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business
intelligence, fouille de données, etc …
7
Pourquoi faire ? Applications potentielles
Analyse de données et aide à la décision Analyse de marché
Marketing ciblé, gestion des relations client, analyse des achats des clients, ventes croisées, segmentation du marché
Analyse de risque Détection de fraudes
Autres Applications Text mining : news groups, emails, documents Web. Optimisation des requêtes
8
Analyse de marché et management (1)
Les sources de données à analyser ? Transactions avec carte de crédit, carte de fidélité,
sondages
Marketing ciblé Trouver un « modèle » pour regrouper les clients
partageant les mêmes caractéristiques. Pour chaque groupe, adopter une démarche marketing particulière
Analyse croisée Associations/co-relations entre ventes de produits Prédiction basée sur ces associations
9
Applications L’analyse d’une BD de transactions d’un
supermarché permet d’étudier le comportement des clients :
réorganiser les rayons Ajuster les promotions
En VPC, regrouper les clients selon certains critères : Cibler les « mailings »
L’analyse de données médicales : Support pour la recherche
L’analyse de données financières : Prédire l’évolution des actions Organismes de crédit (dresser des profils de clients)
10
Applications
Détection de fraudes en santé, services de cartes de crédit,
télécommunications, etc. Approche
Utiliser les données historiques pour construire des modèles de comportements frauduleux puis utiliser les techniques de datamining pour retrouver des instances similaires
Exemples Assurances auto: détecter les personnes qui
collectionnent les accidents et les remboursements Blanchiment d’argent: détecter les transactions
suspectes (US Treasury's Financial Crimes Enforcement Network)
11
Applications
Astronomie Le laboratoire JPL a découvert 22 quasars en
utilisant les techniques de datamining
Web IBM a appliqué des algorithmes de data mining
pour réorganiser leurs sites WEB afin de faciliter la navigation.
Améliorer le WEB marketing
12
Datamining: Un processus dans l’ECD
Data mining: étape clé dans l’extraction de connaissances
Nettoyage de données
Intégration
Bases de données ou fichiers
Data Warehouse
Données intéressantes
Sélection
Data Mining
Evaluation de patterns
13
Etapes du processus d’ECD
Comprendre le domaine d’application Création d’un ensemble de données (sélection) Nettoyage et pré-traitement des données (peut prendre
60% de l’effort) Choix des fonctionnalités du data mining
classification, consolidation, régression, association, clustering.
Choix de(s) l’algorithme(s) d’extraction Datamining: Recherche des motifs (patterns) intéressants Evaluation des Patterns et présentation
visualisation, transformation, suppression des patterns redondants, etc.
Utilisation de la connaissance extraite
14
Architecture typique d’un système de Data mining
Data Warehouse
Nettoyage & intégration Filtrage
BD’s
BD ou Datawarehouse
Module Data mining
Evaluation des motifs
Interface graphique
Base de connaissances
15
Datamining: sur quels types de données
BD’s relationnelles Data warehouses BD’s transactionnelles BD’s avancées
BD’s objet et objet-relationnelles BD’s spatiales Séries temporelles BD’s Textes et multimedia BD’s Hétérogènes WWW
16
Fonctionnalités du Data Mining
On distingue deux grandes familles de
tâches réalisées en datamining Description : consiste à trouver les
caractéristiques générales relatives aux
données fouillées
Prédiction : consiste à faire de l’inférence à
partir des données actuelles pour prédire des
évolutions futures
17
Quels types de motifs extraire ? (1)
Description de concepts: Caractérisation et
discrimination Caractérisation : Il s’agit de trouver des
descriptions concises et précises de certains
concepts. Ex: On a une table décrivant les clients
d’une entreprise.
Contraster (régions sèches vs humides)
18
Association (corrélation et causalité) age(X, “20..29”) & revenu(X, “200..300KF”)
achète(X, “PC”) [support = 2%, confiance =
60%]
contient(T, “ordinateur”) contient(T, “logiciel”)
[1%, 75%]
Quels types de motifs extraire ? (2)
19
Classification et Prédiction Trouver des modèles (fonctions) qui décrivent et
distinguent des concepts pour de futures prédictions Ex : classifier les pays en se basant sur leurs climats, les
voitures selon leurs carburants Présentation: Arbres de décision, règles de classification,
réseaux neuronaux Prédiction: Prédire des valeurs inconnues Démarche:
On prend un échantillon (jeu d’essai) dans lequel chaque objet est associé à une classe
Analyser chaque classe (son contenu) pour pouvoir ensuite affecter chaque objet nouveau à une classe particulière
Quels types de motifs extraire ? (3)
20
Analyse de groupes (clusters) Appelée aussi classification non supervisée Le regroupement est basé sur le principe:
maximiser la similarité intra-groupe et la minimiser entre groupes distincts
Le nom de chaque groupe est inconnu
Quels types de motifs extraire ? (4)
21
Analyse d’exceptions Les objets non conformes à la tendance générale
Une exception peut être considérée comme du bruit
mais aussi comme indice de fraude
Analyse de tendances Tendance et déviation: analyse de régression
Extraction de séquences séquentiels, analyse
de périodicités
Quels types de motifs extraire ? (5)
22
Est-ce que tous les motifs découverts sont utiles?
Un système de data mining peut générer des milliers de motifs
pas tous intéressants. C’est quoi un motif intéressant ?
Mesure d’intérêt : Un motif est intéressant s’il est facilement
compréhensible, a un degré de certitude, nouveau, peut servir
à valider (ou invalider) une hypothèse utilisateur
Mesure Objective vs. Subjective :
Objective: basée sur des mesures statistiques : support,
confiance, etc.
Subjective: basée sur le point de vue de l’utilisateur sur les
données, ex: le fait que cela soit inattendu, nouveauté,
actionnabilité, etc.
23
Peut-on trouver tous et que les motifs intéressants?
Trouver tous les patterns intéressants: Complétude
Association vs. classification vs. regroupement
Trouver que les patterns intéressants: Optimisation
Approches D’abord les trouver tous puis filtrer Ne générer que les motifs intéressants
24
Data Mining: Confluence de plusieurs Disciplines
Data Mining
Technologie BD Statistique
AutresDisciplines
Théorie de l’information
Apprentissage Visualisation
25
Classification des systèmes (1)
Fonctionnalité générale Data mining descriptif
Data mining prédictif
Différentes vues, différentes classifications Types de BD’s à fouiller
Types de connaissances à découvrir
Types de techniques utilisées
Application ciblée
26
Classification des systèmes (2) BD fouillée
Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active, spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc.
Connaissance recherchée Association, classification, clustering, tendance, analyse
de déviation, etc. Multiples fonctions aux différents niveaux
Techniques utilisées BD, data warehouse (OLAP), apprentissage, statistiques,
visualisation, réseaux de neurones, etc. Applications
télécommunication, banque, analyse de fraude, ADN, finance, Web, …
27
Problématiques Méthodologie et interaction
Différents types de connaissances à extraire Prise en compte des connaissances des experts Langages de requête et data mining ad-hoc Expression et visualisation des résultats Prise en compte des données incomplètes ou avec bruit Évaluation des motifs: notion d’intérêt
Performance et mise en échelle Efficacité des algorithmes Méthodes Parallèles, distribuées et incrémentales
Diversité des types de données Relationnels, objets complexes, texte, …
28
Résumé
Data mining: Découverte de motifs intéressants à partir de grandes quantités de données
Une évolution naturelle de la technologie des SGBD, très demandée par diverses applications
Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection, transformation, data mining, évaluation des patterns, présentation de la connaissance
La fouille peut se faire sur différents types d’entrepôts de données
Fonctionnalités: discrimination, association, classification, clustering, analyse de tendances, etc.
Classification de SDM Problématiques du data mining
29
Quelques systèmes Intelligent miner d’IBM (couplé avec le SGBD
DB2) Classification, association, régression, analyse de
séquences, regroupement Entreprise miner de SAS
Multiples outils d’analyse statistique, classification, …
Mine set de Silicon graphics. Classification, association et divers outils
statistiques. Très puissant en terme de visualisation Clémentine de SPSS
En plus des fonctionnalités classiques, l’utilisateur peut y rajouter ses propres algorithmes
DBMiner de DBMiner technologie. Il se distingue par le fait qu’il incorpore les
fonctionnalités d’OLAP
30
Bibliographie
Titre: Datamining : Concepts and techniques.
Auteurs : Jiawei Han & Micheline Kamber
Editeur : Morgan Kaufmann 2000