data mining: concepts et techniques

30
1 Data Mining: Concepts et Techniques

Upload: karleigh-carpenter

Post on 30-Dec-2015

48 views

Category:

Documents


0 download

DESCRIPTION

Data Mining: Concepts et Techniques. Plan du Cours. Introduction Règles d’association Classification et prédiction Regroupement (Clustering) Extraction de types complexes Applications du Datamining et tendances actuelles (génomique). Chapitre 1. Introduction. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Data Mining:  Concepts et Techniques

1

Data Mining: Concepts et Techniques

Page 2: Data Mining:  Concepts et Techniques

2

Plan du Cours

Introduction Règles d’association Classification et prédiction Regroupement (Clustering) Extraction de types complexes Applications du Datamining et tendances actuelles

(génomique)

Page 3: Data Mining:  Concepts et Techniques

3

Chapitre 1. Introduction

Motivation: Pourquoi le Data mining?

Ce qu’est le Data mining?

Data Mining: Sur quels types de données?

Fonctionnalités du Data mining

Intérêt des motifs (patterns)

Classification des systèmes de Data mining

Problèmes rencontrés

Page 4: Data Mining:  Concepts et Techniques

4

Motivation: Le besoin crée l’invention

Problème de l’explosion de données

Les outils automatiques de collecte de données font que

les Bases de Données (BD’s) contiennent énormément de

données (Ex: La base de données des transactions d’un

super marché)

Beaucoup de données mais peu de connaissances !

Solution: Data warehousing et data mining

Data warehousing et OLAP (On Line Analytical Processing)

Extraction de connaissances intéressantes (règles,

régularités, patterns, contraintes) à partir de données

Page 5: Data Mining:  Concepts et Techniques

5

Evolution des Bases de Données

1960s: Collecte des données, création des BD’s, IMS et le modèle

réseau

1970s: Modèle et SGBD’s relationnels, SQL, transactions, OLTP

1980s: Modèles de données et SGBD’s avancés (relationnel étendu,

OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique, engineering, etc.)

1990s—2000s: Data mining et data warehousing, BD’s multimédia, BD’s sur

le WEB

Page 6: Data Mining:  Concepts et Techniques

6

Ce qu’est le Data Mining

Data mining : Extraction d’informations intéressantes (non

triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données.

Autres appellations: ECD (Extraction de Connaissances à partir de

Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business

intelligence, fouille de données, etc …

Page 7: Data Mining:  Concepts et Techniques

7

Pourquoi faire ? Applications potentielles

Analyse de données et aide à la décision Analyse de marché

Marketing ciblé, gestion des relations client, analyse des achats des clients, ventes croisées, segmentation du marché

Analyse de risque Détection de fraudes

Autres Applications Text mining : news groups, emails, documents Web. Optimisation des requêtes

Page 8: Data Mining:  Concepts et Techniques

8

Analyse de marché et management (1)

Les sources de données à analyser ? Transactions avec carte de crédit, carte de fidélité,

sondages

Marketing ciblé Trouver un « modèle » pour regrouper les clients

partageant les mêmes caractéristiques. Pour chaque groupe, adopter une démarche marketing particulière

Analyse croisée Associations/co-relations entre ventes de produits Prédiction basée sur ces associations

Page 9: Data Mining:  Concepts et Techniques

9

Applications L’analyse d’une BD de transactions d’un

supermarché permet d’étudier le comportement des clients :

réorganiser les rayons Ajuster les promotions

En VPC, regrouper les clients selon certains critères : Cibler les « mailings »

L’analyse de données médicales : Support pour la recherche

L’analyse de données financières : Prédire l’évolution des actions Organismes de crédit (dresser des profils de clients)

Page 10: Data Mining:  Concepts et Techniques

10

Applications

Détection de fraudes en santé, services de cartes de crédit,

télécommunications, etc. Approche

Utiliser les données historiques pour construire des modèles de comportements frauduleux puis utiliser les techniques de datamining pour retrouver des instances similaires

Exemples Assurances auto: détecter les personnes qui

collectionnent les accidents et les remboursements Blanchiment d’argent: détecter les transactions

suspectes (US Treasury's Financial Crimes Enforcement Network)

Page 11: Data Mining:  Concepts et Techniques

11

Applications

Astronomie Le laboratoire JPL a découvert 22 quasars en

utilisant les techniques de datamining

Web IBM a appliqué des algorithmes de data mining

pour réorganiser leurs sites WEB afin de faciliter la navigation.

Améliorer le WEB marketing

Page 12: Data Mining:  Concepts et Techniques

12

Datamining: Un processus dans l’ECD

Data mining: étape clé dans l’extraction de connaissances

Nettoyage de données

Intégration

Bases de données ou fichiers

Data Warehouse

Données intéressantes

Sélection

Data Mining

Evaluation de patterns

Page 13: Data Mining:  Concepts et Techniques

13

Etapes du processus d’ECD

Comprendre le domaine d’application Création d’un ensemble de données (sélection) Nettoyage et pré-traitement des données (peut prendre

60% de l’effort) Choix des fonctionnalités du data mining

classification, consolidation, régression, association, clustering.

Choix de(s) l’algorithme(s) d’extraction Datamining: Recherche des motifs (patterns) intéressants Evaluation des Patterns et présentation

visualisation, transformation, suppression des patterns redondants, etc.

Utilisation de la connaissance extraite

Page 14: Data Mining:  Concepts et Techniques

14

Architecture typique d’un système de Data mining

Data Warehouse

Nettoyage & intégration Filtrage

BD’s

BD ou Datawarehouse

Module Data mining

Evaluation des motifs

Interface graphique

Base de connaissances

Page 15: Data Mining:  Concepts et Techniques

15

Datamining: sur quels types de données

BD’s relationnelles Data warehouses BD’s transactionnelles BD’s avancées

BD’s objet et objet-relationnelles BD’s spatiales Séries temporelles BD’s Textes et multimedia BD’s Hétérogènes WWW

Page 16: Data Mining:  Concepts et Techniques

16

Fonctionnalités du Data Mining

On distingue deux grandes familles de

tâches réalisées en datamining Description : consiste à trouver les

caractéristiques générales relatives aux

données fouillées

Prédiction : consiste à faire de l’inférence à

partir des données actuelles pour prédire des

évolutions futures

Page 17: Data Mining:  Concepts et Techniques

17

Quels types de motifs extraire ? (1)

Description de concepts: Caractérisation et

discrimination Caractérisation : Il s’agit de trouver des

descriptions concises et précises de certains

concepts. Ex: On a une table décrivant les clients

d’une entreprise.

Contraster (régions sèches vs humides)

Page 18: Data Mining:  Concepts et Techniques

18

Association (corrélation et causalité) age(X, “20..29”) & revenu(X, “200..300KF”)

achète(X, “PC”) [support = 2%, confiance =

60%]

contient(T, “ordinateur”) contient(T, “logiciel”)

[1%, 75%]

Quels types de motifs extraire ? (2)

Page 19: Data Mining:  Concepts et Techniques

19

Classification et Prédiction Trouver des modèles (fonctions) qui décrivent et

distinguent des concepts pour de futures prédictions Ex : classifier les pays en se basant sur leurs climats, les

voitures selon leurs carburants Présentation: Arbres de décision, règles de classification,

réseaux neuronaux Prédiction: Prédire des valeurs inconnues Démarche:

On prend un échantillon (jeu d’essai) dans lequel chaque objet est associé à une classe

Analyser chaque classe (son contenu) pour pouvoir ensuite affecter chaque objet nouveau à une classe particulière

Quels types de motifs extraire ? (3)

Page 20: Data Mining:  Concepts et Techniques

20

Analyse de groupes (clusters) Appelée aussi classification non supervisée Le regroupement est basé sur le principe:

maximiser la similarité intra-groupe et la minimiser entre groupes distincts

Le nom de chaque groupe est inconnu

Quels types de motifs extraire ? (4)

Page 21: Data Mining:  Concepts et Techniques

21

Analyse d’exceptions Les objets non conformes à la tendance générale

Une exception peut être considérée comme du bruit

mais aussi comme indice de fraude

Analyse de tendances Tendance et déviation: analyse de régression

Extraction de séquences séquentiels, analyse

de périodicités

Quels types de motifs extraire ? (5)

Page 22: Data Mining:  Concepts et Techniques

22

Est-ce que tous les motifs découverts sont utiles?

Un système de data mining peut générer des milliers de motifs

pas tous intéressants. C’est quoi un motif intéressant ?

Mesure d’intérêt : Un motif est intéressant s’il est facilement

compréhensible, a un degré de certitude, nouveau, peut servir

à valider (ou invalider) une hypothèse utilisateur

Mesure Objective vs. Subjective :

Objective: basée sur des mesures statistiques : support,

confiance, etc.

Subjective: basée sur le point de vue de l’utilisateur sur les

données, ex: le fait que cela soit inattendu, nouveauté,

actionnabilité, etc.

Page 23: Data Mining:  Concepts et Techniques

23

Peut-on trouver tous et que les motifs intéressants?

Trouver tous les patterns intéressants: Complétude

Association vs. classification vs. regroupement

Trouver que les patterns intéressants: Optimisation

Approches D’abord les trouver tous puis filtrer Ne générer que les motifs intéressants

Page 24: Data Mining:  Concepts et Techniques

24

Data Mining: Confluence de plusieurs Disciplines

Data Mining

Technologie BD Statistique

AutresDisciplines

Théorie de l’information

Apprentissage Visualisation

Page 25: Data Mining:  Concepts et Techniques

25

Classification des systèmes (1)

Fonctionnalité générale Data mining descriptif

Data mining prédictif

Différentes vues, différentes classifications Types de BD’s à fouiller

Types de connaissances à découvrir

Types de techniques utilisées

Application ciblée

Page 26: Data Mining:  Concepts et Techniques

26

Classification des systèmes (2) BD fouillée

Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active, spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc.

Connaissance recherchée Association, classification, clustering, tendance, analyse

de déviation, etc. Multiples fonctions aux différents niveaux

Techniques utilisées BD, data warehouse (OLAP), apprentissage, statistiques,

visualisation, réseaux de neurones, etc. Applications

télécommunication, banque, analyse de fraude, ADN, finance, Web, …

Page 27: Data Mining:  Concepts et Techniques

27

Problématiques Méthodologie et interaction

Différents types de connaissances à extraire Prise en compte des connaissances des experts Langages de requête et data mining ad-hoc Expression et visualisation des résultats Prise en compte des données incomplètes ou avec bruit Évaluation des motifs: notion d’intérêt

Performance et mise en échelle Efficacité des algorithmes Méthodes Parallèles, distribuées et incrémentales

Diversité des types de données Relationnels, objets complexes, texte, …

Page 28: Data Mining:  Concepts et Techniques

28

Résumé

Data mining: Découverte de motifs intéressants à partir de grandes quantités de données

Une évolution naturelle de la technologie des SGBD, très demandée par diverses applications

Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection, transformation, data mining, évaluation des patterns, présentation de la connaissance

La fouille peut se faire sur différents types d’entrepôts de données

Fonctionnalités: discrimination, association, classification, clustering, analyse de tendances, etc.

Classification de SDM Problématiques du data mining

Page 29: Data Mining:  Concepts et Techniques

29

Quelques systèmes Intelligent miner d’IBM (couplé avec le SGBD

DB2) Classification, association, régression, analyse de

séquences, regroupement Entreprise miner de SAS

Multiples outils d’analyse statistique, classification, …

Mine set de Silicon graphics. Classification, association et divers outils

statistiques. Très puissant en terme de visualisation Clémentine de SPSS

En plus des fonctionnalités classiques, l’utilisateur peut y rajouter ses propres algorithmes

DBMiner de DBMiner technologie. Il se distingue par le fait qu’il incorpore les

fonctionnalités d’OLAP

Page 30: Data Mining:  Concepts et Techniques

30

Bibliographie

Titre: Datamining : Concepts and techniques.

Auteurs : Jiawei Han & Micheline Kamber

Editeur : Morgan Kaufmann 2000