data mining: concepts et techniques

Post on 30-Dec-2015

48 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Data Mining: Concepts et Techniques. Plan du Cours. Introduction Règles d’association Classification et prédiction Regroupement (Clustering) Extraction de types complexes Applications du Datamining et tendances actuelles (génomique). Chapitre 1. Introduction. - PowerPoint PPT Presentation

TRANSCRIPT

1

Data Mining: Concepts et Techniques

2

Plan du Cours

Introduction Règles d’association Classification et prédiction Regroupement (Clustering) Extraction de types complexes Applications du Datamining et tendances actuelles

(génomique)

3

Chapitre 1. Introduction

Motivation: Pourquoi le Data mining?

Ce qu’est le Data mining?

Data Mining: Sur quels types de données?

Fonctionnalités du Data mining

Intérêt des motifs (patterns)

Classification des systèmes de Data mining

Problèmes rencontrés

4

Motivation: Le besoin crée l’invention

Problème de l’explosion de données

Les outils automatiques de collecte de données font que

les Bases de Données (BD’s) contiennent énormément de

données (Ex: La base de données des transactions d’un

super marché)

Beaucoup de données mais peu de connaissances !

Solution: Data warehousing et data mining

Data warehousing et OLAP (On Line Analytical Processing)

Extraction de connaissances intéressantes (règles,

régularités, patterns, contraintes) à partir de données

5

Evolution des Bases de Données

1960s: Collecte des données, création des BD’s, IMS et le modèle

réseau

1970s: Modèle et SGBD’s relationnels, SQL, transactions, OLTP

1980s: Modèles de données et SGBD’s avancés (relationnel étendu,

OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique, engineering, etc.)

1990s—2000s: Data mining et data warehousing, BD’s multimédia, BD’s sur

le WEB

6

Ce qu’est le Data Mining

Data mining : Extraction d’informations intéressantes (non

triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données.

Autres appellations: ECD (Extraction de Connaissances à partir de

Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business

intelligence, fouille de données, etc …

7

Pourquoi faire ? Applications potentielles

Analyse de données et aide à la décision Analyse de marché

Marketing ciblé, gestion des relations client, analyse des achats des clients, ventes croisées, segmentation du marché

Analyse de risque Détection de fraudes

Autres Applications Text mining : news groups, emails, documents Web. Optimisation des requêtes

8

Analyse de marché et management (1)

Les sources de données à analyser ? Transactions avec carte de crédit, carte de fidélité,

sondages

Marketing ciblé Trouver un « modèle » pour regrouper les clients

partageant les mêmes caractéristiques. Pour chaque groupe, adopter une démarche marketing particulière

Analyse croisée Associations/co-relations entre ventes de produits Prédiction basée sur ces associations

9

Applications L’analyse d’une BD de transactions d’un

supermarché permet d’étudier le comportement des clients :

réorganiser les rayons Ajuster les promotions

En VPC, regrouper les clients selon certains critères : Cibler les « mailings »

L’analyse de données médicales : Support pour la recherche

L’analyse de données financières : Prédire l’évolution des actions Organismes de crédit (dresser des profils de clients)

10

Applications

Détection de fraudes en santé, services de cartes de crédit,

télécommunications, etc. Approche

Utiliser les données historiques pour construire des modèles de comportements frauduleux puis utiliser les techniques de datamining pour retrouver des instances similaires

Exemples Assurances auto: détecter les personnes qui

collectionnent les accidents et les remboursements Blanchiment d’argent: détecter les transactions

suspectes (US Treasury's Financial Crimes Enforcement Network)

11

Applications

Astronomie Le laboratoire JPL a découvert 22 quasars en

utilisant les techniques de datamining

Web IBM a appliqué des algorithmes de data mining

pour réorganiser leurs sites WEB afin de faciliter la navigation.

Améliorer le WEB marketing

12

Datamining: Un processus dans l’ECD

Data mining: étape clé dans l’extraction de connaissances

Nettoyage de données

Intégration

Bases de données ou fichiers

Data Warehouse

Données intéressantes

Sélection

Data Mining

Evaluation de patterns

13

Etapes du processus d’ECD

Comprendre le domaine d’application Création d’un ensemble de données (sélection) Nettoyage et pré-traitement des données (peut prendre

60% de l’effort) Choix des fonctionnalités du data mining

classification, consolidation, régression, association, clustering.

Choix de(s) l’algorithme(s) d’extraction Datamining: Recherche des motifs (patterns) intéressants Evaluation des Patterns et présentation

visualisation, transformation, suppression des patterns redondants, etc.

Utilisation de la connaissance extraite

14

Architecture typique d’un système de Data mining

Data Warehouse

Nettoyage & intégration Filtrage

BD’s

BD ou Datawarehouse

Module Data mining

Evaluation des motifs

Interface graphique

Base de connaissances

15

Datamining: sur quels types de données

BD’s relationnelles Data warehouses BD’s transactionnelles BD’s avancées

BD’s objet et objet-relationnelles BD’s spatiales Séries temporelles BD’s Textes et multimedia BD’s Hétérogènes WWW

16

Fonctionnalités du Data Mining

On distingue deux grandes familles de

tâches réalisées en datamining Description : consiste à trouver les

caractéristiques générales relatives aux

données fouillées

Prédiction : consiste à faire de l’inférence à

partir des données actuelles pour prédire des

évolutions futures

17

Quels types de motifs extraire ? (1)

Description de concepts: Caractérisation et

discrimination Caractérisation : Il s’agit de trouver des

descriptions concises et précises de certains

concepts. Ex: On a une table décrivant les clients

d’une entreprise.

Contraster (régions sèches vs humides)

18

Association (corrélation et causalité) age(X, “20..29”) & revenu(X, “200..300KF”)

achète(X, “PC”) [support = 2%, confiance =

60%]

contient(T, “ordinateur”) contient(T, “logiciel”)

[1%, 75%]

Quels types de motifs extraire ? (2)

19

Classification et Prédiction Trouver des modèles (fonctions) qui décrivent et

distinguent des concepts pour de futures prédictions Ex : classifier les pays en se basant sur leurs climats, les

voitures selon leurs carburants Présentation: Arbres de décision, règles de classification,

réseaux neuronaux Prédiction: Prédire des valeurs inconnues Démarche:

On prend un échantillon (jeu d’essai) dans lequel chaque objet est associé à une classe

Analyser chaque classe (son contenu) pour pouvoir ensuite affecter chaque objet nouveau à une classe particulière

Quels types de motifs extraire ? (3)

20

Analyse de groupes (clusters) Appelée aussi classification non supervisée Le regroupement est basé sur le principe:

maximiser la similarité intra-groupe et la minimiser entre groupes distincts

Le nom de chaque groupe est inconnu

Quels types de motifs extraire ? (4)

21

Analyse d’exceptions Les objets non conformes à la tendance générale

Une exception peut être considérée comme du bruit

mais aussi comme indice de fraude

Analyse de tendances Tendance et déviation: analyse de régression

Extraction de séquences séquentiels, analyse

de périodicités

Quels types de motifs extraire ? (5)

22

Est-ce que tous les motifs découverts sont utiles?

Un système de data mining peut générer des milliers de motifs

pas tous intéressants. C’est quoi un motif intéressant ?

Mesure d’intérêt : Un motif est intéressant s’il est facilement

compréhensible, a un degré de certitude, nouveau, peut servir

à valider (ou invalider) une hypothèse utilisateur

Mesure Objective vs. Subjective :

Objective: basée sur des mesures statistiques : support,

confiance, etc.

Subjective: basée sur le point de vue de l’utilisateur sur les

données, ex: le fait que cela soit inattendu, nouveauté,

actionnabilité, etc.

23

Peut-on trouver tous et que les motifs intéressants?

Trouver tous les patterns intéressants: Complétude

Association vs. classification vs. regroupement

Trouver que les patterns intéressants: Optimisation

Approches D’abord les trouver tous puis filtrer Ne générer que les motifs intéressants

24

Data Mining: Confluence de plusieurs Disciplines

Data Mining

Technologie BD Statistique

AutresDisciplines

Théorie de l’information

Apprentissage Visualisation

25

Classification des systèmes (1)

Fonctionnalité générale Data mining descriptif

Data mining prédictif

Différentes vues, différentes classifications Types de BD’s à fouiller

Types de connaissances à découvrir

Types de techniques utilisées

Application ciblée

26

Classification des systèmes (2) BD fouillée

Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active, spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc.

Connaissance recherchée Association, classification, clustering, tendance, analyse

de déviation, etc. Multiples fonctions aux différents niveaux

Techniques utilisées BD, data warehouse (OLAP), apprentissage, statistiques,

visualisation, réseaux de neurones, etc. Applications

télécommunication, banque, analyse de fraude, ADN, finance, Web, …

27

Problématiques Méthodologie et interaction

Différents types de connaissances à extraire Prise en compte des connaissances des experts Langages de requête et data mining ad-hoc Expression et visualisation des résultats Prise en compte des données incomplètes ou avec bruit Évaluation des motifs: notion d’intérêt

Performance et mise en échelle Efficacité des algorithmes Méthodes Parallèles, distribuées et incrémentales

Diversité des types de données Relationnels, objets complexes, texte, …

28

Résumé

Data mining: Découverte de motifs intéressants à partir de grandes quantités de données

Une évolution naturelle de la technologie des SGBD, très demandée par diverses applications

Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection, transformation, data mining, évaluation des patterns, présentation de la connaissance

La fouille peut se faire sur différents types d’entrepôts de données

Fonctionnalités: discrimination, association, classification, clustering, analyse de tendances, etc.

Classification de SDM Problématiques du data mining

29

Quelques systèmes Intelligent miner d’IBM (couplé avec le SGBD

DB2) Classification, association, régression, analyse de

séquences, regroupement Entreprise miner de SAS

Multiples outils d’analyse statistique, classification, …

Mine set de Silicon graphics. Classification, association et divers outils

statistiques. Très puissant en terme de visualisation Clémentine de SPSS

En plus des fonctionnalités classiques, l’utilisateur peut y rajouter ses propres algorithmes

DBMiner de DBMiner technologie. Il se distingue par le fait qu’il incorpore les

fonctionnalités d’OLAP

30

Bibliographie

Titre: Datamining : Concepts and techniques.

Auteurs : Jiawei Han & Micheline Kamber

Editeur : Morgan Kaufmann 2000

top related