equipe tatoo : extraction de connaissances dans les bases de données : motifs séquentiels et...

8
Equipe‐projet TATOO Extrac3on de connaissances dans les bases de données : mo3fs séquen3els et ontologies Responsable : Pascal Poncelet

Upload: qualimediterranee

Post on 05-Dec-2014

986 views

Category:

Technology


1 download

DESCRIPTION

Anne Laurent (LIRMM) présente les compétences de l'équipe TATOO en extraction de connaissances dans les bases de données.

TRANSCRIPT

Page 1: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies

Equipe‐projet TATOO Extrac3on de connaissances dans les bases de données : mo3fs séquen3els et ontologies 

Responsable : Pascal Poncelet 

Page 2: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies

  Extrac'on de connaissances dans de grandes bases de données 

PROBLEME Fouille de données

CONNAISSANCE DECISION

Visualisation

EXPERTISE

DONNEES

Représentation

Traitement

  Mots clés : extrac'on de connaissances, fouille de données, mo'fs séquen'els, entrepôts de données, logique floue, ontologie, annota'on automa'que  

Page 3: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies

Fouille de données / Extrac'on de Connaissance 

  Fayyad (1996) : the non-trivial process of identifying valid, potentially useful and ultimately understandable patterns in data

  Nombreuses applications : marketing, santé, etc.

  Algorithmes supervisés/non supervisés

  Algorithmes prédictifs/descriptifs

  Problématiques associées : nettoyage des données, présentation des résultats, évaluation des méthodes, …

Page 4: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies

Thèmes scien'fiques 

  Motifs séquentiels (Contraintes temporelles)

  Fouille de données complexes   Textes (Text Mining)   Arborescentes (Schema - Web Structure Mining)   Multidimensionnelles (Cube - Web Usage Mining)   Flots (Stream Mining)

  Fouille de données approximative

Page 5: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies

Exemple : Les mo'fs séquen'els 

  Recherche de corréla'ons au sein de gros volumes de données historisées 

⟨(Lecteur DVD) (Ecran LCD, DVD1, DVD2) (Magnétoscope)⟩ 

 Prise en compte d’informations spatio-temporelles

 Données mul'‐dimensionnelles 

Page 6: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies

Des données disponibles de plus en plus rapidement 

 Comment maintenir la connaissance extraite ?   Eviter de recommencer « from scratch » 

 Comment faire face à des données disponibles sous la forme d’un flot ? 

  Impossible de stocker les données (capteurs, clickstream, RFID, news, …) ! 

  Comment extraire de la connaissance ? 

  Comment résumer ces données ? 

Page 7: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies

Fouille de données environnementales : CEMAGREF‐LIRMM (M. Teisseire) Quelques exemples … 

  Suivi de l’évolu'on de phénomènes via des dépêches de presses  (exemple H1N1 traité dans l’équipe) 

  Evolu'on de la Dengue (Nevantropic, CEMAGREF) A par'r d’une base de données de l’INVS, iden'fica'on des quar'ers à risque et des 

périodes caractéris'ques précédant une propaga'on de l’épidémie 

 Données Teru'‐Lucas 

  Connaître les différentes catégories d’occupa'on du sol et d’usage de l’ensemble du territoire (agricole, naturel et urbanisé) 

Page 8: Equipe TATOO : Extraction de connaissances dans les bases de données : motifs séquentiels et ontologies

Conclusion 

  Défis de la fouille de données : 

 Volume, rapidité et complexité/hétérogénéité des données 

 Temps réel 

 Présenta'on de la connaissance extraite 

 Quelle est la qualité des données collectées ? 

 Imprécisions/incer'tudes 

 Comment insérer d’autres connaissances ? 

 Données externes (e.g. météo) 

 Connaissance experte