un logiciel open source pour l’enseignement et la...

23
Un logiciel open source pour l’enseignement et la recherche Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 http://chirouble.univ-lyon2.fr/~ricco/tanagra/

Upload: dinhthuan

Post on 15-Sep-2018

230 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

1 sur 23

Un logiciel open sourcepour l’enseignement et la recherche

Ricco RAKOTOMALALALaboratoire ERICUniversité Lumière Lyon 2

http://chirouble.univ-lyon2.fr/~ricco/tanagra/

Page 2: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

2 sur 23

PLAN

1. Objectifs du projet

2. Le logiciel TANAGRA

3. Distribution et droits

4. Participer au développement

5. Utiliser le logiciel TANAGRA

6. Conclusions et perspectives

Page 3: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

3 sur 23

Page 4: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

4 sur 23

Objectifs

Les logiciels de DATA MINING

Le vrai filon de l’ECD : les logiciels de Data MiningEssayer une recherche « ’data mining software’ sur Google » : # 40,000 références

Sur la page « http://www.kdnuggets.com/software/suites.html » : 7 / 8 commerciaux

L’opposition « commercial » - « recherche »Interface graphique et fonctionnalités utilisatrices

Mode console et code source libre, installation folklorique

Véhiculer le dynamisme du laboSIPINA – 695 références sur Goggle

#4 e-mails par semaine à propos de SIPINA

Articles et études en coopération avec d’autres chercheurs

Page 5: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

5 sur 23

Spécifications du logiciel TANAGRAA qui s’adresse TANAGRA ?

Objectifs

Un logiciel pour l’enseignement : le profil « chargé d’études »Les cours, explication des méthodes, outil pédagogique

Les études « réelles » - les « dossiers » - les chercheurs des autres domaines

(cf. tutoriaux études de cas)

Une plate-forme pour la recherche : le chercheur en DATA MININGPlate-forme d’expérimentation – Tester des méthodes et comparer les résultats

Modularité et accès au code – Programmer ses propres méthodes

(cf. tutoriaux évaluation des méthodes)

Un outil pédagogique pour l’apprentissage de la programmation Spécifications et conception de ce type de logiciel - Apprendre par l’exemple

Connaître les outils et les bibliothèques types

(cf. page web outils et bibliothèques)

Page 6: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

6 sur 23

« Open Source » ?

Objectifs

Valider le code = valider les publicationsComparer les résultats

Lecture du code par d’autres chercheurs (ex. du text mining par SD)

Reproduire « exactement » les expérimentations (ex. tirage aléatoire)

Comparer les implémentationsComparer les interprétations d’un même problème (ex. Bayesien naïf, boosting)

Optimiser le code avec différentes versions

Outil ouvert = Outil vivantIntroduire ses propres algorithmes

Discuter sur la base de prototypes et d’évolutions

Monter et partager des bibliothèques types (ex. générateur de nombres aléatoires,

fonctions de répartitions, pourquoi pas des bibliothèques de DATA MINING ?…)

Page 7: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

7 sur 23

Page 8: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

8 sur 23

Logiciel TANAGRA

Fonctionnalités d’un logiciel de DATA MINING

Accès et préparation des donnéesAccéder à un fichier / une BD

Rassembler des sources différentes

Méthodes de Fouille de donnéesLancer les calculs avec différents algorithmes

Bibliothèque de méthodes

Logiciels commerciaux

Prototypes de recherche

Enchaîner les traitementsFaire coopérer les méthodes sans programmer

Évaluer les connaissancesValidation croisée, etc.

Exploiter les sortiesRapports, visualisation interactive, etc.

Appliquer/exploiter les modèlesModèles en XML, code C, DLL compilées

Prédiction directe sur de nouveaux fichiers

1/5

++/5

4/5

++/5

0/5

2/5

TANAGRA

Page 9: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

9 sur 23

Logiciel TANAGRA

Mode de fonctionnement

Palette de composants

Chaîne de traitements

Résultats

Page 10: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

10 sur 23

Logiciel TANAGRA

Accès aux données

Fichier texte (séparateur tabulation)Chargement en mémoire

500.000.000 individus théoriques

250.000 individus max pour les règles d’association – EZDL

500.000.000 variables théoriques

Variables continues codées SINGLE

Variables discrètes codées BYTE (255 modalités max)

Quelques éléments sur les performancesCOVTYPE – 581.102 ind x 55 var (discrètes) : 240 sec

WAVEFORM – 100.000 ind x 22 var (21 continues) : 20 sec

Formats de sauvegarde

Que sauvegarder ?La description du traitement - Pas les résultats

Nécessité de ré-exécuter à la prochaine ouverture

FormatsBinaire : intègre les données � rapidité (covtype = 1,5 sec)

Textuel (fichier INI) : script basique � souplesse

Page 11: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

11 sur 23

Logiciel TANAGRA

Les méthodes

Les grandes familles aux affairesMéthodes statistiquesVisualisation

Description – Analyses factoriellesApprentissage non-supervisé (structuration)Apprentissage supervisé (prédiction - explication)Évaluation de l’apprentissage superviséRégressionAssociation

L’enchaînementdes méthodes

Page 12: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

12 sur 23

Logiciel TANAGRA

Les sortiesPrivilégier le format HTMLSortie texte = minimum de codeFormatage HTML reconnu par tous les logicielsÉdition de rapports sans code supplémentaire

Page 13: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

13 sur 23

Page 14: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

14 sur 23

Distribution et licence

Qui protéger ?Les utilisateurs : ne pas soustraire un logiciel déjà proposéLes chercheurs : publier à partir d’un code vérifiableLes développeurs : garder la propriété de son développement

Accès au logiciel

Site

http://chirouble.univ-lyon2.fr/~ricco/tanagra/

Qu’est-ce qui est disponible ?Setup

Documentation des méthodes et didacticiels

Code source

Documentation du code source

(cf. le site)

Comment protéger ?Inspiration : GPL et OpenSource.org

Principaux points :

• TANAGRA toujours gratuit – Devoir de citation

• Code toujours accessible librement

• Développeur module = propriétaire module

• Module introduit = Module non soustrayable

(cf. le fichier de licence)

Licence

Page 15: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

15 sur 23

Page 16: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

16 sur 23

Développer

Le modèle d’organisation

Page 17: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

17 sur 23

T M L C o m p o n en t

T M L C o m p L o ca lDa ta

T M L C o m p A s s o cRu le

T M L C o m p C l u ste r i n g

T M L C o m p FactA n a lys is

T M L C o m p FC

T M L C o m p FS

T M L C o m p IS

T M L C o m p M eta S p vL ea r n i n g

T M L C o m p R eg r essi o n

T M L C o m p SD

T M L C o m p Sp vA s s e s

T M L C o m p Sp vL e ar n in g

T M L C o m p Datas e t

Prede c es s o r

S uc c e s s eu r

i

Me taS pv LMLCompS uperv is ed

Familles de composants

Développer

Page 18: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

18 sur 23

Développer

Ajouter un composant

Page 19: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

19 sur 23

Développer

Les outils de développement

Points communs ?(1) Gratuits(2) Si possible accès au sources(3) Compatibles KYLIX(cf. le site)

Type d'outil Outil Caractéristiques

Compilateur Borland Delphi 6 passage KYLIX aisé ?

Bibliothèque de calcul ATHANOR Calcul matriciel, optimisation, nombres aléatoires

Bibilothèque de classes EZDSL Table de hachage, tableau de bits

Bibliothèque graphique LMD SE à remplacer par JEDI

Parser XML XML Parser Lecture et v alidation d'un fichier XML

Visionneuse HTML HTML Lite Affichage rapide page WEB (string)

Page 20: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

20 sur 23

Page 21: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

21 sur 23

Utiliser TANAGRA

1. Données, régression et sorties HTML (autompg)

2. Comparer deux algorithmes supervisés, K-ppv et ID3 (heart)

3. Un exemple de régularisation pour la LDA (wave)

4. Caractérisation d’un clustering (vote)

5. Performances et capacités de calcul (covtype)

Quelques scénarios d’utilisation

Page 22: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

22 sur 23

Page 23: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution

23 sur 23

Conclusions

Un support pour les coursNe plus dépendre du bon vouloir des dinosaures

Un outil que l’étudiant peut reprendre en stage et en entreprise

Un outil pour les publications à venirMonter les expérimentations

Discuter des implémentations

Perspectives

Diffuser - documenterObtenir le maximum de retour

Déboguer3-4 mois minimum

Ajouter des fonctionnalités « utilisateurs »Exécution batch

Format XML du fichier de sauvegarde : script

Ajouter / tester des nouvelles méthodesCela dépend de la recherche et des idées