hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/isi-cours1-2017.pdf ·...
TRANSCRIPT
Université Paris-Est Marne-la-Vallée25/09/2017
Hackathons et traitementde données ouvertes
Philippe Gambette
Hackathons
Un hackathon, qu'est-ce que c'est ?
Hackathons
Un hackathon, qu'est-ce que c'est ?
Hackathons
Un hackathon, qu'est-ce que c'est ?
hacking
marathonhttps://cdn-images-1.medium.com/max/1600/1*dE4F_nf8P60V2baaaOxgLQ.jpeg
https://static1.squarespace.com/static/56909f73841aba578bee5b2b/t/5691a1bf2399a318016890de/1452384710213/tenyka.jpg
https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQ11pbyDi2DUZP-yYcpAdTOKGf2e5ymHjoCNIjcK9EWbxQXX58J
Hackathons
Un hackathon, qu'est-ce que c'est ?
hacking
marathonhttps://cdn-images-1.medium.com/max/1600/1*dE4F_nf8P60V2baaaOxgLQ.jpeg
https://static1.squarespace.com/static/56909f73841aba578bee5b2b/t/5691a1bf2399a318016890de/1452384710213/tenyka.jpg
https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQ11pbyDi2DUZP-yYcpAdTOKGf2e5ymHjoCNIjcK9EWbxQXX58J
Les clés du succès pour un hackathon
• Des besoins bien définis
→ partir d'un problème
Hackathon de la BNF (2016)
Gallicarte
Comment savoir à quels lieux se rapportent les résultats de recherche de documents sur
Gallica ?
HackEgalitéFH (2017)
George, le deuxième texte
Comment encourager les profs de français à utiliser davantage
de textes écrits par des femmes dans leurs cours ?
Les clés du succès pour un hackathon
• Des besoins cohérents avec le thème du hackathon
→ connaître les contraintes, les attendus(bien lire le règlement et la présentation,la composition du jury)
Hackathon de la BNF (2016)
Gallicarte
→ “Mettre à disposition, développer les usages et les réutilisations des données”
HackEgalitéFH (2017)
George, le deuxième texte
→ “égalité réelle entre les femmes et les hommes”,
“lutte contre les stéréotypes sexistes”
Les clés du succès pour un hackathon
• Un concept clair pour répondre aux besoins
Hackathon de la BNF (2016)Gallicarte
http://gallicarte.fr
HackEgalitéFH (2017)George, le deuxième texte
http://george2etexte.free.fr/
Les clés du succès pour un hackathon
• Un prototype opérationnel qui utilise des données fournies
Hackathon de la BNF (2016)Gallicarte
http://gallicarte.fr
Javascript, jQuery, PHP, SPARQL, JSON, leaflet
HackEgalitéFH (2017)George, le deuxième texte
http://george2etexte.free.fr/
Javascript, PHP, SQL, SPARQL, JSON
Les clés du succès pour un hackathon
• Une présentation rythmée...
Les clés du succès pour un hackathon
• Des besoins bien définis
• Des besoins cohérents avec le thème du hackathon
• Un concept clair pour répondre aux besoins
• Un prototype opérationnel qui utilise des données fournies
• Une présentation rythmée
→ une application concrète de vos cours !
Les clés du succès pour un hackathon
• Des besoins bien définis
• Des besoins cohérents avec le thème du hackathon
• Un concept clair pour répondre aux besoins
• Un prototype opérationnel qui utilise des données fournies
• Une présentation rythmée
→ une préparation à votre insertion pro !
Plan
Source: Design vector designed by Freepik
L’ère des données
Traitement etvisualisationdes données
Quelques outilspratiques
La révolution des données
Source : http://3.bp.blogspot.com/-Z8EYq8M8_AM/UGN_yXYbotI/AAAAAAAABqI/g_3rB9vg-xk/s400/airline-evolution.png
Révolutioninformatique
Révolutioninternet
Révolutionde la donnée
3° étape de la révolution numérique ?
La révolution des données
« data scientist » : informatique, mathématiques, stratégie
Révolutioninformatique
Révolutioninternet
Révolutionde la donnée
Source : http://3.bp.blogspot.com/-Z8EYq8M8_AM/UGN_yXYbotI/AAAAAAAABqI/g_3rB9vg-xk/s400/airline-evolution.png
Données ouvertes, «open data»
Des données de plus en plus :
• accessibles
• réutilisables
• stockables
• ... traitables !
Source : http://www.economie.gouv.fr/files/eco_numerique2.png
Données ouvertes, «open data»
Des données de plus en plus :
• accessibles
• réutilisables
• stockables
• ... traitables !
Henri Verdier, Chief Data Officer français,directeur d’Etalab (https://www.etalab.gouv.fr/)
Source : http://www.economie.gouv.fr/files/eco_numerique2.png
Données géographiques
Des données sur :
• Google Maps : « mashups »
• Open Street Map
Données géographiques
Des données sur :
• Google Maps : « mashups »
• Open Street Map
• Base Adresse Nationale (en open data) :http://adresse.data.gouv.fr/
Données géographiques
Géolocalisation de Lisbonne par Pessoa
Guide touristique écrit en 1925par Fernando Pessoa, en anglais
http://lisbon.pessoa.free.fr
Géolocalisation de Lisbonne par Pessoa
Géolocalisation manuelle Google Maps :
Géolocalisation de Lisbonne par Pessoa
Géolocalisation automatique Google Maps :
Géolocalisation de Lisbonne par Pessoa
Géolocalisation automatique Google Maps :
Géolocalisation de Lisbonne par Pessoa
Géolocalisation automatique Google Maps :
Base de donnéesMySQL ; PHP ;Javascript
Diagramme de Voronoi des McDos parisiens
http://gambette.blogspot.fr/2006/10/mcdonalds-macdo-mac-donalds-et-vorono.html
Diagramme de Voronoi des McDos parisiens
http://gambette.blogspot.fr/2006/10/mcdonalds-macdo-mac-donalds-et-vorono.html
Applet
Java
Diagramme de Voronoi des McDos parisiens
http://gambette.blogspot.fr/2006/10/mcdonalds-macdo-mac-donalds-et-vorono.html
Diagramme de Voronoi des McDos français
http://www.comeetie.fr/map_mcdofr.php?
Code
Matlab
La France en train depuis Paris
http://train.gambette.com
Strasbourg
Colmar
Belfort
NiceMarseille
Montpellier
ToulonPerpignan
Toulouse
Foix
Tarbes
Bordeaux
La Rochelle
Nantes
Rennes
Quimper
Saint-LôCaen
Rouen
Metz
Lille
Amiens
Lyon
Saint-BrieucParis
Grenoble
Pau
1h
2h
3h
Charleville-Mézières
Distances réelles
Besançon
La France en train depuis Paris
http://train.gambette.com
Strasbourg
Colmar
Besançon Belfort
Nice
Marseille
Montpellier
Toulon
Perpignan
Toulouse
Foix
Tarbes
Bordeaux
La Rochelle
Nantes
RennesQuimper
Saint-LôCaen
Rouen
Metz
LilleAmiens
Lyon
Saint-BrieucParis
Grenoble
Pau
1h
2h
3h
Charleville-Mézières
Distances proportionnelles
aux durées de voyage en train
en avril 2006
Distances réelles
Prise en compte du TGV Est
CodeDelphi
D’autres traitements de données géographiques
http://www.comeetie.fr/galerie.php?
Données gastronomiques
Visualisation de données de recettes de crêpes
Photo Frédérique Voisin-Demery, https://flic.kr/p/dtUFN8
Visualisation de données de recettes de crêpes
http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html
50 100 150 200 250 300 3500
20406080
100120140160180
lait+eau
farine Polygone des ingrédients des crêpes, pour 1 oeuf
Visualisation de données de recettes de crêpes
http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html
50 100 150 200 250 300 3500
20406080
100120140160180
lait+eau
farine Polygone des ingrédients des crêpes, pour 1 oeuf
enveloppe convexe
Visualisation de données de recettes de crêpes
http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html
50 100 150 200 250 300 3500
20406080
100120140160180
lait+eau
farine Polygone des ingrédients des crêpes, pour 1 oeuf
Marche de Jarvis
Visualisation de données de recettes de crêpes
http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html
50 100 150 200 250 300 3500
20406080
100120140160180
lait+eau
farine Polygone des ingrédients des crêpes, pour 1 oeuf
Marche de Jarvis
Visualisation de données de recettes de crêpes
http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html
50 100 150 200 250 300 3500
20406080
100120140160180
lait+eau
farine Polygone des ingrédients des crêpes, pour 1 oeuf
Marche de Jarvis
Visualisation de données de recettes de crêpes
http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html
50 100 150 200 250 300 3500
20406080
100120140160180
lait+eau
farine Polygone des ingrédients des crêpes, pour 1 oeuf
Marche de Jarvis
Visualisation de données de recettes de crêpes
http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html
50 100 150 200 250 300 3500
20406080
100120140160180
lait+eau
farine Polygone des ingrédients des crêpes, pour 1 oeuf
Marche de Jarvis
Visualisation de données de recettes de crêpes
http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html
50 100 150 200 250 300 3500
20406080
100120140160180
lait+eau
farine Polygone des ingrédients des crêpes, pour 1 oeuf
Marche de Jarvis
Visualisation de données de recettes de crêpes
http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html
50 100 150 200 250 300 3500
20406080
100120140160180
lait+eau
farine Polygone des ingrédients des crêpes, pour 1 oeuf
Marche de Jarvis
Visualisation de données de recettes de crêpes
http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html
0 50 100 150 200 250 300 350
0
20
40
60
80
100
120
140
160
180
Données de moteursde recherche
Google Fight!
http://www.googlefight.fr/mathematiques-vs-informatique.php
Google Fight!
http://www.googlefight.fr/mathematiques-vs-informatique.php
Attention à la fiabilité !http://blog.veronis.fr/2005/01/web-comptes-bidons-chez-google.html?m=0
Google Fight pour l’orthographe ?
http://www.googlefight.fr/trafic-vs-traffic.php
Google Fights : dangers !
http://gambette.blogspot.fr/2008/01/danger-accidents-mortels.html
Google Fights : dangers !
http://gambette.blogspot.fr/2008/01/danger-accidents-mortels.html
CodeDelphi
Google Fights : dangers !
http://gambette.blogspot.fr/2008/01/danger-accidents-mortels.html
Google Fights : années
http://gambette.blogspot.fr/2006/11/la-naissance-du-web-daprs-les-moteurs.html
1 000 000 000/n(x), où n(x) est le nombre de résultats pour l’année x
Google Fights : Miss Google 2010
http://gambette.blogspot.fr/2010/02/miss-google-2010.html
Google Fights : Miss Google 2010
http://gambette.blogspot.fr/2010/02/miss-google-2010.html
Données en arbres
Vote des députés
http://gambette.blogspot.fr/2007/01/arbre-phylogntique-des-dputs.htmlhttp://gambette.blogspot.fr/2007/02/la-puce-adn-des-dputs.html
«Puce ADN» des proximités de vote
Arbre des proximités de vote(2004-2007)
Vote des députés
http://gambette.blogspot.fr/2007/05/positionnement-des-dputs-udf.html
CodeDelphi, code Python
Nuage arboré du blog de Jean Véronis
http://gambette.blogspot.fr/2013/10/hommage-en-nuage.html
Arbre phylogénétique d'un ensemble d'espèces :
• Les classer en fonction de caractères communs
• Décrire leur évolution
D'après Lamarck (1815) Histoire
naturelle des animaux sans
vertèbres
Darwin (1837) Carnet B
Arbres phylogénétiques et arbres de mots
62
Données sur les feuilles
ESPÈCES
Séquences ADN
MOTS
Position des mots
Arbres phylogénétiques et arbres de mots
63
Données sur les feuilles
Distances entre les feuilles
ESPÈCES
Séquences ADN
Distances fondées sur la différence entre les
deux séquences (mutations, insertions,
délétions)
MOTS
Position des mots
Distances fondées sur la cooccurrence entre
les deux mots A B C DA 0 2 5 6B 2 0 5 6C 5 5 0 3D 6 6 3 0
Arbres phylogénétiques et arbres de mots
64
Données sur les feuilles
Distances entre les feuilles
Arbre
ESPÈCES
Séquences ADN
Distances fondées sur la différence entre les
deux séquences (mutations, insertions,
délétions)
MOTS
Position des mots
Distances fondées sur la cooccurrence entre
les deux mots A B C DA 0 2 5 6B 2 0 5 6C 5 5 0 3D 6 6 3 0
A
B
classification hiérarchique ascendante
Arbres phylogénétiques et arbres de mots
65
Données sur les feuilles
Distances entre les feuilles
Arbre
ESPÈCES
Séquences ADN
Distances fondées sur la différence entre les
deux séquences (mutations, insertions,
délétions)
MOTS
Position des mots
Distances fondées sur la cooccurrence entre
les deux mots A+B C DA+B 0 5 6 C 5 0 3 D 6 3 0
A
B
classification hiérarchique ascendante
Arbres phylogénétiques et arbres de mots
66
Données sur les feuilles
Distances entre les feuilles
Arbre
ESPÈCES
Séquences ADN
Distances fondées sur la différence entre les
deux séquences (mutations, insertions,
délétions)
MOTS
Position des mots
Distances fondées sur la cooccurrence entre
les deux mots A+B C DA+B 0 5 6 C 5 0 3 D 6 3 0
A
B
classification hiérarchique ascendante
C
D
Arbres phylogénétiques et arbres de mots
67
Données sur les feuilles
Distances entre les feuilles
Arbre
ESPÈCES
Séquences ADN
Distances fondées sur la différence entre les
deux séquences (mutations, insertions,
délétions)
MOTS
Position des mots
Distances fondées sur la cooccurrence entre
les deux mots A+B C+DA+B 0 5,5C+D 5,5 0
A
B
classification hiérarchique ascendante
C
D
Arbres phylogénétiques et arbres de mots
68
Données sur les feuilles
Distances entre les feuilles
Arbre
ESPÈCES
Séquences ADN
Distances fondées sur la différence entre les
deux séquences (mutations, insertions,
délétions)
MOTS
Position des mots
Distances fondées sur la cooccurrence entre
les deux mots A+B C+DA+B 0 5,5C+D 5,5 0
A
B
classification hiérarchique ascendante
C
D
Arbres phylogénétiques et arbres de mots
69
Données sur les feuilles
Distances entre les feuilles
Arbre
ESPÈCES
Séquences ADN
Distances fondées sur la différence entre les
deux séquences (mutations, insertions,
délétions)
MOTS
Position des mots
Distances fondées sur la cooccurrence entre
les deux mots A B C DA 0 2 5 6B 2 0 5 6C 5 5 0 3D 6 6 3 0
A
B
C
D
classification hiérarchique ascendante
Arbres phylogénétiques et arbres de mots
Outils pratiques
• extension iMacros de Firefox
Pour récupérer un ensemble de pages web
• expressions régulières
Pour extraire de l’information ou la changer de format
Dans la fonction rechercher/remplacer d’un éditeur de texteou dans un script Python
• bibliothèques Javascript D3.js, Google Charts, Charts.js, etc.
Pour visualiser les données de manière interactive sur le webhttp://www.sitepoint.com/15-best-javascript-charting-libraries/
Quelques outils pratiques
• R : orienté statistiques
- https://www.r-project.org/- http://r4ds.had.co.nz/ (R for data science)
• Javascript : orienté web (interactions avec l’utilisateur)
- http://www.w3schools.com/js/
• Python : pour des scripts de test rapide en particulier
- https://www.python.org/
• Java : pour des outils en production
- https://www.java.com/fr/
Quelques langages utiles
• Data Job 2016 – jeudi 10 novembre 2016 à Paris :http://datajob.fr/(entrée gratuite pour étudiants moins de 28 ans)
• Hackathons à Paris :https://www.eventbrite.fr/d/france--paris/hackathon/
• Blog Je véronise :http://gambette.blogspot.com/
• Les interventions d’Henri Verdier sur l’open data :https://www.youtube.com/results?search_query=Henri+Verdier
• Actualités de la révolution des données :http://radar.oreilly.com/data
Pour continuer à jouer avec les données