botanique et la biodiversité collaboratif et distribué pour … défis majeurs : crise alimentaire...
TRANSCRIPT
http://www.plantnet-project.org/
Samuel Dufour - Kowalski, UMR AMAP, INRASeminaire MIAD 10 / 10 /2014
Un système d’information collaboratif et distribué pour la
botanique et la biodiversité
Objectif : Développer un réseau collaboratif autour de communautés d’acteurs et une plateforme informatique et web, dédiés à l’agrégation et au partage d’outils et de connaissances en botanique.
Institut Français de Pondichéry, IUCN, CGIAR, Parc National du Kruger, Univ. Davis (USA), Univ. Coimbra (Venezuela), Umr AGAP, Umr PVBMT, IFV, Service des collections de l’UM2, …
❖ 4 équipes
❖ Un réseau national et international de partenaires
http://www.inria.fr/ http://amap.cirad.fr/ http://www.tela-botanica.org/
❖ 1er Programme Etendard d’Initié en 09/2009
❖ Deux défis majeurs : Crise alimentaire mondiale et la “6eme Extinction” (i.e. érosion de la biodiversité)
❖ Dans les deux cas, la connaissance des Plantes est cruciale pour le succès d’une agriculture durable et de la conservation de la biodiversité
❖ Les difficultés principales concernent✓ l’identification des plantes ✓ L’accumulation et la diffusion de connaissances de base
sur la distribution et la production des plantes
❖ Les régions Tropicales et Méditerranéennes sont les plus concernées : leurs flores et écosystèmes sont les plus riches, mais les moins connus
Contexte
Des données orphelines
La masse des données botaniques concerne une minorité d’espèces. Comment en acquerir ou en mobiliser de nouvelles ?
Problèmes identifiés : - Les données n’existent pas
- Pas d’observation - Pas d’identification
- Les données existent mais - ne sont pas exploitables - ne sont pas diffusées / mobilisable
Plate-forme collaborative
& Ingénierie logicielle
Recherche “amont”3 thèses + 1 PostDoc financés
Trois volets interconnectés
Méthodesinnovantes
Outils
Retours d’expérience
Projets pilotes(Agronomie, Ecologie, Botanique,...)
Jeux de données
Recherches innovantes✓ Reconnaissance par le contenu visuel✓ Répartition potentielle des plantes✓ Méthodes de recherche multicritère✓ Mécanismes d’échanges distribués
Des projets pilotes en partenariatScénarios distincts, en Agronomie, Gestion de la biodiversité, fournissant des retours sur les méthodes et outils
Plantes utiles et ressources génétiques❖ Pl@ntUse : « Wikipedia » sur les plantes utiles
❖ Pl@ntGrape : Vignes françaises
Plantes envahissantes❖ Pl@ntInvasion : Invasives d’outre-mer
❖ Pl@ntInvasive-Kruger : Parc du Kruger, Afr. du Sud
❖ Pl@ntRiceWeed : Invasives des rizières irriguées
Flore tropicale et méditerranéenne❖ Pl@ntGhâts : Ghâts Occidentaux, Inde du Sud
❖ Pl@ntMedit : Flore du bassin Méditerranéen
❖ Pl@ntTree : Flores arborescentes tropicales
❖ Pl@ntWood : Anatomie du bois
Favoriser l’agrégation et le partage des données, dans un domaine où la dispersion et l’hétérogénéité des sources prédominent
Contexte centraliséBdd relationnelles à structure fixe
Relation client / serveur
Contexte décentraliséStructures de données évolutives
Gestion locale des données
• Dépot APP (Inra, Inria, Ird, Cirad, TLB001.150027.000.S.P.2013.000.10000
La plateforme Pl@ntNet Pl@ntNet - DataManager
Des outils de gestion de données et de communautés
IdaoPl@ntNet-IdentifyDes outils d’aide à l’identification
?
IdentiPlante
PictoFlora
o Application de recherche d’information sur les planteso Partage d’observations (Creative Commons)
Pl@ntNet WorkflowValidation et Enrichissement Collaboratif
Requête Recherche
Réponse
Contribution
Indexation
Maestro/IKONA
Web services
web
Les clients d’identification
02/2013
P@ntNetmobile - IOS
800 espècesSystème mobile
02/2014
P@ntNet-mobileAndroid
4 000 espècesSystème mobileNoms communsMulti-languesContribution utilisateur
07/2011
Pl@ntNet-ID
54 espècesScan / photos de feuillesPhotos de fleurs
07/2010
Pl@ntScan
36 espècesScan feuilles
09/2012
P@ntNetIdentify
121 espècesSystème multi-organes
Pl@ntNet-Identify
Espace de production (public). Bases dont la qualité est révisée,. Evolution croissante des donnéeset de la qualité des services proposés
Pl@ntNet : Pré-production
. Plusieurs bases de tests
. Evaluation de nouveaux services
. Test de performances
. Support d’échanges avec nos collaborateurs(Bioversity, Kruger, SMO, etc.)
Usage
270 000 téléchargements (07/ 2014)
Note satisfaction(1003 votes)
150 pays / territoires
France 130 000
Etats-Unis 30 000
Belgique 5 000
Canada 7 000
Royaume-Uni 4 500
Suisse 4 000
Maroc 1 300
Italie 1 700
Espagne 1 500
Pays Nbre téléchargements
Pertinence des images
93% images adaptées 1% sans plante 1% hors flore concernée 3% vue générale 1% difficile 1% amusantes
Evaluation technologique
2011 : 72 équipes inscrites2012 : 86 équipes inscrites2013 : 91 équipes inscrites
2011 : 72 équipes inscrites -> 8 équipes / 20 méthodes2012 : 86 équipes inscrites -> 10 équipes / 30 méthodes2013 : 91 équipes inscrites -> 12 équipes / 33 méthodes
2013 : 12 équipes / 9 pays / 33 méthodes
La tâche proposée :ICMC, Univ. Sao Paulo, Brésil.
Vicomtech, San Sebastian, Espagne
LIRIS, Lyon, FR.
I3S Sophia, FR.
Inria - Pl@ntNet, FR.
Justus-Liebig-Univ., Giessen, All.
Univ. Des tech. de Brandebourg, All.
Univ. Alexandru Ioan Cuza, Roumanie.
Sabanci Univ., Istanbul, Turquie.
Northwest A&F Univ., Yangling, Chine.
MICA, Hanoi, Vietnam
NLabU, Tokyo, Japon
La campagne d’évaluation
ICMC, Univ. Sao Paulo, Brésil.
Vicomtech, San Sebastian, Espagne
LIRIS, Lyon, FR.
I3S Sophia, FR.
Inria - Pl@ntNet, FR.
Justus-Liebig-Univ., Giessen, All.
Univ. Des tech. de Brandebourg, All.
Univ. Alexandru Ioan Cuza, Roumanie.
Sabanci Univ., Istanbul, Turquie.
Northwest A&F Univ., Yangling, Chine.
MICA, Hanoi, Vietnam
NLabU, Tokyo, Japon
La campagne d’évaluation2013 : 12 équipes / 9 pays / 33 méthodes
Les résultats obtenus :
• Caputo & al., En cours. LNCS.
Man Vs Machine96 observations aléatoires, résulat limité à 3 images.Juste les images, pas de libre, pas d’internet, pas d’autres ressourcesPas de temps limite
Moteur d’indexation d’images
Requête Utilisateur
Extraction de caractères visuels
Index visuel par organe
Liste ordonné d’espèces
Traitement des requêtes
❖ Banc de tests Evaluations automatisées des performances :
✓Descripteurs visuels,✓Stratégies utilisateurs,✓Données d’apprentissage,✓Bases de connaissances,✓Stratégies de fusion des résultats,
✓Exploitation des exifs (dates, focales)
✓Exploitation d’informations complémentaires
Côté serveur : Incubation technologique
Le SI Pl@ntNet
Pl@ntNet-DataStorePl@ntNet-Identify
Stockage “Big-Data”
BD Tela-Botanica
Pl@ntNet-DataManager
DB distribuées projets de recherche
IdentiPlante / PictoFlora
Pl@ntNet-Publish
Observation TerrainAide à l’Identification
Pl@ntNet-Community
Publication sur le web
Réseau Social Validation Collaborative
Moteur d’Indexation d’image
Pl@ntNet–DataStore
Aggrégation des données
Aggrégation, stockage et exploration de données d’observations botaniques issues de sources hétérogènes+ gestion de référentiels / projets
Application web d’exploration et de correction en masse.
Observations botaniques :
AuteurDate ObsTaxon Lieu géographiqueImagesMeta-info...
Référentiels TaxonomiquesFamille / Genre / Espèce
1 projet = 1 référentiel
Base de données distribuée NoSQL cloud-ready (Big-Data)
Des espaces collaboratifs de validation et d’annotation
IdentiPlanteObservations botaniques
PictoFloraValidationet annotation des photos
Contexte centraliséBdd relationnelles à structure fixe
Relation client / serveur
Contexte décentraliséChacun crée et gère sa propre base de
données et echange avec ses partenaires
Pl@ntNet–DataManager
Gestion de données pour la recherche
Fournir une plateforme de gestion de données générique pour des projets de rechercheautour de données, afin de faciliter l’échange et le partage.
Pl@ntNet–DataManager
Des outils de gestion de données
✓Architecture distribuée, fonctionnement en ligne / hors ligne✓Synchronisation de données entre bases distantes à la demande✓Détection des conflits (en cas de modification concurrente)
✓Création libre des structures de données,✓Exploration de données (recherche full texte, carte, galleries, requetes)✓Edition de données✓Interface Web multi utilisateur✓Déploiements actuels : Montpellier, Pondichery, Yaoundé, (antilles et afrique du sud à venir)
Pl@ntNet–DataManager
Vers des réseaux de données
Spécialiste taxonomiste Spécialiste
Région ASpécialiste Région B
Spécialiste Région C
BD taxonomique de référence
BD observations globales
BD observations régions B & C
BD publique Région A
Des outils de diffusion de données
✓ Rendre visible les données collectées,
✓ Faciliter leur diffusion et mise à jour
✓ Indépendamment du type et de leur structuration
Ressources génétiques Pl@ntNet–Publish
Toute personne ayant un jeu de données autour d’observations botaniques (herbiers, projet de recherche etc…) peut créer son site Pl@ntNet-Publish.
Architecture de Webservices
Communication et échange de données par webservices entre les différents composants du SI (Appel de procédure distantes / communication machine-machine)
Facilité et souplesse de mise en oeuvre et de développementStandardisé (HTTP / JSON)API publique et/ou privéeEvolutivité Répartition de la charge et des responsabilités
Bases de données NoSQL
Utilisation de systèmes de base de données NoSQL permettant
- De faciliter le déploiement sur le cloud- De répartir les bases de données chez
les différents partenaires- Faciliter la répartition et l’échange de
données
Différents types de base NoSQL- Entrepot clé / valeur (redis)- Entrepot de documents (couchdb, mongodb)- Entrepot Orienté colonne (cassandra)- Entrepot orienté graphes (neo4j)
Origine du NoSQLSQL : Algèbre ensembliste (1970)
=> Eviter la redondance des données, => Structurer et Requeter les données=> Ressources limitées
NoSQL : Réponse pragmatique à des problèmes de gestion de données en masse (big-data) et distribuées (2000). Google, Facebook…
=> Stocker et retrouver des données en masse (en PO)=> Faciliter la montée en charge par la distribution et le
partitionnement des données=> Ressources illimitées (ou peu couteuse)=> Faciliter le travail de développement
Non Relationnel
Theorème CAP● Cohérence (tout est à jour tout le temps)● Disponibilité (toujours une reponse)● Résistance au morcellement (l’absence d’un
noeud n’est pas bloquant)Seul 2 propriétés peuvent etre satisfaites en meme temps
Apache CouchDB● On ne stocke plus des lignes dans des tables, mais des documents
semi - structurés
● Indexes secondaires Map-Reduce sur les documents○ Pas de requetes SQL
● Synchronisation Multi-Maitres○ L’écriture de données peut se faire sur n’importe quel noeud.○ Réplication asynchrone / Détection de conflits○ Possiblité de mode hors-ligne ou d’internet non fiable.
{ _id : “123456”, _rev : “...”, author : { nom : “dufour-kowalski”, prenom : “samuel” }, taxon : “Abies alba Mill.”, date : “10/09/2014 12:24”, loc : { lat : 45.2334 , lon : 3.23455 }, images : [ … ]}
Choix du NoSQLNoSQL● Distribution des données / Partitionnement des données ● Changement fréquent de structuration, données mouvantes.● Proche des problèmatiques de développement (Pas d’ORM, structure de
données compatible avec les structures natives les langages de programmation), Facilité de manipulation.
● Plus adapté aux méthodes agiles (car adapté au changement)● Des données applicatives (on sait comment on utilise les données)● Des données en masse peu structurées.● Pas de règles d’intégrités et de validation (sauf au niveau applicatif).
SQL (ou relationnel)● Requetage très puissant (et rapide si bien utilisé)● Transaction ACID (vs coherence finale en NOSQL)● Maitre - Esclave ● Structuration forte des données. Peu de changement. ● Intégrité des données. Centralisation des données. ● Modélisation importante● Des données utilisables dans différents contextes applicatifs.
Besoin de s’adapter à tout type de requêtes
Des Technologies...
- Base de données NoSQL : CouchDB / MongoDB- Webservices REST : Node.JS / REST / JSON- Appli Web HTML5 / Mobiles Natives
❖ AGAP❖ Reconnaissance variétale (ARCAD-FEDER)❖ Implication potentielle dans des initiatives du domaine de l’Agro-biodiversité
❖ PVBMT❖ Travail en cours sur la Flore de la Réunion❖ Discussions sur le reconnaissance d’insectes, de maladies,
❖ DIADE❖ Bdd génomique et architecturale sur les caféiers
❖ AGIRs❖ Herbier ALF (flore des paturages)
❖ Perspectives scientifiques dans les domaines de la surveillance écologique (cf. exploitation des données), le Big Data (cf. passage à l’échelle), de l’agro-biodiversité, l’optimisation des flux (cf. mécanismes de recommandations)
❖ Perspectives dans le domaine éducatif (cf. Floris’Tic / Ec. françaises à l’étranger)
❖ Partenariats socio-économiques (Ecotourisme, Horticulture)
Sélection de coll. & Perspectives
http://www.plantnet-project.orghttp://m.plantnet-project.orghttp://github.com/plantnet