botanique et la biodiversité collaboratif et distribué pour … défis majeurs : crise alimentaire...

36
http://www.plantnet-project.org/ Samuel Dufour - Kowalski, UMR AMAP, INRA Seminaire MIAD 10 / 10 /2014 Un système d’information collaboratif et distribué pour la botanique et la biodiversité

Upload: hanga

Post on 05-May-2018

217 views

Category:

Documents


2 download

TRANSCRIPT

http://www.plantnet-project.org/

Samuel Dufour - Kowalski, UMR AMAP, INRASeminaire MIAD 10 / 10 /2014

Un système d’information collaboratif et distribué pour la

botanique et la biodiversité

Objectif : Développer un réseau collaboratif autour de communautés d’acteurs et une plateforme informatique et web, dédiés à l’agrégation et au partage d’outils et de connaissances en botanique.

Institut Français de Pondichéry, IUCN, CGIAR, Parc National du Kruger, Univ. Davis (USA), Univ. Coimbra (Venezuela), Umr AGAP, Umr PVBMT, IFV, Service des collections de l’UM2, …

❖ 4 équipes

❖ Un réseau national et international de partenaires

http://www.inria.fr/ http://amap.cirad.fr/ http://www.tela-botanica.org/

❖ 1er Programme Etendard d’Initié en 09/2009

❖ Deux défis majeurs : Crise alimentaire mondiale et la “6eme Extinction” (i.e. érosion de la biodiversité)

❖ Dans les deux cas, la connaissance des Plantes est cruciale pour le succès d’une agriculture durable et de la conservation de la biodiversité

❖ Les difficultés principales concernent✓ l’identification des plantes ✓ L’accumulation et la diffusion de connaissances de base

sur la distribution et la production des plantes

❖ Les régions Tropicales et Méditerranéennes sont les plus concernées : leurs flores et écosystèmes sont les plus riches, mais les moins connus

Contexte

Des données orphelines

La masse des données botaniques concerne une minorité d’espèces. Comment en acquerir ou en mobiliser de nouvelles ?

Problèmes identifiés : - Les données n’existent pas

- Pas d’observation - Pas d’identification

- Les données existent mais - ne sont pas exploitables - ne sont pas diffusées / mobilisable

Plate-forme collaborative

& Ingénierie logicielle

Recherche “amont”3 thèses + 1 PostDoc financés

Trois volets interconnectés

Méthodesinnovantes

Outils

Retours d’expérience

Projets pilotes(Agronomie, Ecologie, Botanique,...)

Jeux de données

Recherches innovantes✓ Reconnaissance par le contenu visuel✓ Répartition potentielle des plantes✓ Méthodes de recherche multicritère✓ Mécanismes d’échanges distribués

Des projets pilotes en partenariatScénarios distincts, en Agronomie, Gestion de la biodiversité, fournissant des retours sur les méthodes et outils

Plantes utiles et ressources génétiques❖ Pl@ntUse : « Wikipedia » sur les plantes utiles

❖ Pl@ntGrape : Vignes françaises

Plantes envahissantes❖ Pl@ntInvasion : Invasives d’outre-mer

❖ Pl@ntInvasive-Kruger : Parc du Kruger, Afr. du Sud

❖ Pl@ntRiceWeed : Invasives des rizières irriguées

Flore tropicale et méditerranéenne❖ Pl@ntGhâts : Ghâts Occidentaux, Inde du Sud

❖ Pl@ntMedit : Flore du bassin Méditerranéen

❖ Pl@ntTree : Flores arborescentes tropicales

❖ Pl@ntWood : Anatomie du bois

Favoriser l’agrégation et le partage des données, dans un domaine où la dispersion et l’hétérogénéité des sources prédominent

Contexte centraliséBdd relationnelles à structure fixe

Relation client / serveur

Contexte décentraliséStructures de données évolutives

Gestion locale des données

• Dépot APP (Inra, Inria, Ird, Cirad, TLB001.150027.000.S.P.2013.000.10000

La plateforme Pl@ntNet Pl@ntNet - DataManager

Des outils de gestion de données et de communautés

IdaoPl@ntNet-IdentifyDes outils d’aide à l’identification

?

IdentiPlante

PictoFlora

o Application de recherche d’information sur les planteso Partage d’observations (Creative Commons)

Pl@ntNet WorkflowValidation et Enrichissement Collaboratif

Requête Recherche

Réponse

Contribution

Indexation

Maestro/IKONA

Web services

web

Les clients d’identification

02/2013

P@ntNetmobile - IOS

800 espècesSystème mobile

02/2014

P@ntNet-mobileAndroid

4 000 espècesSystème mobileNoms communsMulti-languesContribution utilisateur

07/2011

Pl@ntNet-ID

54 espècesScan / photos de feuillesPhotos de fleurs

07/2010

Pl@ntScan

36 espècesScan feuilles

09/2012

P@ntNetIdentify

121 espècesSystème multi-organes

Pl@ntNet-Identify

Espace de production (public). Bases dont la qualité est révisée,. Evolution croissante des donnéeset de la qualité des services proposés

Pl@ntNet : Pré-production

. Plusieurs bases de tests

. Evaluation de nouveaux services

. Test de performances

. Support d’échanges avec nos collaborateurs(Bioversity, Kruger, SMO, etc.)

Pl@ntNet-mobile apps

100 000 images

4 200 espèces

136 000 images

5 200 espèces

Version publique

Usage

270 000 téléchargements (07/ 2014)

Note satisfaction(1003 votes)

150 pays / territoires

France 130 000

Etats-Unis 30 000

Belgique 5 000

Canada 7 000

Royaume-Uni 4 500

Suisse 4 000

Maroc 1 300

Italie 1 700

Espagne 1 500

Pays Nbre téléchargements

Pertinence des images

93% images adaptées 1% sans plante 1% hors flore concernée 3% vue générale 1% difficile 1% amusantes

Evaluation technologique

2011 : 72 équipes inscrites2012 : 86 équipes inscrites2013 : 91 équipes inscrites

2011 : 72 équipes inscrites -> 8 équipes / 20 méthodes2012 : 86 équipes inscrites -> 10 équipes / 30 méthodes2013 : 91 équipes inscrites -> 12 équipes / 33 méthodes

2013 : 12 équipes / 9 pays / 33 méthodes

La tâche proposée :ICMC, Univ. Sao Paulo, Brésil.

Vicomtech, San Sebastian, Espagne

LIRIS, Lyon, FR.

I3S Sophia, FR.

Inria - Pl@ntNet, FR.

Justus-Liebig-Univ., Giessen, All.

Univ. Des tech. de Brandebourg, All.

Univ. Alexandru Ioan Cuza, Roumanie.

Sabanci Univ., Istanbul, Turquie.

Northwest A&F Univ., Yangling, Chine.

MICA, Hanoi, Vietnam

NLabU, Tokyo, Japon

La campagne d’évaluation

ICMC, Univ. Sao Paulo, Brésil.

Vicomtech, San Sebastian, Espagne

LIRIS, Lyon, FR.

I3S Sophia, FR.

Inria - Pl@ntNet, FR.

Justus-Liebig-Univ., Giessen, All.

Univ. Des tech. de Brandebourg, All.

Univ. Alexandru Ioan Cuza, Roumanie.

Sabanci Univ., Istanbul, Turquie.

Northwest A&F Univ., Yangling, Chine.

MICA, Hanoi, Vietnam

NLabU, Tokyo, Japon

La campagne d’évaluation2013 : 12 équipes / 9 pays / 33 méthodes

Les résultats obtenus :

• Caputo & al., En cours. LNCS.

Man Vs Machine96 observations aléatoires, résulat limité à 3 images.Juste les images, pas de libre, pas d’internet, pas d’autres ressourcesPas de temps limite

Moteur d’indexation d’images

Requête Utilisateur

Extraction de caractères visuels

Index visuel par organe

Liste ordonné d’espèces

Traitement des requêtes

❖ Banc de tests Evaluations automatisées des performances :

✓Descripteurs visuels,✓Stratégies utilisateurs,✓Données d’apprentissage,✓Bases de connaissances,✓Stratégies de fusion des résultats,

✓Exploitation des exifs (dates, focales)

✓Exploitation d’informations complémentaires

Côté serveur : Incubation technologique

Le SI Pl@ntNet

Pl@ntNet-DataStorePl@ntNet-Identify

Stockage “Big-Data”

BD Tela-Botanica

Pl@ntNet-DataManager

DB distribuées projets de recherche

IdentiPlante / PictoFlora

Pl@ntNet-Publish

Observation TerrainAide à l’Identification

Pl@ntNet-Community

Publication sur le web

Réseau Social Validation Collaborative

Moteur d’Indexation d’image

Pl@ntNet–DataStore

Aggrégation des données

Aggrégation, stockage et exploration de données d’observations botaniques issues de sources hétérogènes+ gestion de référentiels / projets

Application web d’exploration et de correction en masse.

Observations botaniques :

AuteurDate ObsTaxon Lieu géographiqueImagesMeta-info...

Référentiels TaxonomiquesFamille / Genre / Espèce

1 projet = 1 référentiel

Base de données distribuée NoSQL cloud-ready (Big-Data)

Des espaces collaboratifs de validation et d’annotation

IdentiPlanteObservations botaniques

PictoFloraValidationet annotation des photos

Contexte centraliséBdd relationnelles à structure fixe

Relation client / serveur

Contexte décentraliséChacun crée et gère sa propre base de

données et echange avec ses partenaires

Pl@ntNet–DataManager

Gestion de données pour la recherche

Fournir une plateforme de gestion de données générique pour des projets de rechercheautour de données, afin de faciliter l’échange et le partage.

Pl@ntNet–DataManager

Des outils de gestion de données

✓Architecture distribuée, fonctionnement en ligne / hors ligne✓Synchronisation de données entre bases distantes à la demande✓Détection des conflits (en cas de modification concurrente)

✓Création libre des structures de données,✓Exploration de données (recherche full texte, carte, galleries, requetes)✓Edition de données✓Interface Web multi utilisateur✓Déploiements actuels : Montpellier, Pondichery, Yaoundé, (antilles et afrique du sud à venir)

Pl@ntNet–DataManager

Vers des réseaux de données

Spécialiste taxonomiste Spécialiste

Région ASpécialiste Région B

Spécialiste Région C

BD taxonomique de référence

BD observations globales

BD observations régions B & C

BD publique Région A

Des outils de diffusion de données

✓ Rendre visible les données collectées,

✓ Faciliter leur diffusion et mise à jour

✓ Indépendamment du type et de leur structuration

Ressources génétiques Pl@ntNet–Publish

Toute personne ayant un jeu de données autour d’observations botaniques (herbiers, projet de recherche etc…) peut créer son site Pl@ntNet-Publish.

Des outils de diffusion de donnéesCollections – Relevés de terrain Pl@ntNet–Publish

Architecture de Webservices

Communication et échange de données par webservices entre les différents composants du SI (Appel de procédure distantes / communication machine-machine)

Facilité et souplesse de mise en oeuvre et de développementStandardisé (HTTP / JSON)API publique et/ou privéeEvolutivité Répartition de la charge et des responsabilités

Bases de données NoSQL

Utilisation de systèmes de base de données NoSQL permettant

- De faciliter le déploiement sur le cloud- De répartir les bases de données chez

les différents partenaires- Faciliter la répartition et l’échange de

données

Différents types de base NoSQL- Entrepot clé / valeur (redis)- Entrepot de documents (couchdb, mongodb)- Entrepot Orienté colonne (cassandra)- Entrepot orienté graphes (neo4j)

Origine du NoSQLSQL : Algèbre ensembliste (1970)

=> Eviter la redondance des données, => Structurer et Requeter les données=> Ressources limitées

NoSQL : Réponse pragmatique à des problèmes de gestion de données en masse (big-data) et distribuées (2000). Google, Facebook…

=> Stocker et retrouver des données en masse (en PO)=> Faciliter la montée en charge par la distribution et le

partitionnement des données=> Ressources illimitées (ou peu couteuse)=> Faciliter le travail de développement

Non Relationnel

Theorème CAP● Cohérence (tout est à jour tout le temps)● Disponibilité (toujours une reponse)● Résistance au morcellement (l’absence d’un

noeud n’est pas bloquant)Seul 2 propriétés peuvent etre satisfaites en meme temps

Apache CouchDB● On ne stocke plus des lignes dans des tables, mais des documents

semi - structurés

● Indexes secondaires Map-Reduce sur les documents○ Pas de requetes SQL

● Synchronisation Multi-Maitres○ L’écriture de données peut se faire sur n’importe quel noeud.○ Réplication asynchrone / Détection de conflits○ Possiblité de mode hors-ligne ou d’internet non fiable.

{ _id : “123456”, _rev : “...”, author : { nom : “dufour-kowalski”, prenom : “samuel” }, taxon : “Abies alba Mill.”, date : “10/09/2014 12:24”, loc : { lat : 45.2334 , lon : 3.23455 }, images : [ … ]}

Choix du NoSQLNoSQL● Distribution des données / Partitionnement des données ● Changement fréquent de structuration, données mouvantes.● Proche des problèmatiques de développement (Pas d’ORM, structure de

données compatible avec les structures natives les langages de programmation), Facilité de manipulation.

● Plus adapté aux méthodes agiles (car adapté au changement)● Des données applicatives (on sait comment on utilise les données)● Des données en masse peu structurées.● Pas de règles d’intégrités et de validation (sauf au niveau applicatif).

SQL (ou relationnel)● Requetage très puissant (et rapide si bien utilisé)● Transaction ACID (vs coherence finale en NOSQL)● Maitre - Esclave ● Structuration forte des données. Peu de changement. ● Intégrité des données. Centralisation des données. ● Modélisation importante● Des données utilisables dans différents contextes applicatifs.

Besoin de s’adapter à tout type de requêtes

Des Technologies...

- Base de données NoSQL : CouchDB / MongoDB- Webservices REST : Node.JS / REST / JSON- Appli Web HTML5 / Mobiles Natives

❖ AGAP❖ Reconnaissance variétale (ARCAD-FEDER)❖ Implication potentielle dans des initiatives du domaine de l’Agro-biodiversité

❖ PVBMT❖ Travail en cours sur la Flore de la Réunion❖ Discussions sur le reconnaissance d’insectes, de maladies,

❖ DIADE❖ Bdd génomique et architecturale sur les caféiers

❖ AGIRs❖ Herbier ALF (flore des paturages)

❖ Perspectives scientifiques dans les domaines de la surveillance écologique (cf. exploitation des données), le Big Data (cf. passage à l’échelle), de l’agro-biodiversité, l’optimisation des flux (cf. mécanismes de recommandations)

❖ Perspectives dans le domaine éducatif (cf. Floris’Tic / Ec. françaises à l’étranger)

❖ Partenariats socio-économiques (Ecotourisme, Horticulture)

Sélection de coll. & Perspectives