présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole...
Post on 02-Jul-2015
198 Views
Preview:
DESCRIPTION
TRANSCRIPT
www.irstea.fr
Pour mieux
affirmer
ses missions,
le Cemagref
devient Irstea
Fabien AMARGER, Stephan BERNARD, Jean-Pierre
CHANET, Catherine ROUSSEY
Vers le développement du web de données agricoles
2
Plan
Web sémantique, Web de données
le web de données agricoles?
Système de Recherche d’Information sur les BSV
SWIP interroge des annotations RDF
Les ontologies agricoles: méthode de développement
Ontology Design Pattern
Thèse de Fabien Amarger: réutiliser des sources
Conclusion et perspectives
3
Web sémantique, ontologies, web de données
Image de Benjamin Nowak
World Wide Web Consortium (W3C)
4
Linked Open Data (LOD) ou web de donnéesETAT DES LIEUX
Publication des données et de leur schémas
sur le web
Identifier et lier les données
[ Franck van Harmelen 2008]
Agriculture dans le LOD?
Données géographiques,
Données statistiques
Sciences du vivant
(observation des espèces)
5
Ontologies agricoles et recherche d'information
sémantique
Problématique
• Le web de données agricoles est peu développé
• Il existe de nombreuses sources d’information : thésaurus, BD, alertes
agricoles, textes réglementaires
• Comment construire des ontologies agricoles réutilisables pour publier sur le
web de données et développer des systèmes d’interrogation dédiés
Proposition
• Utiliser de Design Pattern Ontologiques (ODP) et des schémas connus de
vocabulaires de métadonnées [WOD 2013]
• Réutiliser et transformer des sources viables existantes [Thèse de Fabien
Amarger]
• Cas d’usage de l’application SWIP de l’IRIT : génération de patrons de
requêtes propres au domaine étudié
Cas d’étude
Bulletins de Santé du Végétal, données capteurs
6
Sources de données agricoles
Plusieurs ressources dédiées au domaine agricole
•Thesaurus/ classification/ Taxonomie:
Agrovoc, TaxRef, NCBI
•Base de Données :
e-phy, EPPT
•XML Schema :
AGROXML, GIEA
•Collection de documents:
Bulletin de Santé du Végétal
•Forum/web site:
wikipedia, wikispecies
•Ontologies/ dataset RDF: biotop, plant, oboe
Web de Données Agricole
•Certaines sources sont déjà sur le web de données: Agrovoc, wikipedia
• Le web de données est principalement anglophone
7
Perspectives sur les ontologies agricoles:QUE VEUT FAIRE IRSTEA
1. Proposer des méthodes de construction d’ontologies
Evaluer les méthodes existantes et les adapter pour les besoins agricoles
Réutiliser des sources de données non ontologiques
Automatiser la construction des ontologies pour des besoins spécifiques
Agriculture un cas particulier de modélisation spatio-temporelle
2. Améliorer la qualité des ontologies
Développer des méthodes de détection d'erreurs: Antipatterns
Concevoir et réutiliser des Design Patterns Ontologiques (ODP)
3. Eprouver l'utilité des ontologies dans des applications dédiées
Publier et lier des données agricoles sur le web de données
Rechercher et interroger des données agricoles
Observation des cultures + changement climatique
Observation des bio-agresseurs + préconisation de bonnes pratiques
8
Processus d'Interrogation SWIP de l'IRITSEMANTIC WEB INTERFACE USING PATTERN
Interprétation de la requête en langage naturel
Ontologie +
triplets RDF
Requête exprimée en langage naturel
Requête exprimée en langage pivot
Liste de requêtes formelles classées
Patrons
Formalisation de la requête
en langage pivot
phrases explicatives
Interrogation en français d’une base de triplets RDF
9
Le Système de Recherche d’Information
SWIP
pdf Internet
Archiveurl
Annotation Triple store RDF
Stockage
Interrogation
Modélisation
Ontologies
annotations
10
Cas d'Usage: Annotation des Bulletin de Sante
du Végétal (BSV)Bulletin d’alerte français contient des observations sur le
développement des cultures et les risques d’attaques de leurs
agresseurs
BSV distribués sur le web au format pdf
BSV hétérogènes: Différents auteurs, Différents style de
présentation, Différents contenus (texte structuré, tableau, image)
Aider la recherche d'information dans ces BSV + reconstruire
des données d'observation des cultures documentées par les
BSV
Comment aider l'annotation de ces BSV pour construire
des ontologies sur les observations des cultures et de leurs
attaques?
• Annotations Spatio-temporelles,
•Interaction entre plusieurs organismes vivants: une plante cultivée et
ses agresseurs
11
Irstea Agronomic TaxonDESIGN PATTERN ONTOLOGIQUES (ODP)
Il existe déjà des ODP en lien
avec l'agriculture
• FAO (projet Neon): isPestOf,
LinneanTaxonomy
• Données observations des
espèces disponibles sur le
Web de données :Geospecies
ontology, TaxonConcept, …
Fusion, intégration et
enrichissement de ces ODP
Pour répondre à nos besoins.
• Méthode de développement d’
ontologies à partir d’ODP
12
Réutilisation de sources agricoles
Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI
Extraire des données de chaque source et les agréger en suivant les ODP
Construction d'ontologies modulaires
13
Cas d'Usage: Annotations des BSVPROCESSUS ITÉRATIFS D'ANNOTATION
Ontologies
agricoles
1) Reformater les BSV
2) Tenir compte de la structure
des textes pour déduire des
données utiles
Annotation complexes=
•Attaque d'un type de culture
•Par un bio-agresseur
•Quand
•Où
•A quel niveau de risque
outil d'extraction d'information
La base d'annotations =
ontologie peuplée d'observations
des culturesAnnotations
RDF
14
Collections des BSV à l'Irstea
Tous les bulletins de 2011 des 19 régions= 2825 BSV
Focus: grande culture de la région Bourgogne = 37 BSV
Projet Vespa de INRA
• Début: Automne 2013
• Analyse sociologique des BSV
• BSV stocké sur Internet Archive sous forme de collection
une page web par BSV
Problèmes rencontrés:
• Identifier les BSV et leur donner une URL valide
• Difficultés à extraire le contenu textuel des BSV
• Besoin de normalisation: les noms des filières agricoles
• La liste des cultures dépend du pays: plante un agresseur ou une
culture
15
Conclusion et Perspectives
Des spécifications du workflow d’annotation des BSV en devenir
Besoin de définir un modèle d’annotations spatio-temporelles des
observations
Construction d’ ontologies modulaires basé sur des ODP
• 1 module créé / 5 modules
• AgronomicTaxon (WOD 2013)
• plantes cultivées, agresseurs, adventices, maladies
• Cultures: parcelle culturales avec un profil de culture
• Variétés et propriétées des variétées
• Observations spatio temporelles d'attaques sur les cultures
more on googlesite agriontology
16
BSV
La région
La date de
parution
Les auteurs
Filière
agricole
Le numéro
17
BSV
L’agresseur
Le stade de
développement
de la culture
la culture
Le niveau de risque
18
Annotation fine : Objectifs
19
20
Agronomic Taxon
21
Processus d'annotation
Extraction
brute
top related