systèmes d’information ontologies bases de … · l’architecture d’une application...
TRANSCRIPT
![Page 1: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/1.jpg)
Systèmes d’information-
Ontologies Bases de connaissances
TC3- UE Bioinformatique M2 Recherche 2006-2007 - 5 octobre 2006
http://imgt.cines.fr
![Page 2: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/2.jpg)
1Système d’information (SI)
Ensemble des moyens
organisation (CNRS,…), acteurs, systèmes informatiques
nécessaires au traitement et à l’exploitation des informations dans le cadre d’objectifs définis
![Page 3: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/3.jpg)
http://imgt.cines.fr
IMGT®, the international ImMunoGeneTics information system
![Page 4: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/4.jpg)
http://imgt.cines.fr
IMGT, the international ImMunoGeneTics information system® http://imgt.cines.fr
![Page 5: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/5.jpg)
Système informatique Partie automatisée d’un système d’information.
Le système informatique regroupe :
• le matériel physique et câblage (PC, réseau,….)• Le réseau (adresse IP, noms, …)• Le(s) système(s) d’exploitation (Windows, Linux, …)• Sauvegardes
• L’application et ses éléments d’accompagnement: bases de données, logiciels de développement,interfaces d’exploitation, …
![Page 6: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/6.jpg)
• Contenir toutes les séquences Ig et TcR des bases EMBL/GenBank/DDBJ de 106.000 séquences de 150 espèces
• Expertiser les séquences en fonction des connaissances en immunogénétique
- description des motifs, - identification des gènes, …
• Suivi et intégration des nouvelles connaissances
Les objectifs de IMGT/LIGM-DB
http://imgt.cines.fr
![Page 7: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/7.jpg)
• Elles sont nombreuses
• Une forte similitude
• De petites différences très significatives
• Des nomenclatures hétérogènes
Particularités des séquences IG et TR
http://imgt.cines.fr
![Page 8: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/8.jpg)
Administration et contrôle de données dans un système d'information: exemple de IMGT/LIGM-DB
1- Contrôler et coordonner les flux des données de différentes sources dans la base: comment coordonner l’entrée des séquences (700 arrivées par semaine) , des annotations et la distribution?
2- Gérer les accès aux données : qui annote les séquences, quelles informations peuvent être consultées, extraites et modifiées, et par qui?
http://imgt.cines.fr
![Page 9: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/9.jpg)
Entrées EMBLNouvelles séquences/
Mises à jour
Entrées EMBLNouvelles séquences/Mises à jour
Candidats IG et TR
ftp
IMGT/LIGM-DB: application distribuée
présélection
Entrées EMBLNouvelles séquences/Mises à jour
Candidats IG et TRexpertise IMGT/LIGM-DB
http://imgt.cines.fr
![Page 10: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/10.jpg)
utilise plusieurs machines
L’architecture d’une application distribuée est donnée par:– la description des machines utilisées,– les fonctions de ces machines pour l’application:
• fonction stockage des données • fonction traitements des données• fonction interface utilisateur
Une application informatique distribuée
![Page 11: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/11.jpg)
Database (RDBMS Sybase)
Data
Distribution
Flat files distribution
Web server
Java APITemporary tables
Definitive tables
Reception tables
Data Coherence
Data Integrity
Adminis tration
AnnotationLIGM Expertise
Knowledge tables
DataReception
EMBL Flat FilesAuthor
Submission
http://imgt.cines.fr
Contrôler et coordonner les flux de données
![Page 12: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/12.jpg)
A l’arrivée dans IMGT
![Page 13: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/13.jpg)
http://imgt.cines.fr
Après expertise dans IMGT
![Page 14: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/14.jpg)
A l’arrivée dans IMGT
![Page 15: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/15.jpg)
Après expertise dans IMGT
![Page 16: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/16.jpg)
Etat avant traitement
Réception
Chargement
Prise en charge par un annotateur
Evénements
-
Traitements
(locked) : indique que l'entrée est prise en charge par un annotateur
Enregistrement dans les tables opérationnelles
Arrivée d'une nouvelle entrée
Arrivée d'une mise à jour
Annotation d'une entrée
existante
NEW
IMPORTED
IMPORTED (locked)
NEWREADY
VALIDED VALIDED
UNVALIDED (locked)
VALIDED
READY
VALIDED
UPDREADY
UPDUNVAL (locked)
UPDRUN
VALIDED
UPDATED UPDQUITE
Tables définitives
Tables définitives
Tables de réception
Tables temporaires
http://imgt.cines.fr
![Page 17: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/17.jpg)
IMGT/LIGM-DBSéquence nucléotidiques
IG et TR
Vocabulaire contrôlé
IMGT reference directory
IMGT/LocusView..
IMGT/PRIMER-DBoligonucléotides
IMGT/3Dstructure-DBStructures 3D IMGT/Phylogene
IMGT/GeneFrequency
IMGT/V-QUESTIMGT/JunctionAnalysis
IMGT/GENE-DBGènes IG et TR
![Page 18: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/18.jpg)
Rôles des responsables de SI
Assurer la cohérence d'un ensemble d'informations qui comprend des données (dans une base de données...), des applications, interfaces pour un ensemble d’utilisateurs
On demande en plus:• la disponibilité de l'information le plus rapidement
possible• simultanément sous différents formats• à travers diverses interfaces • "tout le monde" veut offrir des services
Les utilisateurs ont des demandes difficiles à anticiper, qui évoluent rapidement
![Page 19: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/19.jpg)
• Les systèmes d'information n'ont jamais été conçus pour durer si longtemps ou pour être résistant au temps qui passe (bug de l’an 2000)
• Il faudrait adapter de certaines méthodes, standards, protocoles dépassés / oubliés.
• Les versions des outils, standards, middleware changent plusieurs fois au cours d'un même projet.
• "la toute dernière release, (ou la version beta)" des outils disponibles comprend souvent de noumbreux bugs.
Complexité des SI
Quand c'est enfin mature, c'est déjà obsolète !
![Page 20: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/20.jpg)
La durée de vie d’un SI dépend de
• Portabilité il existe plusieurs plateformes alternatives qui peuvent faire tourner le système
• Evolutivité : un système est évolutif, on peut:- ajouter des fonctionnalités - augmenter ses capacités maximum - l'adapter à des besoins différents / nouveaux - corriger des dysfonctionnements
• Réutilisation Un système est réutilisable s'il peut être intégré (en totalité ou en partie) dans un nouveau projet.
• Standardisation: ensemble de propriétés décrites dans une norme, supportée ou certifiée
par un organisme officiel.
![Page 21: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/21.jpg)
Information et connaissance
•Une Information comprend des données primaires issues l’expérimentation (mesures, images, séquences) ainsi que les données secondaires qui comprennent aussi ce qu’il est nécessaire de connaître pour leur analyse.
(résultats + matériels & méthodes).
•La connaissance inclut tout ce qu’il est nécessaire pour réaliser l’annotation des données, telle qu’elle peut être réalisée par des experts dans un domaine particulier.
=> vocabulaire contrôlé, standardisé, règles d’annotation, dépendance entre les termes
![Page 22: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/22.jpg)
2
Ontologies
Bases de connaissance
-
IMGT-ONTOLOGY
![Page 23: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/23.jpg)
Qu’est-ce qu’un gène?=> plusieurs définitions
Dans une base de données:
établissement d’un dictionnaire des données mises en place de contraintes à travers un vocabulaire contrôlé
Recherches bibliographique à travers des thesaurus de mots clés
Comment ces termes sont –ils reliés?
Quelques exemples de questions
![Page 24: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/24.jpg)
Le vocabulaire contrôlé des bases de données généralistes DDBJ/EMBL/GenBank
Des codes pour indiquer les types d’information
![Page 25: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/25.jpg)
http://www3.ebi.ac.uk/Services/WebFeat/
EMBL Feature labels
![Page 26: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/26.jpg)
http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html
EMBL Feature labelsV
J
N
D
![Page 27: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/27.jpg)
http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html
EMBL Feature labelsV N
JD
![Page 28: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/28.jpg)
Définition de la fonctionalité dans IMGT
![Page 29: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/29.jpg)
http://imgt.cines.fr/cgi-bin/IMGTlect.jv?query=7#
List and definition of IMGT standardized labels
(VJ)-J-CLUSTER
V-J-GENE J-GENE
5' 3'
![Page 30: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/30.jpg)
Une ontologie définit formellement les termes employés pour décrire et représenter un domaine de connaissance.
Les ontologies sont destinées à être utilisées par:
• des personnes• des bases de données • des applications
ayant besoin de partager des informations.
Ontologies
![Page 31: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/31.jpg)
Au sein d’une ontologie, les termes sont regroupéssous forme de concepts (ou classes) sémantiques.
Les ontologies incluent les définitions, informatiquement exploitables, des concepts élémentaires et de leurs relations.
Les ontologies doivent permettre le partage et laréutilisation des connaissances.
Ontologies
![Page 32: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/32.jpg)
Une ontologie ainsi que l'ensemble des instances individuelles des concepts constituent une base de connaissances. Une frontière subtile marquela fin d'une ontologie et le début d'une base de connaissances.
Bases de connaissances:
![Page 33: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/33.jpg)
Les ontologies en Biologie
•On s’interresse aux ontologies qui sont du domaine publique.
•Leur nombre augmente régulièrement (besoin de définir de partager).•Elles couvrent des sujets et domaines différents.
OBO (Open Biological Ontologies) recense les ontologies en biologie. (http://
obo.sourceforge.net/)
![Page 34: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/34.jpg)
![Page 35: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/35.jpg)
![Page 36: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/36.jpg)
Gene Ontology.•GO a été créée en 1998. GO résulte d’une collaboration
entre plusieurs bases de données (FlyBase ,drosophile, the Saccharomyces Genome Database, et des base de données de génomes (homme et souris), etc.
•GO comprend 3 parties axées sur :– la fonction moléculaire (fonction des gènes exprimés ex: ATPase activity.– le processus biologique (rôles biologique généraux de fonctions moléculaire complexes ex: la mitose).– les composants cellulaires (structures subcellulaires, localisation des complexes macromoleculaires ex: le noyau, le télomère).
![Page 37: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/37.jpg)
![Page 38: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/38.jpg)
![Page 39: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/39.jpg)
![Page 40: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/40.jpg)
![Page 41: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/41.jpg)
![Page 42: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/42.jpg)
![Page 43: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/43.jpg)
immunoglobulin production during immune response graphical View
![Page 44: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/44.jpg)
![Page 45: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/45.jpg)
![Page 46: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/46.jpg)
Dans le domaine de l’immunogénétique
Problèmes et limites de GO:
- Comment se compose le site de reconnaissance d’un anticorps?
- Quels sont les motifs constitutifs importants?
- Comment caractériser précisément des séquences d’IG (.. et des TR): identification, classification des gènes, description, numérotation des acides aminés, obtention ?
![Page 47: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/47.jpg)
Sequence Ontology: une ontologie pour décrire les séquences biologiques
![Page 48: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/48.jpg)
- Vocabulaire controlé pour l’annotation des séquences nucléotidiques
- proposer une representation structurée des annotations
- vocabulaire pour la description des mutations
Sequence Ontology:
![Page 49: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/49.jpg)
![Page 50: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/50.jpg)
Sequence Ontology dans OBO-edit
![Page 51: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/51.jpg)
Sequence Ontology dans OBO-edit
![Page 52: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/52.jpg)
Sequence Ontology dans OBO-edit
![Page 53: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/53.jpg)
Dans le domaine de l’immunogénétique
Limites de SO:
- Il est nécessaire de prendre en compte d’autres informations type de gènes, type de chaîne, …
- Il faut des relations plus précises que « part_of » entre les motifs
- Comment caractériser précisément des séquences d’IG (.. et des TR): identification, classification des gènes, description, numérotation des acides aminés, obtention ?
=> nécessité d’une ontologie spécifique
![Page 54: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/54.jpg)
Pour standardiser, partager, réutiliser et représenter les connaissances en immunogénétiqueIMGT-ONTOLOGY regroupe 6 concepts:
IMGT-ONTOLOGY
IDENTIFICATION
DESCRIPTION
CLASSIFICATION
OBTENTION
NUMEROTATION
ORIENTATION
![Page 55: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/55.jpg)
IMGT-ONTOLOGY
IMGT Scientific chart : IMGT-ONTOLOGY en langage naturel pour les biologistes
IMGT-ML : formalisation en XML à des fins de programmation
En cours : édition avec Protégé pour faciliter la représentation et le partage
(agents humains et logiciels)
![Page 56: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/56.jpg)
![Page 57: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/57.jpg)
The "IDENTIFICATION" concept identifies IG or TR
Functionality
functionalORFpseudogeneproductive
Species
humanmouse..
Gene typevariablediversityjoiningconstant
Configuration
germlinerearranged
Chain type
Ig-HeavyIg-Light-LambdaTcR-AlphaTcR-Beta...
Structure type
regulartranslocated ...
Receptor
IgATcR gamma-delta
Molecule type
genomic DNAcDNAprotein..
"IDENTIFICATION"
Specificity
Anti-DNAAnti-HIV ...
http://imgt.cines.fr
![Page 58: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/58.jpg)
Instances de Gene Type Instances de Configuration Type
Relation entre Gene Type et Configuration Type
Exemple de representation avec Protégé
![Page 59: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/59.jpg)
Exemple de representation avec ProtégéInstances de Functionality
Relation entre Functionality et Configuration Type
![Page 60: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/60.jpg)
http://imgt.cines.fr
![Page 61: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/61.jpg)
"CLASSIFICATION"
The "CLASSIFICATION" concept organizes the immunogenetics knowledge useful to name and classify IG and TR genes in IMGT.
group
subgroup
allele
locus
is a member of an instance of
is a member of an instance of
is a variant of an instance of
is ordered in an instance
of
IGLV
IGLV2
IGLV2-11
IGLV2-11*02
human IGL(22q11.1-q11.2)
is ordered in
is a member of
is a variant of
is a member of
A B
gene
http://imgt.cines.fr
![Page 62: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/62.jpg)
![Page 63: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/63.jpg)
![Page 64: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/64.jpg)
V-GENEV-EXON
FR1-IMGT FR2-IMGT FR3-IMGT
L-PART1
V-REGION
CC5 ’UTR 3 ’UTR
CD
R3
-IMG
TDONOR-SPLICE
W
V-GENE V-EXON
FR3-IMGT CDR3-IMGT
L-PART1 DONOR-SPLICE
V-REGION FR1-IMGT
Label 1 Label
V-REGION CDR3-IMGT
Label relations
"DESCRIPTION"
![Page 65: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/65.jpg)
![Page 66: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/66.jpg)
http://imgt.cines.fr
![Page 67: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/67.jpg)
"NUMEROTATION"http://imgt.cines.fr
Alignmentof alleles
ProteinDisplay
Collier De
Perles
![Page 68: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/68.jpg)
The "OBTENTION" concept specifies the origin and methodology
"OBTENTION"
libraries- genomic- cDNA-combinatorial
origine methodologie
transgenic- animal- plant
PCR
cell, tissue, organ- PBL- liver
autoimmune diseases- autoantibody- rheumatoid factor
clonal expansion diseases- leukemia- lymphoma- myeloma
hybridoma- monoclonal antibody
http://imgt.cines.fr
![Page 69: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/69.jpg)
« ORIENTATION »http://imgt.cines.fr
![Page 70: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/70.jpg)
IDENTIFICATION
Annotation and IMGT-ONTOLOGY concepts
![Page 71: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/71.jpg)
DESCRIPTION
CLASSIFICATION
OBTENTION
NUMEROTATION
Annotation and IMGT-ONTOLOGY concepts
![Page 72: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/72.jpg)
Les atouts de IMGT-ONTOLOGY
• Définir un vocabulaire précis et spécifique du domaine qui permette de décrire en détail toutes les caractéristiques des IG et des TR
• Proposer ce vocabulaire standardisé comme critères de sélection dans la base
1 - Pour les utilisateurs:
![Page 73: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/73.jpg)
• Faciliter la communication au sein de l’équipe • Faciliter la formation du nouveau personnel
• Etablir les règles d’annotation qui expriment les dépendances entre les termes du vocabulaire
2 - Pour les annotateurs du laboratoire:
Les atouts de IMGT-ONTOLOGY
![Page 74: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/74.jpg)
• Alléger le travail des annotateurs
• Développer des outil d’annotation
3 - Automatisation des procédures:
Les atouts de IMGT-ONTOLOGY
![Page 75: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/75.jpg)
• Modifier les règles existantes
• Appliquer les modifications aux données préexistantes
4 – Intégration des nouvelles connaissances en immunogénétique
The international ImMunoGeneTics database, http://imgt.cines.fr:8104Laboratoire d’ImmunoGénétique Moléculaire, IGH, CNRS, Montpellier
Les atouts de IMGT-ONTOLOGY
![Page 76: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/76.jpg)
Exemple d’aplication: la mise à jour/contrôle des annotations
1 – Nouvelle nomenclature des gènes
2 – Nouveaux gènes
The international ImMunoGeneTics database, http://imgt.cines.fr:8104Laboratoire d’ImmunoGénétique Moléculaire, IGH, CNRS, Montpellier
![Page 77: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/77.jpg)
Contrôle des annotations des gènes germline TRAV chez la souris
Base de donnéesLIGM-DB
Vérification automatiques des annotations
Sélection de données
Entréessélectionnées
Entrées correctes Erreurs identifiées
pas de traitement
non acceptéeacceptée
propositionde correction
Entrées corrigées
correction desannotations
Procédured'annotation
analyse
annotations non modifiées
Exception
Nouveau prototype
![Page 78: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/78.jpg)
Annotation manuelle (séquences d’ADN génomique)
- la plus précise - la plus fiable - indispensable pour la caractérisation de nouveaux gènes
et génomes
Annotation automatique (sequences d’ADNc)
- efficace quand les règles sont connues - indispensable compte tenu du volume de données publiées
Exemple :la stratégie d’IMGT pour l’annotation des séquences en immunogénétique sur
Basée IMGT-ONTOLOGY
• Contrôles de cohérence • Qualité très proche de l’annotation manuelle • plus de 9000 ADNc annotés automatiquement
![Page 79: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/79.jpg)
V-REGION
D-REGION J-REGION
IMGT/JunctionAnalysis: analyse de la jonction
5 ’UTR 3 ’UTR
IMGT/LIGM-DB: sélection de séquences cDNA
L-REGION
FR1-IMGT FR2-IMGT FR3-IMGTCC W
W/F
JUNCTIONC-REGION
L-V-D-J-C-SEQUENCE
IMGT/V-QUEST: identification des gènes V, D, J ou V, J
Evaluation de la fonctionnalité
Contrôle des critères d’identification de la séquence
Procédure d’annotation (comme les annotateurs)
Automat, programme Java
![Page 80: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/80.jpg)
L’équilibre des SI
introduire une innovation rester standard / compatible
augmenter l'intégration avec d'autres systèmes
préserver la capacité à évoluer du système
![Page 81: Systèmes d’information Ontologies Bases de … · L’architecture d’une application distribuée est donnée par: – la description des machines utilisées, – les fonctions](https://reader031.vdocuments.pub/reader031/viewer/2022022613/5b9cfa1409d3f253158b5bbf/html5/thumbnails/81.jpg)
http://imgt.cines.fr