gopubmed - ontologie- basierte...
TRANSCRIPT
GoPubMed - Ontologie-
basierte Literaturrecherche
für die Lebenswissenschaften
Dipl. Inf. Andreas DomsTechnische Universität Dresden
Fakultät InformatikBiotec
Agenda
Ontologie-basierte Suche im Kontext desSemantischen Webs
Ontologie-basierte Informationsextraktionin großen Textbeständen
Ontologie-basierte Literaturrecherche
Anwendungsbeispiele aus denLebenswissenschaften
GoPubMed
Tim‘s Vision
T. Berners-Lee, J. Hendler and Ora Lassila, „TheSemantic Web“, Scientific American, 2001
Evolution des Webs vom größtenteils textuellenhin zum Daten- und Informationsenthaltendenglobalen Datennetz
Agenten verarbeitbare Daten, die durch einesemantische Theorie Symbolen Bedeutungzuordnet
Einfache Idee, bisher nicht umgesetzt
Semantics 2006
Ora Lassila zeigt zwei Sichten auf dasSemantic Web auf:
Semantische Anwendungen aufWebtechnologien aufbauend
Semantische Technologien um neueWebanwendungen aufzubauen
… und erwähnt GoPubMed in seinen Blog
Domänenübergreifend
Modell
Kom
ple
xität
FoaF
WordNetas RDF/OWL
GeneOntologyas RDF/OWL
Web2xSemantic Publishing
UniProtas RDF/OWL
Webanwendungen mit unterschiedlicher
Komplexität und Domänenbeschränkung
ont.basierte Suche
Domänenübergreifend
Modell
Kom
ple
xität
Webanwendungen mit unterschiedlicher
Komplexität und Domänenbeschränkung
ont.basierte Suche
?
Semantic Web Anwendung in den
Lebenswissenschaften
Abgleichen von Hypothesen mit Hilfe derLiteratur
An welchen molekular-biologischenProzessen ist ein bestimmtes Proteinbeteiligt?
Technisches
Standards müssten weiter angenommenwerden
„RDF filetype:rdf “ 1.090.000 Google hits„OWL filetype:owl“ 39.800 Google hits
bisher keine Vermittlung zwischen denDaten mit Hilfe von Agenten im großenStil
Shopping Bots sind meist sehr spezialisiertbessere Akzeptanz von Mikroformaten wie zB.RDFa könnten helfen
RDFa für Dublin Core Ontologie
Dublin Core beschreibt Bücher, Artikel usw. mit Autoren, Titeln und Subjects.
RDFa für die Gene Ontologie
Dublin Core beschreibt Bücher, Artikel usw. mit Autoren, Titeln und Subjects.
Semantic Gap
Daten-Integration mit Hilfe von Ontologienmehr und mehr RDF basierte SchnittstellenUniProt(Proteine), Entrez Gene(Gene), GeneOntology(Genprodukte)Oracle 10g unterstützt natives RDF storing/querying Strukturierte Datenbasen müssen gemeinsame Ontologienverwenden (OBO Ontologies)
überwiegender Teil biomedizinischer Erkenntnisse istderzeit nur in textueller Form verfügbar
Automatische oder manuelle Erstellung für semantischeMarkups in unstrukturierten Daten(MediaWiki, IkeWiki, Platypus Wiki)
Daten Integration in den
Lebenswissenschaften
PubMed
(16.000.000 Artikel)UniProt (Proteine)
PDB (3D Strukturen)
KEGG (Pathways)
SCOPPI (Strukturelle
Interaktionen)
Edinburgh Mouse Atlas (123 sliced mouse embryos)
Ontologie-basierte suche im Kontext
des Semantischen Webs
semantische Anwendungbasierend aufWebtechnologienLebenswissenschaftenprofitieren besonders vonDaten-Integrationspannende Nutzung vonVokabularen derLebenswissenschaften
Ontologie-basierte
Informationsextraktion in
großen Textbeständen
Texte mit Hintergrundwissenanreichern
PubMed
600.000 Wissenschaftler arbeiten in denLebenswissenschaften (Biologie,Medizin,…)
Literaturdatenbank enthält 16.000.000wissenschaftliche Zusammenfassungenund Links zu den Volltexten
jährlicher Zuwachsca. 500.000
Number of PubMed Abstracts
0
2,000,000
4,000,000
6,000,000
8,000,000
10,000,000
12,000,000
14,000,000
1960 1970 1980 1990 2000 2010
Year
PubMed
einige Metainformationen zugänglich, aberunvollständig
Link zum PDB Eintrag (unvollständig)
Authorennamen (aber keine vCard o. FoaF)
Artikeltyp (aber keine Referenzen)
Mesh-Ontologieterme (semi-manuell, aber umca. 1 Monat verzögert)
Link zu UniProt (aber ohne Qualifizierung)
PubMed
Inhalte vieler Experimente und Untersuchungenbleiben verborgen für Software-Agenten
Zukünftig?
„self-publishing of experiment“ W3C interestgroup (SPE)
Andere Vokabulare: Dublin Core, SKOS, FOAF,SIOC, RSS, DOAP
aber was passiert mit 16.000.000 Artikeln inPubMed?
Information Extraction
Ontologie-basierte Informationsextraktion in
großen Textbeständen
Relation Extraction
Named Entity Recognition Gute Ergebnisse möglich: >90%
• Personen
• Orte
• Proteinnamen
• Genenamen
deutlich schwerer:
• Protein-Protein Relation: 25%
sehr stark von der Domäne
abhängig
Named Entity Recognition
(Terminologie Extraktion)
Terminologie Extraktion ist eine Variante der NamedEntity RecognitionKandidaten Generierung erfolgt ausschließlichOntologie-VokabularDisambiguation notwendig für generelle KonzepteVorteil: verfügbare Definitionen und Relationen zuanderen Konzepten
Ontologie-basierte Informationsextraktion in
großen Textbeständen
Ontologie-basiert Termextraktion
einige Ontologien sind geeignet eingemeinsames Vokabular fürWissenschaftler zu schaffen (Taxonomie,Thesaurus)dennoch schwierig da Ontologiekonzeptenicht immer wörtlich verwendet werdenKonzepte von allgemeiner Bedeutungkönnen falsch interpretiert werden
„development“ hat 8 Bedeutungen in WordNet
Ontologie-basiert Termextraktion
bei Vorhandensein von genügendTrainingsdaten kann Machine learninggute Ergebnisse liefernCorpus mit 1000 Dokumenten konnte„development“ zu 95% korrekt trennenaber die Gene Ontology hat 57.000KonzepteMachine learning liefern keine Markups,(wichtig für Akzeptanz)
Text strukturieren
Abstract
S S S
H GO P P P{Development?}
Termdevelopment (//SENTENCE[tokens(„development“) && species(human|mouse|…)])
Term-spezifische Extraktionsregeln
Termbeispiele aus der
Gene Ontology
thioredoxin-disulfide reductase activity(GO:0004791)small-molecule carrier or transporter(GO:0005468)Endonuclease activity, active with eitherribo- or deoxyribonucleic acids andproducing 5’-phosphomonoesters(GO:0016893) (7,3% der Terme)[methionine synthase] reductase activity(GO:0030586)structural constituent of chorion (sensuInsecta) (GO:0005213) (2%)
Extraktionsbeispiele
PMID 7744799: ”The protein products of thisgene contain the basic-helix-loop-helix motifcharacteristic of a large family of transcriptionfactors that bind to the canonical DNA sequenceCANNTG as protein heterodimers.”
gemeint ist: transcription factor binding(GO:0008134)
Extraktionsbeispiele
PMID 7578980: ”Primed monocytes transcribed TNFmRNA at a higher rate than freshly isolatedmonocytes upon activation with LPS.”
(monocyte activation (GO:0042117))
PMID 7612661: ”Although all nm23 proteins containnucleoside diphosphate (NDP) kinase activity, it hasnot been established that the enzyme activitymediated the various functions of nm23 proteins.”
(protein kinase activity (GO:0004672)).
Stolpersteine in PubMed… , and local twitch responses wereobtainedusinganacupuncturedryneedlingtechniqueonlyonthesideoftheactiveMTrPs.AimTo …… in detail,followed by …'Manchester-Oxford Foot Questionnaires' (MOXFQs)the flick maneuver (flicking motion of hands and wristswhen most symptomatic)' 'text“, 5'(S)-C-(thymine-1-ylmethyl)thymidineKidney International advance online publication, 27September 2006; doi:10.1038/sj. ki. 5001904[Ac-D-Nal(2)1, D-Phe(4Cl)2, D-Pal(3)3, D-Cit6, D-Ala10]-LH-RH(PMID: 1662786, 2156080)
Text strukturieren – Eins nach dem
AnderenP
ars
ing
To
ken
izer
Ab
bre
via
tio
n T
ag
ge
r
Do
cu
me
nt
Pa
rts
Tag
ge
r
Mis
sin
g S
pa
ce
Dete
cto
r
En
gli
sh
Co
mp
ou
nd
De
co
mp
os
er
Se
nte
nc
e T
ag
ge
r
Lit
era
ture
Refe
ren
ce
s T
ag
ge
r
Ne
w C
on
ce
pts
Fin
de
r
Co
nju
ncti
on
s/A
ltern
ati
ves T
ag
ger
Pro
tein
Na
me
Ta
gg
er
Ru
le v
s. S
tati
sti
ca
l T
erm
Extr
ac
tor
Ontologie-basierte Termextraktion
Ansatz:Text-Token basierte Kandidatengenerierung
Sequenz-Alignment für Text-Markups
Ontologie-basierte Termextraktion
Ansatz:Text-Token basierte Kandidatengenerierung
Sequenz-Alignment für Text-Markups
Disambiguierung (Filtern von Falsch-Positiven)mit Hilfe von Word-Occurrence
Sag mir wer deine Freunde sind und ich sage dir werdu bist.
aber: Wo bekommt man Trainingsdaten zurDisambiguierung her?
Ontologie-basierte Termextraktion
Trainingsdaten:manuellbekannte Metadaten:
alle Artikel des Journals „Development“
Ontologie-Hierarchie nutzen?Dokumente die mit den Nachfahren eines Termsassoziiert sind liefern positiv BeispieleDokumente aller Nachfahren des Vaterterms, aberohne die oben genannten, die das Termlabelenthalten, können negativ Beispiele liefern
Ontologie-basierte Termextraktion
für jeden Ontologieterm wird eineExtraktionsstrategie erstellt
Tokenisierung des Terms (Zerlegung von Compounds)
Part-of-Speech Analyse
erlaubte Lexeme werden identifiziert
Informationsgehalt der Tokens wird geschätzt
Vorbereitung für Disambiguierung(sensu Bacteria, Definitionen,Friends)
schnelle Kandidatengenerierung, Aussortierungdurch Disambiguation
Annotierte Textbestände
Annotationen müssen aktuell seinbis zu 5000 neue Artikel pro Tag
394.000.000 Annotationen in GoPubMed
576.000 Ontologiebegriffe (GO & Mesh)
derzeit in MySQL gehalten
Ontologie-basierte Informationsextraktion in
großen Textbeständen
PubMed: reiche Quelle anunstrukturiertemDomänenwissen
Termextraktion: statistischerAnsatz der NER
Domänenwissen aus Ontologieund Text hilft
Ontologie-basierte
Literaturrecherche
Clusty versucht Labels für die Cluster on-the-fly zu finden
Ontologie-basierte Suche nutztOntologieterme gezielt
Domänenwissen wird unmittelbarverfügbar während der Suche
Ontologie-basierte Literaturrecherche
Clustering-Idee wirdschon vermarktet
reichhaltige Ontologiebringt deutlichenMehrwert
Domänenwissenunmittelbar nutzbargemacht
Welches sind die führenden
Institutionen und Wissenschaftler für
Lebertransplantationen?
liver transplantation
An welchem biologische Prozess ist
das Protein Rab5 beteiligt und wo
findet man es in der Zelle?
rab5
Ontologie-basierte Suche mit
GoPubMed
GoPubMedbeantwortet bio-medizinischeFragen
GoPubMed gibt einenguten Überblick überaktuelle bio-medizinische Literatur
GoPubMed bietet einebibliometrischeAnalyse