gopubmed - ontologie- basierte...

86
GoPubMed - Ontologie- basierte Literaturrecherche für die Lebenswissenschaften Dipl. Inf. Andreas Doms Technische Universität Dresden Fakultät Informatik Biotec

Upload: vannhu

Post on 13-Aug-2019

219 views

Category:

Documents


0 download

TRANSCRIPT

GoPubMed - Ontologie-

basierte Literaturrecherche

für die Lebenswissenschaften

Dipl. Inf. Andreas DomsTechnische Universität Dresden

Fakultät InformatikBiotec

Agenda

Ontologie-basierte Suche im Kontext desSemantischen Webs

Ontologie-basierte Informationsextraktionin großen Textbeständen

Ontologie-basierte Literaturrecherche

Anwendungsbeispiele aus denLebenswissenschaften

GoPubMed

Tim‘s Vision

T. Berners-Lee, J. Hendler and Ora Lassila, „TheSemantic Web“, Scientific American, 2001

Evolution des Webs vom größtenteils textuellenhin zum Daten- und Informationsenthaltendenglobalen Datennetz

Agenten verarbeitbare Daten, die durch einesemantische Theorie Symbolen Bedeutungzuordnet

Einfache Idee, bisher nicht umgesetzt

Semantics 2006

Ora Lassila zeigt zwei Sichten auf dasSemantic Web auf:

Semantische Anwendungen aufWebtechnologien aufbauend

Semantische Technologien um neueWebanwendungen aufzubauen

… und erwähnt GoPubMed in seinen Blog

Domänenübergreifend

Modell

Kom

ple

xität

FoaF

WordNetas RDF/OWL

GeneOntologyas RDF/OWL

Web2xSemantic Publishing

UniProtas RDF/OWL

Webanwendungen mit unterschiedlicher

Komplexität und Domänenbeschränkung

ont.basierte Suche

Domänenübergreifend

Modell

Kom

ple

xität

Webanwendungen mit unterschiedlicher

Komplexität und Domänenbeschränkung

ont.basierte Suche

?

Semantic Web Anwendung in den

Lebenswissenschaften

Abgleichen von Hypothesen mit Hilfe derLiteratur

Hypothesen Vergleich

Semantic Web Anwendung in den

Lebenswissenschaften

Abgleichen von Hypothesen mit Hilfe derLiteratur

An welchen molekular-biologischenProzessen ist ein bestimmtes Proteinbeteiligt?

Technisches

Standards müssten weiter angenommenwerden

„RDF filetype:rdf “ 1.090.000 Google hits„OWL filetype:owl“ 39.800 Google hits

bisher keine Vermittlung zwischen denDaten mit Hilfe von Agenten im großenStil

Shopping Bots sind meist sehr spezialisiertbessere Akzeptanz von Mikroformaten wie zB.RDFa könnten helfen

RDFa für Dublin Core Ontologie

Dublin Core beschreibt Bücher, Artikel usw. mit Autoren, Titeln und Subjects.

RDFa für die Gene Ontologie

Dublin Core beschreibt Bücher, Artikel usw. mit Autoren, Titeln und Subjects.

Semantic Gap

Daten-Integration mit Hilfe von Ontologienmehr und mehr RDF basierte SchnittstellenUniProt(Proteine), Entrez Gene(Gene), GeneOntology(Genprodukte)Oracle 10g unterstützt natives RDF storing/querying Strukturierte Datenbasen müssen gemeinsame Ontologienverwenden (OBO Ontologies)

überwiegender Teil biomedizinischer Erkenntnisse istderzeit nur in textueller Form verfügbar

Automatische oder manuelle Erstellung für semantischeMarkups in unstrukturierten Daten(MediaWiki, IkeWiki, Platypus Wiki)

Daten Integration in den

Lebenswissenschaften

PubMed

(16.000.000 Artikel)UniProt (Proteine)

PDB (3D Strukturen)

KEGG (Pathways)

SCOPPI (Strukturelle

Interaktionen)

Edinburgh Mouse Atlas (123 sliced mouse embryos)

Ontologie-basierte suche im Kontext

des Semantischen Webs

semantische Anwendungbasierend aufWebtechnologienLebenswissenschaftenprofitieren besonders vonDaten-Integrationspannende Nutzung vonVokabularen derLebenswissenschaften

Ontologie-basierte

Informationsextraktion in

großen Textbeständen

Texte mit Hintergrundwissenanreichern

PubMed

600.000 Wissenschaftler arbeiten in denLebenswissenschaften (Biologie,Medizin,…)

Literaturdatenbank enthält 16.000.000wissenschaftliche Zusammenfassungenund Links zu den Volltexten

jährlicher Zuwachsca. 500.000

Number of PubMed Abstracts

0

2,000,000

4,000,000

6,000,000

8,000,000

10,000,000

12,000,000

14,000,000

1960 1970 1980 1990 2000 2010

Year

PubMed

PubMed

einige Metainformationen zugänglich, aberunvollständig

Link zum PDB Eintrag (unvollständig)

Authorennamen (aber keine vCard o. FoaF)

Artikeltyp (aber keine Referenzen)

Mesh-Ontologieterme (semi-manuell, aber umca. 1 Monat verzögert)

Link zu UniProt (aber ohne Qualifizierung)

PubMed

Inhalte vieler Experimente und Untersuchungenbleiben verborgen für Software-Agenten

Zukünftig?

„self-publishing of experiment“ W3C interestgroup (SPE)

Andere Vokabulare: Dublin Core, SKOS, FOAF,SIOC, RSS, DOAP

aber was passiert mit 16.000.000 Artikeln inPubMed?

Information Extraction

Ontologie-basierte Informationsextraktion in

großen Textbeständen

Relation Extraction

Named Entity Recognition Gute Ergebnisse möglich: >90%

• Personen

• Orte

• Proteinnamen

• Genenamen

deutlich schwerer:

• Protein-Protein Relation: 25%

sehr stark von der Domäne

abhängig

Named Entity Recognition

(Terminologie Extraktion)

Terminologie Extraktion ist eine Variante der NamedEntity RecognitionKandidaten Generierung erfolgt ausschließlichOntologie-VokabularDisambiguation notwendig für generelle KonzepteVorteil: verfügbare Definitionen und Relationen zuanderen Konzepten

Ontologie-basierte Informationsextraktion in

großen Textbeständen

Ontologie-basiert Termextraktion

einige Ontologien sind geeignet eingemeinsames Vokabular fürWissenschaftler zu schaffen (Taxonomie,Thesaurus)dennoch schwierig da Ontologiekonzeptenicht immer wörtlich verwendet werdenKonzepte von allgemeiner Bedeutungkönnen falsch interpretiert werden

„development“ hat 8 Bedeutungen in WordNet

Ontologie-basiert Termextraktion

bei Vorhandensein von genügendTrainingsdaten kann Machine learninggute Ergebnisse liefernCorpus mit 1000 Dokumenten konnte„development“ zu 95% korrekt trennenaber die Gene Ontology hat 57.000KonzepteMachine learning liefern keine Markups,(wichtig für Akzeptanz)

Ontologie-basiert Termextraktion

Ansatz:Text-Token basierte Kandidatengenerierung

Text strukturieren

Abstract

S S S

H GO P P P{Development?}

Termdevelopment (//SENTENCE[tokens(„development“) && species(human|mouse|…)])

Term-spezifische Extraktionsregeln

Termbeispiele aus der

Gene Ontology

thioredoxin-disulfide reductase activity(GO:0004791)small-molecule carrier or transporter(GO:0005468)Endonuclease activity, active with eitherribo- or deoxyribonucleic acids andproducing 5’-phosphomonoesters(GO:0016893) (7,3% der Terme)[methionine synthase] reductase activity(GO:0030586)structural constituent of chorion (sensuInsecta) (GO:0005213) (2%)

Extraktionsbeispiele

PMID 7744799: ”The protein products of thisgene contain the basic-helix-loop-helix motifcharacteristic of a large family of transcriptionfactors that bind to the canonical DNA sequenceCANNTG as protein heterodimers.”

gemeint ist: transcription factor binding(GO:0008134)

Extraktionsbeispiele

PMID 7578980: ”Primed monocytes transcribed TNFmRNA at a higher rate than freshly isolatedmonocytes upon activation with LPS.”

(monocyte activation (GO:0042117))

PMID 7612661: ”Although all nm23 proteins containnucleoside diphosphate (NDP) kinase activity, it hasnot been established that the enzyme activitymediated the various functions of nm23 proteins.”

(protein kinase activity (GO:0004672)).

Stolpersteine in PubMed… , and local twitch responses wereobtainedusinganacupuncturedryneedlingtechniqueonlyonthesideoftheactiveMTrPs.AimTo …… in detail,followed by …'Manchester-Oxford Foot Questionnaires' (MOXFQs)the flick maneuver (flicking motion of hands and wristswhen most symptomatic)' 'text“, 5'(S)-C-(thymine-1-ylmethyl)thymidineKidney International advance online publication, 27September 2006; doi:10.1038/sj. ki. 5001904[Ac-D-Nal(2)1, D-Phe(4Cl)2, D-Pal(3)3, D-Cit6, D-Ala10]-LH-RH(PMID: 1662786, 2156080)

Text strukturieren – Eins nach dem

AnderenP

ars

ing

To

ken

izer

Ab

bre

via

tio

n T

ag

ge

r

Do

cu

me

nt

Pa

rts

Tag

ge

r

Mis

sin

g S

pa

ce

Dete

cto

r

En

gli

sh

Co

mp

ou

nd

De

co

mp

os

er

Se

nte

nc

e T

ag

ge

r

Lit

era

ture

Refe

ren

ce

s T

ag

ge

r

Ne

w C

on

ce

pts

Fin

de

r

Co

nju

ncti

on

s/A

ltern

ati

ves T

ag

ger

Pro

tein

Na

me

Ta

gg

er

Ru

le v

s. S

tati

sti

ca

l T

erm

Extr

ac

tor

Ontologie-basierte Termextraktion

Ansatz:Text-Token basierte Kandidatengenerierung

Sequenz-Alignment für Text-Markups

Ontologie-basierte Termextraktion

Ontologie-basierte Termextraktion

Ontologie-basierte Termextraktion

Ansatz:Text-Token basierte Kandidatengenerierung

Sequenz-Alignment für Text-Markups

Disambiguierung (Filtern von Falsch-Positiven)mit Hilfe von Word-Occurrence

Sag mir wer deine Freunde sind und ich sage dir werdu bist.

aber: Wo bekommt man Trainingsdaten zurDisambiguierung her?

Ontologie-basierte Termextraktion

Trainingsdaten:manuellbekannte Metadaten:

alle Artikel des Journals „Development“

Ontologie-Hierarchie nutzen?Dokumente die mit den Nachfahren eines Termsassoziiert sind liefern positiv BeispieleDokumente aller Nachfahren des Vaterterms, aberohne die oben genannten, die das Termlabelenthalten, können negativ Beispiele liefern

Ontologie-basierte Termextraktion

für jeden Ontologieterm wird eineExtraktionsstrategie erstellt

Tokenisierung des Terms (Zerlegung von Compounds)

Part-of-Speech Analyse

erlaubte Lexeme werden identifiziert

Informationsgehalt der Tokens wird geschätzt

Vorbereitung für Disambiguierung(sensu Bacteria, Definitionen,Friends)

schnelle Kandidatengenerierung, Aussortierungdurch Disambiguation

Annotierte Textbestände

Annotationen müssen aktuell seinbis zu 5000 neue Artikel pro Tag

394.000.000 Annotationen in GoPubMed

576.000 Ontologiebegriffe (GO & Mesh)

derzeit in MySQL gehalten

Anfrage an den Korpus

Ontologie-basierte Informationsextraktion in

großen Textbeständen

PubMed: reiche Quelle anunstrukturiertemDomänenwissen

Termextraktion: statistischerAnsatz der NER

Domänenwissen aus Ontologieund Text hilft

Ontologie-basierte

Literaturrecherche

Von der Termextraktion zurLiteraturrecherche

Vivissimo - Clusty.com

Ontologie-basierte

Literaturrecherche

Clusty versucht Labels für die Cluster on-the-fly zu finden

Ontologie-basierte Suche nutztOntologieterme gezielt

Domänenwissen wird unmittelbarverfügbar während der Suche

Ontologie-basierte

Literaturrecherche

Ontologie-basierte

Literaturrecherche

Ontologie-basierte

Literaturrecherche

Ontologie-basierte

Literaturrecherche

Termextraktion findet statt…

Ontologie-basierte

Literaturrecherche

Ontologie-basierte

Literaturrecherche

Ontologie-basierte

Literaturrecherche

Ontologie-basierte

Literaturrecherche

GoPubMed – Forschungsprojekt

GoPubMed – Forschungsprojekt

Ontologie-basierte Literaturrecherche

Clustering-Idee wirdschon vermarktet

reichhaltige Ontologiebringt deutlichenMehrwert

Domänenwissenunmittelbar nutzbargemacht

Ontologie-basierte Suche

mit GoPubMed

Welche Krankheiten stehen

mit HIV in Verbindung?

HIV

Welches sind die führenden

Institutionen und Wissenschaftler für

Lebertransplantationen?

liver transplantation

Welche anatomische Struktur wird

vom Bakterium „helicobacter pylori“

befallen?

helicobacter pylori

An welchem biologische Prozess ist

das Protein Rab5 beteiligt und wo

findet man es in der Zelle?

rab5

Auf welche Enzyme nimmt

Aspirin Einfluss?

aspirin

Wie sieht das

Forschungsinteresse an

„Leukemie“ aus?

leukemia

Woran arbeitet Paul Nurse?

Mitosis

Woran arbeitet Günther Blobel?

Blobel spendete das

Preisgeld dem Wiedeaufbau

der Frauenkirche

Nuclear envelope

Ontologie-basierte Suche mit

GoPubMed

GoPubMedbeantwortet bio-medizinischeFragen

GoPubMed gibt einenguten Überblick überaktuelle bio-medizinische Literatur

GoPubMed bietet einebibliometrischeAnalyse

Vielen Dank!

Biotechnologisches Zentrum