medizinische dokumentenrecherche mit morphosaurus sprachübergreifend und benutzerfreundlich durch...
TRANSCRIPT
Medizinische Dokumentenrecherche mit MorphoSaurus
───Sprachübergreifend und benutzerfreundlich
durch semantische Indexierung
Kornél Markó, Philipp DaumkeMedizinische Informatik,
Universitätsklinikum Freiburg
Übersicht
1. Kurze Vorstellung der Medizinischen Informatik in Freiburg
2. Ebenen der Suche (Laien, Experten, Sprachen)
3. Vorstellung der Technologie
4. Evaluation
5. Anwendungen
• SOMED-Studie
• ICD-Suche
6. Perspektiven / Einsatzmöglichkeiten im DIMDI Zeitbedarf ca. 60
Minuten
MI in Freiburg
• Medizinische Informatik Direktor Prof. Dr. Klar
• Wissenschaftliche Schwerpunkte– Patientenbezogene Dienste: MIRA-Plus (KIS)
– Patientenunabhängige Auskunfts- und Wissensdienste: InfoServer
– Grundlagen zur Modellierung medizinischer Konzepte mittels terminologischer Logik
– Begriffliche Ordnungssysteme in der Medizin
– Konzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten
– MorphoSaurus / Text-Retrieval / Cross-Language Retrieval
MorphoSaurus - Entwicklung
• 1998: Entwicklung der ersten Version im Rahmen einer Promotion (Medizin)
• Seit 2000: Kooperation mit der Catholic University of Paraná, Brasilien (BMBF-Förderungen)
• Seit 2003: DFG-Projekt morphologisches Indexieren
• Seit 2004: EU Network of Excellence Semantic Mining (WP multi-lingual lexicon, ontologies, text mining)
MorphoSaurus
Suchmaschine
Einsprachige Textrecherche
Triviale Suche: Laien
„hoher Blutdruck“
Triviale Suche: Laien
„hoher Blutdruck“
Suchmaschine:Abgleich von Zeichenketten
Triviale Suche: Laien
„hoher Blutdruck“
Suchmaschine:Abgleich von Zeichenketten
Triviale Suche: Laien
„hoher Blutdruck“
Suchmaschine:Abgleich von Zeichenketten
Triviale Suche: Laien
„hoher Blutdruck“
Suchmaschine:Abgleich von Zeichenketten
Triviale Suche: Experten
„Risiken beiBluthochdruck“
Triviale Suche: Experten
„Risiken beiBluthochdruck“
Suchmaschine:Abgleich von Zeichenketten
Triviale Suche: Experten
Suchmaschine:Abgleich von Zeichenketten
„Risiken beiBluthochdruck“
Triviale Suche: Experten
Suchmaschine:Abgleich von Zeichenketten
„Risiken beiBluthochdruck“
Triviale Suche: Experten
„Risiken beiBluthochdruck“
Suchmaschine:Abgleich von Zeichenketten
Morphologie der Wörter
Linguistische Phänomene erschweren die medizinische Textrecherche !
– Flexion: Erkrankungen, Bluthochdrucks, Risiken
– Derivation: Krankheit, diastolisch, leukozytär
– Komposition: Gemeinde|krank|en|pflege|station|en
– Akronyme: AIDS, SARS, OECD
– Orthografische Varianten: • Kolonkarzinom, Colonkarzinom, • Ösophagus, Oesophagus, • ulzerierend, ulcerierend
– Synonyme: • Bluthochdruck – Hypertonie, • Prophylaxe – Vorbeugung
– Eigennamen: Aspirin, ASS, ...
Triviale Suche: Experten II
„Korrelation von Hypertonie und
Läsion der Weißen Substanz“
Triviale Suche: Experten II
„Korrelation von Hypertonie und
Läsion der Weißen Substanz“
„Correlation of high blood pressure and lesion of the white
substance“
Triviale Suche: Experten II
„Korrelation von Hypertonie und
Läsion der Weißen Substanz“
Suchmaschine
„Correlation of high blood pressure and lesion of the white
substance“
Triviale Suche: Experten II
„Korrelation von Hypertonie und
Läsion der Weißen Substanz“
Suchmaschine
„Correlation of high blood pressure and lesion of the white
substance“
Triviale Suche: Experten II
„Korrelation von Hypertonie und
Läsion der Weißen Substanz“
Suchmaschine
„Correlation of high blood pressure and lesion of the white
substance“
Triviale Suche: Experten II
„Korrelation von Hypertonie und
Läsion der Weißen Substanz“
Suchmaschine
„Correlation of high blood pressure and lesion of the white
substance“
Mehrsprachige Textrecherche
Suchmaschine
Ansätze
B
• Übersetzung der Dokumente
A BA
• Übersetzung in eine Interlingua
A BIL IL
• Übersetzung der Benutzeranfrage
BA
Lösungsansatz
• Subwörter sind atomare konzeptuelle oder linguistische Einheiten:– Stämme: verletz, entzünd, magen, schleimhaut
– Präfixe: ab-, an-, anti-, ge-, hervor-, hyper-
– Suffixe: -abel, -bar, -haft, -ion, -itis
– Infixe: -o-, -s-
• Synonyme Subwörter werden (sprachübergreifend) in Äquivalenzklassen gruppiert:#derma = { derm, cutis, skin, haut, kutis, pele, cutis, piel, … }
#inflamm = { inflam, -itic, -itis, entzuend, -itis, -itisch, inflam, flog, inflam, flog, -iolitis, ... }
• Empirische Kriterien:– hypertonie = {#hyper #tens #blood}
Ressourcen
• Subwort-Lexikon:– Organisiert Subwörter (atomare
Bedeutungseinheiten) in mehreren Sprachen
• Subwort-Thesaurus: – Gruppiert synonyme Lexikoneinträge
(auch sprachübergreifend)
• Zerlegungsalgorithmus:– Extraktion von Subwörtern und
Zuweisung von Äquivalenzklassen
MorphoSaurus
Subwort: Lexikon & Thesaurus
Subwort Lexikon:
gastr
stomach
magen
ventric
chamber
hepat,hepar
liver
leber
-itis, inflamm,
entzünd
nephr
ren
kidney
niere
Subwort Thesaurus:Gruppierung von synonymen Subwörtern zu Äquivalenzklassen
#GASTR
#CHAMBER
#HEPAR
#NEPHR
#INFLAMM
Beispiel
high tsh value s suggest the diagnos is of primar y hypo thyroid ismer hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion
ZerlegungsalgorithmusSubwort-Lexikon
High TSH values suggest the diagnosis of primary hypo-thyroidism ...
Original
Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...
high tsh values suggest the diagnosis of primary hypo-thyroidism ...
erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ...
Orthografische Regeln
Orthografische Normalisierung
#up tsh #value #suggest #diagnost #primar #hypo #thyre
Interlingua
#up tsh #value #permit #diagnost #primar #thyre #hypo #function
Subwort-Thesaurus
Semantische Normalisierung
Beispiel
high tsh value s suggest the diagnos is of primar y hypo thyroid ismer hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion
ZerlegungsalgorithmusSubwort-Lexikon
High TSH values suggest the diagnosis of primary hypo-thyroidism ...
Original
Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...
high tsh values suggest the diagnosis of primary hypo-thyroidism ...
erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ...
Orthografische Regeln
Orthografische Normalisierung
#up tsh #value #suggest #diagnost #primar #hypo #thyre
Interlingua
#up tsh #value #permit #diagnost #primar #thyre #hypo #function
Subwort-Thesaurus
Semantische Normalisierung
Suche mit MorphoSaurus
Suche mit MorphoSaurus
Suche mit MorphoSaurus
„Korrelation von Hypertonie und
Läsion der Weißen Substanz“
Suche mit MorphoSaurus
„Korrelation von Hypertonie und
Läsion der Weißen Substanz“
„#correl #hyper #tens #lesion #whit
#matter“
Suche mit MorphoSaurus
„Korrelation von Hypertonie und
Läsion der Weißen Substanz“
„#correl #hyper #tens #lesion #whit
#matter“
Suchmaschine:Abgleich von Zeichenketten
Suche mit MorphoSaurus
„Korrelation von Hypertonie und
Läsion der Weißen Substanz“
Suchmaschine:Abgleich von Zeichenketten
„#correl #hyper #tens #lesion #whit
#matter“
Studie
Studie: Google
Studie: Google
Studie: PubMed
Studie: PubMed
Studie: DIMDI
Studie: DIMDI
Studie: MorphoSaurus
Studie: MorphoSaurus
Sprachübergreifende Suche
Evaluation
Evaluationsszenarien
• Baseline: einsprachige Textrecherche– Englische Benutzeranfragen– Englische Texte
• Übersetzung der Benutzeranfrage– Google Übersetzer– Mehrsprachiges Medizinlexikon aus UMLS
• MorphoSaurus– Interlingua-Repräsentation der Anfragen und der
Dokumente
Experimente
OHSUMED-Corpus (Hersh et al., 1994)– Untermenge von MEDLINE
– ~233,000 englische Dokumente
– 106 englische Benutzeranfragen, von Experten übersetzt ins Deutsche und Portugiesische
– Relevanz der Dokumente manuell markiert
Suchmaschine: – Open-Source der Apache-Foundation: Lucene
– http://lucene.apache.org/
Resultate
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Pre
cisi
on
Baseline
Morphosaurus
Übersetzung
BaselineMorphoSaurusÜbersetzung der Anfrage
Deutsch PortugiesischTop 200
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Baseline
Morphosaurus
Übersetzung
0 0,1 0,1 0,20,2 00,3 0,3 0,40,4 0,5 0,50,6 0,6 0,70,7 0,8 0,8 0,90,9 1,01,0
Resultate
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Pre
cisi
on
Baseline
Morphosaurus
Übersetzung
BaselineMorphoSaurusÜbersetzung der Anfrage
Deutsch PortugiesischTop 200
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Baseline
Morphosaurus
Übersetzung
0 0,1 0,1 0,20,2 00,3 0,3 0,40,4 0,5 0,50,6 0,6 0,70,7 0,8 0,8 0,90,9 1,01,0
68% der Baseline
54% der Baseline
Resultate
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Pre
cisi
on
Baseline
Morphosaurus
Übersetzung
BaselineMorphoSaurusÜbersetzung der Anfrage
Deutsch PortugiesischTop 200
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
Baseline
Morphosaurus
Übersetzung
0 0,1 0,1 0,20,2 00,3 0,3 0,40,4 0,5 0,50,6 0,6 0,70,7 0,8 0,8 0,90,9 1,01,0
68% der Baseline
54% der Baseline
93% der Baseline
62% der Baseline
• Innovatives und erfolgreiches Suchverfahren– Komposita – Suche– Synonym – Suche– Sprachübergreifende Suche (EN, DE, PT, FR, SP, SV)– Ergebnisse nach Relevanz sortiert
• Sprachübergreifende Suche– erreicht bis zu 93% gegenüber einsprachiger Suche
(Meth Inf Med, 2005)
• Semantische Indexierung und Suche– ist einsetzbar mit allen Suchmaschinen
• Einfache Pflege (Kostenersparnis)– Pflege des Subwortlexikons im Vergleich zur Pflege eines Vollformensynonymlexikons
überschaubar
• SOMED Prototyp:– http://morphine.coling.uni-freiburg.de/somed/search.php
Zusammenfassung
Anwendungen
Proof-of-Concept: SOMED
336.250 Dokumente (543MB XML) wurden– nach Sprachen kategorisiert (TextCat):
• ~3000/Minute = 2 Stunden
– mit MorphoSaurus bearbeitet
• ~3000/Minute = 2 Stunden
• 1.7 GB XML (nur für Highlighting der Treffer)
Suchmaschine: Lucene • ~9000/Minute = 40 Minuten
• 940 MB für 2 Indices (Original + MorphoSaurus)
• 340 MB für 1 Index (MorphoSaurus)
Proof-of-Concept: SOMED
Dekomposition der Suchanfragen• „Darmkrebsrisikoreduzierung“• #enteral #neoplas #malign #risk #reduc
Formulierung der Suchanfrage• 1. Suche mit „UND“• 2. Falls keine Treffer: Suche mit „ODER“
Es wurden 2 Indizes erstellt:#enteral AND #neoplas AND #malign AND #risk AND #reduc OR (original:darmkrebsrisikoreduzierung)
Besseres Ranking, gleiche Ergebnismenge, höherer Speicherbedarf
Proof-of-Concept: SOMED
Diagnosenkodierung nach ICD
• Suche in 15,278 ICD-Codes
• Erste Tests durch Uniklinik Freiburg erfolgreich, vor allem im Vergleich zu
– ICD-Browser des Zentralinstituts für die kassenärztliche Versorgung in der BRD (http://www.zi-berlin.de/)
– Kodierbrowser der Uniklinik Münster (http://drg.uni-muenster.de/de/webgroup/m.brdiagnosen.php)
• Anwendbar auf andere Klassifikationen: OPS, …
Universitätsklinikum Münster
Zentralinstitut Berlin (3M)
MorphoSaurus ICD-Suche
ICD verbunden mit MEDLINE
ICD verbunden mit MEDLINE
Forschungsbezogene Nutzung
• Texte in klinischen DB (Uniklinik Freiburg)
• Sprachübergreifende Suche im Web (HON)
• Suche in Bilddatenbanken (mit Uni Münster)
• Mapping von Terminologien (Ukl Freiburg)
MorphoSaurus - Zukunft
Projekte, in denen MorphoSaurus zum Einsatz kommt:
• 2006: ZBMED: Integration in MedPilot 2 Jahre
• 2006: EU BOOTStrep (Bootstrapping of Ontologies and Terminologies Strategic Research Project) 3 Jahre
• 2006: @neurIST (Integrated Biomedical Informatics for the Management of Cerebral Aneurysm) 4 Jahre
www.morphosaurus.net
MorphoEdit WEB
Suchmaschinen-Indices
• Liest Dokumente ein und generiert einen Index mit gewichteten Indextermen (für Ranking).
– „Wort x kommt in Dokumenten ID1,ID2,ID6,… vor“
• Normalerweise sind Indexterme Wörter der Dokumentenkollektion
• MorphoSaurus: Äquivalenzklassen bilden Indexterme
Lucene: Indexerstellung
Indexterm
(Original)
ID
Bluthochdruck #1
Hypertonie #1
Erhöhung #1
Blutdruckes #1
Erhöhten #1
Blutdruckwerte #1
Blutdruckmessung #1
Indexterm
(MorphoSaurus)
ID
#blood #1
#high #1
#tense #1
#value #1
#measure #1
Lucene: Indexerstellung
Indexterm
(Original)
ID
Bluthochdruck #1
Hypertonie #1 #2
Erhöhung #1
Blutdruckes #1
Erhöhten #1
Blutdruckwerte #1
Blutdruckmessung #1
Hypertension #2
Blutdruck #2
Risiko #2
Hypertonikers #2
Belastungsblutdruck #2
Ruheblutdruck #2
Risikofaktor #2
Risiko #2
Risikofaktoren #2
Risikoevaluation #2
Indexterm
(MorphoSaurus)
ID
#blood #1 #2
#high #1 #2
#tense #1 #2
#value #1
#measure #1
#risk #2
#factor #2
#eval #2