natürlichsprachliche systeme als mehrwert für die elektronische krankenakte stefan schulz...

61
Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg http://www.imbi.uni-freiburg.de [email protected]

Upload: sabine-eggen

Post on 06-Apr-2015

107 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Natürlichsprachliche Systeme

als Mehrwert für die

Elektronische Krankenakte

Stefan Schulz

Abteilung Medizinische Informatik

Universitätsklinikum Freiburg

http://www.imbi.uni-freiburg.de [email protected]

Page 2: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Elektronische

Patientenakte

NatürlicheSprache

Strukturierte Daten

Page 3: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Natürliche Sprache

Page 4: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg
Page 5: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg
Page 6: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg
Page 7: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

NatürlicheSprache

Structured Data

… unverzichtbar für

Kommunikation zwischen

Mitarbeitern des

Gesundheitswesens

Klinische Dokumentation

Wissenschaftliche

Kommunikation

Wissenschaftliches

Publikationswesen

Vermittlung kanonischen

Wissens an Fachleute,

Studierende und Laien

Page 8: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

NatürlicheSprache

nur für das Universitätsklinikum Freiburg (p.a.)

280.000 Arztbriefe

140.000 Radiologiebefunde

55.000 Pathologiebefunde

40.000 Operationsberichte

70.000 sonstige Texte

600.000

Page 9: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Strukturierte Daten

Page 10: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

…unverzichtbar für Kodierung von Diagnosen

und Prozeduren, DRGs Krankheitsspezifische

Register Qualitätssicherung, Controlling Klinische und epidemiologische

Studien Gesundheitsbericht-

erstattung Dokumentenindexierung

und Retrieval etc.

Strukturierte Daten

Page 11: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Epidemiologie (Morbidität, Mortalität)

Page 12: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Krebsregister

Page 13: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Pauschalierte Entgeltsysteme

Page 14: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg
Page 15: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

…erfordern medizinischeTerminologiesysteme

ICD OPS 301 SNOMED LOINC MeSH etc., etc.

Strukturierte Daten

Page 16: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Natürliche Sprache

Strukturierte Daten

Page 17: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Erfassung von Daten

QualitätKosten-

++ -

Natürliche Sprache

Strukturierte Daten

:

Page 18: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg
Page 19: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Abhängigkeit: Datenmenge – Datenqualität - Motivation

Datenqualität

Datenmenge

HoheMotivation

GeringeMotivation

KeinerleiMotivation

Goldstandard

Page 20: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Auswertung von Daten

-+

Natürliche Sprache

Strukturierte Daten

+- Qualität

Kosten

Page 21: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Natürliche Sprache

Strukturierte Daten

Page 22: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Automatische Verarbeitungmedizinischer Sprache

Natürliche Sprache

Strukturierte Daten

Page 23: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Auffälligkeiten der Medizinsprache Sprachmix: Deutsch / English / Lateinisch

Unterschiedliche Sprachebenen: Ärzte- vs. Laiensprache„Pankreas“, „Pneumonie“, „Sectio vs. Bauchspeicheldrüse“, „Lungenentzündung“, „Kaiserschnitt“

Griechisch/Lateinische Wordstämme, Lateinische Flexionen:„Thyreoglobulin“, „Ulzera“, „E.coli“, „Kolibakterien“

Hohe lexikalische Produktivität: Komposita: „Bypassoperation“, „Kaliumüberdosierung“

Eponyme: „Parkinsonsche Erkrankung“, „M. Alzheimer“

Akronyme, Wortneubildungen: „SARS“, „AIDS“, „ARDS“, „5-FU“, „HWI“, „

„psbAI“, „GGDEF“, „WDWN“ Paragrammatikalität / Jargon:

„Kein Anhalt für Malignität“. „Cor, Pulmo o.B“.

Agrammatikalität (Diktier-, Schreibfehler):„Diarhoe“, „Appendectomie“, „HWS Syndrom“, „Hinterwndinfarkt“

Extragrammatikalität: „Gewebe wurde lymphoztyär infiltriert“

Page 24: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Ich brauche relevante Dokumente zu einer klinischen Fragestellung

Ich brauche relevate Fakten zu meinem Problem

Ich brauche den passenden Code

Ich möchte mir ansehen, wie ähnliche Fälle behandelt worden sind.

Ich möchte mehr über meine Krankheit wissen

Typische Anwendungsszenarien (I)

Page 25: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Typische Anwendungsszenarien (II)

Ich hätte gerne konkrete Phänotypdaten, um meine Hypothesen zu belegen

Ich muss fremdsprachige Texte durchsuchen

Ich will in meinen Patientenakten suchen

Ich muss ein Formular ausfüllen, obwohl die Daten längst im System sind

Ich möchte Patientendaten für Lehrzwecke aufbereiten

Page 26: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Im Wesentlichen zwei Hauptszenarien

Text Retrieval:

gezieltes Suchen nach Informationen in einem

oder mehreren großen Informationssammlungen.

Text Mining:

Technologien, die es ermöglichen, relevante und

„neue“ Information in unstrukturierten Texten

automatisch zu erkennen und zu extrahieren

Page 27: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Zwei Textanalyse-Paradigmen

Text Retrieval

Text Mining

Page 28: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg
Page 29: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Text Retrieval

Page 30: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Text / Information Retrieval

Page 31: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Medizinische Terminologies:Schlechte Retrievalergebnisse

Anzahl der ausschließlichen Treffer

Anzahl der Treffer

Kolonkarzinom 2070 1780

Colonkarzinom Coloncarcinom Colon-Ca Kolon-Ca Dickdarmkrebs DickdarmkarzinomDickdarmcarcinomKolonkarzinomsKolonkarzinomeKolonkarzinomen

248111203

664000

28813

471275265

13573

16946

3610175

10 253139166

Schreibvarianten,Flexionen,Synonyme

Trefferhäufigkeit bei Google - Anfgragen

Page 32: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Beispiel: Sprachübergreifendes Dokumentenretrieval: MorphoSaurus

• Subwort-Lexikon:– Organisiert Subwörter in

mehreren Sprachen

• Subwort-Thesaurus: – Gruppiert synonyme

Lexikoneinträge (auch sprachübergreifend)

• Zerlegungsalgorithmus:– Extraktion von Subwörtern und

Zuweisung von Äquivalenzklassen Morphosaurus-

Identifier (MID)

Morphosaurus

Page 33: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

MID

Page 34: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

MorphoSaurus: Sprachübergreifendes med. Dokumentenretrieval (Deutsch / Englisch)

Hahn, Schulz et al., RIAO 2004

Page 35: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Text Mining: Anwendungsszenario I

Page 36: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Text Mining: Anwendungsszenario I

shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin (650. 0 ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a left anterior mediastinal mass . Based on these findings, the patient was diagnosed with a mediastinal tumor accompanied by AMoL. First, in June 1991, the patient was treated with DCMP therapy: daunorubicin (DNR) (25 mg/m2, days 1, 2, 3, 4, 6 and 8), cytosine arabinoside (Ara-C) (100 mg/m2, days 1-9), 6MP-riboside (6-MP) (70 mg/m2, days 1-9) and prednisolone (PSL) (20 mg/m2, days 1-9), followed by five courses of consolidation chemotherapy [1, DCMP; 2, ID-Ara-C:adriacin (ADR), vincristine (VCR), Ara-C, PSL; 3, DCMP; 4, ID-Ara-C; 5, A-triple V: Ara-C, VP-16, VCR, vinblastine (VBL)]. After induction chemotherapy, a hematological examination and bone marrow findings had improved to normal, and complete remission was attained. Chest CT scan after chemotherapy in November 1991 revealed regression of the mediastinal tumor . An invasive thymic tumor was suspected and surgery was undertaken in January 1992. The tumor (50 × 45 × 45 mm), located mainly in the anterior mediastinum, was strongly adhered to the adjacent tissues. Resection of the tumor included the left upper lobe of the lung, the phrenic nerve and pericardium. The histological finding was that the tumor cells have large, vesicular nuclei and prominent nucleoli, but keratinazation was unclear . The results of immunohistochemical finding of anti-TdT was negative. From these findings, we diagnosed poorly or moderately differentiated squamous cell carcinoma of the thymus. The postoperative course was uneventful. The patient underwent radiation therapy of the mediastinum and left hilum at doses of 4000 cGy delivered over 4 weeks. She was discharged in March 1992. After the first AMoL remission, the patient suffered a relapse six times and was repeatedly admitted for chemotherapy. During these periods, chest X-ray and CT revealed no recurrence of the mediastinal tumor. During her tenth admission, the patient developed pneumonia during chemotherapy and died in October 1996. No autopsy was performed.

Tumorregister - Template

Datum Erstdiagnose

Grading

Morphologie

Primärloka-lisation

Staging

DatumErsttherapie

Chemotherapie

Bestrahlung

Page 37: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Milde und Schwere Verlaufsformen: Epidermolysis bullosa simplex (EBS), Epidermolysis bullosa dystrophica (EBD)

Text Mining: Anwendungsszenario II

Risikoabschätzung von Tumorentstehung durch Genotyp-Phänotyp-Korrelationen bei Epidermolysis bullosa dystrophica Epidermolysis bullosa: Gruppe von genetischen Hautkrankheiten mit

Mutationen in Genen für Strukturproteine der dermo-epidermalen Basalmembranzone. Inzidenz: 1 / 100.000 Geburten.

Minimale Traumata führen zu Blasenbildung an Haut und hautnahen Schleim-häuten, Abheilung der dadurch entstandenen Wunden führt oft zur Narben-bildung und ggf. zu Verwachsungen, die auch Kontrakturen bedingen können.

Page 38: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

EB dystrophica (EBD) mehr als 300 unterschiedliche Mutationen des Kollagen VII

Gens publiziert und/oder in den Mutations-Datenbanken, mehrere Hundert weitere, noch nicht bekannte Mutationen.

Ziel des Text Minings: Verbesserung der Prognosestellung — Auffinden bislang unentdeckter Korrelationen zwischen Art und Lokalisation der Genmutation und des klinischen Langzeitverlaufs sowie der Erkennung maligner Entartungen

Abgleichen der Daten in der Literatur, in Mutations-Datenbanken, in eigenen Laborbefunden etc. in internen und externen klinischen Dokumenten

Text Mining: Anwendungsszenario II

Page 39: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Methoden, Werkzeuge und Ressourcen automatischer Sprachverarbeitung

Page 40: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Lexikon Grammatik Regelbasis Domänenontologie

end + edPastTense

ended

infection pregnancy

a severe the

Ending

Pregnancy

Infection

severe

E-patient

E-agent

I-degree

P-patient

IF ... Pregnancy & inf.THEN ... mortal danger

* The baby survived

MotherBaby

Pregnancy

P-co-patient

MorphologicalProcessor

SyntacticProcessor

SemanticInterpreter

InferenceEngine

Architektur eines Biomedizinischen Textanalyse-Kernsystems

POS-annotierte Korpora, Treebanks, Proposition Banks

Page 41: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Morphologiewerkzeuge (Stemmer)

Methoden, Werkzeuge und Ressourcen

Page 42: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger

Methoden, Werkzeuge und Ressourcen

Page 43: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Ausgeprägt multiple Oberschenkelhämatome beidseits .

ADJA NNADJD ADV ST

Page 44: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser

Methoden, Werkzeuge und Ressourcen

Page 45: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

In einem Partikel mit 4 mm Durchmesser wurde eine Magenschleimhaut vom Antrumtyp erfaßt.

Page 46: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien

Methoden, Werkzeuge und Ressourcen

Page 47: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln

Methoden, Werkzeuge und Ressourcen

Page 48: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

In einem Partikel mit 4 mm Durchmesser wurde eine Magenschleimhaut vom Antrumtyp erfaßt.

),( ),(

),(:,

z) Vrbpart(x, )y (x, Subj

:x)PassivAux( :zy,x,

baPatientayDenotes

bzDenotesba

Page 49: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln Namenserkenner (NE recognition)

Methoden, Werkzeuge und Ressourcen

Page 50: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Named Entity (NE) Tagging

Nach Rücksprache mit dem Hepatologen Prof. <NE>Leber</NE> haben wir der Patientin die nochmalige Kontrolle der Hepatitis-Serologie im Dezember 2004 nahegelegt. Von der von Frau <NE>Lüdenscheid</NE> gewünschten Nachsorge in der <NE>Schwarzwaldklinik</NE> haben wir ihr strikt abgeraten.Mit freundlichen, kollegialen GrüßenProf. Dr. <NE>Baum</NE>, Dr. <NE>Herz</NE>

Page 51: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln Namenserkenner (NE recognition) Große Textkorpora (annotiert,

nichtannotiert)

Methoden, Werkzeuge und Ressourcen

Page 52: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln Namenserkenner (NE recognition) Große Textkorpora (annotiert,

nichtannotiert) Machine learning – Verfahren, e.g. SVM

Methoden, Werkzeuge und Ressourcen

Page 53: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln Namenserkenner (NE recognition) Große Textkorpora (annotiert, nichtannotiert) Machine learning – Verfahren, e.g. SVM Evaluationsstandards

Methoden, Werkzeuge und Ressourcen

Page 54: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln Namenserkenner (NE recognition) Große Textkorpora (annotiert, nichtannotiert) Machine learning – Verfahren, e.g. SVM Evaluationsstandards

Methoden, Werkzeuge und Ressourcen

Page 55: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Paradigmenwechsel in der Computerlinguistik

Regelbasiert, KI Stochastisch, ML

Page 56: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Herausforderung für medizinische Sprachverarbeitung

Sehr große Textmengen Hohe Anforderungen an Datenschutz Lexikalische Produktivität Ambiguität

Lexikalisch: Bruch (Hernie) vs. Bruch (Fraktur) Syntaktisch: z.B. Anbindung von PPs

“[es wurde] [ Magenschleimhaut vom Antrumtyp ] [erfasst]” “[es wurde] [ Magenschleimhaut] [vom Antrumtyp erfasst]”

Semantisch, z.B. Skopus von Quantoren, Negationen, Koordinationen, Gradaussagen Jede Probe wies einen erhöhten PH-Wert auf

Komplexität, Berechenbarkeit, z.B. Dependenzgrammatiken: NP-vollständig Prädikatenlogik höherer Ordnung, Modallogiken: unentscheidbar

Kombination mit medizinischen Terminologiesystem Integration von symbolischen und stochastischen Ansätzen

Page 57: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung

Datenqualität

Datenmenge

HoheMotivation

GeringeMotivation

KeinerleiMotivation

Goldstandard

Page 58: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung

Datenqualität

Datenmenge

HoheMotivation

GeringeMotivation

KeinerleiMotivation

Goldstandard

2005

Page 59: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung

Datenqualität

Datenmenge

HoheMotivation

GeringeMotivation

KeinerleiMotivation

Goldstandard

2005

200?

20??

Page 60: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Aktivitäten MI Freiburg EU 6th Framework :

Network of Excellence “SemanticMining”(Semantic Interoperability and Data Mining in Biomedicine): 2004 – 2006, 25 Partnerwww.semanticmining.org

Gründung: AMIA Working Group Group KR-SIG “Formal (Bio)medical Knowledge Representation”, 2003

Veranstalter: Workshop KR-MED 2004 in Whistler/Canada, Juni 2004

Initiative BioTem (Zentrum für biomedizinisches Text Mining) Veranstalter: Konferenz SMBM 2005 (Semantic Mining in

Biomedicine), in Cambridge UK, April 2005 Veranstalter: GMDS 2005 in Freiburg

Page 61: Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg

Natürlichsprachliche Systeme

als Mehrwert für die

Elektronische Krankenakte

Stefan Schulz

Abteilung Medizinische Informatik

Universitätsklinikum Freiburg

http://www.imbi.uni-freiburg.de [email protected]