tekstanalyse af epikriser proof-of-concept...• data skal være klar ved igangsætning af projekt...

10
Tekstanalyse af epikriser Proof-of-Concept Projektoplæg 04-07-2017

Upload: others

Post on 21-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tekstanalyse af epikriser Proof-of-Concept...• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag. Infrastruktur Det stiller

Tekstanalyse af epikriserProof-of-Concept

Projektoplæg

04-07-2017

Page 2: Tekstanalyse af epikriser Proof-of-Concept...• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag. Infrastruktur Det stiller

2

Vores forståelse af udfordringen

De praktiserende læger modtager et kort (dog ofte også langt) sammendrag af en patients sygehistorie, indlæggelsesforløb og plan for efterbehandling i form af epikrisedokumenter.

Epikrisen indeholder forskellige informationer omkring patienten, herunder behandlingssted, diagnose, dikterende læge, årsag til den oprindelige henvisning, resumé af forløbet, medicinstatus, efterbehandling samt eventuelt yderligere supplerende oplysninger.

Informationen modtages i elektronisk form i lægepraksissystemet og indeholder en standardstruktur for alle epikriser. En væsentlig del af informationen fremgår i fritekst.

Fritekstfelterne kan være en sammensætning af baggrundsinforma-tion omkring et patientforløb samt handlinger den praktiserende læge skal udføre efter patienten er udskrevet fra hospitalet.

Det kan for den praktiserende læge være en tidskrævende proces at læse hele friteksten igennem for at komme frem til den krævede handling. Det ville være en mere optimal og værdiskabende løsning hvis handlinger, som den praktiserende læge skal forestå, kunne fremstå mere eksplicit, så den praktiserende læge kunne fokusere på denne.

Prioritering og systematiske udledning af forventede handlinger i epikriser er en udfordring i almen praksis

En mulig vej fremad

For at imødekomme de praktiserende lægers behov for en nemmere tilgang til handlingen i den fremsendte epikrise kan det testes, i hvilket omfang tekstanalyse kan bruges til at kondensere eller fremhæve den krævede handling for lægen. Løsningen vil dermed skulle udlede det relevante indhold af friteksten og bringe denne videre i udledt eller markeret form.

For at kunne træne en sprogmodel til at kunne udlede handlinger kræves en række historiske sager (epikriser), hvor handlingen er fremhævet, således at modellen kan trænes til at forstå og kende rette syntaks i teksten, der er relateret til modellen. Fordelen ved at anvende en sprogmodel er, at den ikke alene trænes til at genkende nøgleord, men derimod syntaksen i teksten og dermed bliver uafhængig af forekomsten af specifikke nøgleord.

For ikke at skulle håndtere alle epikriser ens fra starten kan man potentielt benytte diagnose eller lignende til segmentering. Således vil nogle epikriser kunne fremstå i sin originale form, mens epikriser, der omfatter de valgte segmenteringskriterier, hvor modellen er trænet, vil fremstå kondenseret eller med fremhævet handling. Ligeledes vil det fx være muligt at segmentere på baggrund af patientlister, så epikriser for udvalgte patienter vil fremstå i sin fulde form uanset diagnose.

Arbejde med sprogmodeller kræver anvendelse af nye algoritmer inden for området, og tilgangen anbefales at være eksperimente-rende i form af et proof of concept (PoC)

Page 3: Tekstanalyse af epikriser Proof-of-Concept...• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag. Infrastruktur Det stiller

3© 2016 Deloitte

Overordnet løsningsdesign

Jupyter Notebook

Model Version X

Modellen justeres og

analyseres i forhold til

udslagsgivende features (data-

elementer). Andre mulige

tilgange til bedre performance

vurderes og tilføjes eventuelt.

Modellen testes og evalueres

med henblik på

forbedringspotentiale og

stabilitet

Historiske epikriser (nogle med

markerede handlinger)

indlæses og modellen bygges,

trænes og valideres

Modellen bygges vha. open-

source værktøjer som R og

Python

Databehandling og -

processering

Første modelversion der kan

fremhæve handlinger i epikrise

Ovenstående proces

gennemløbes som iterative trin

hvor modellen gradvis

forbedres. De enkelte

teknikker der forventes tages i

anvendelse er beskrevet på

næste slide

Page 4: Tekstanalyse af epikriser Proof-of-Concept...• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag. Infrastruktur Det stiller

4© 2016 Deloitte

Vores strukturerede tilgang til tekstanalyse af epikriser

PoC omkring potentialet ved at anvende AI og ML på data relateret til epikriser

Ikke del af dette projekt:

• Forbedring af model med fokus på robusthed

• Opsætning af audit-kontrol til kontrol af modelanvendelse i produktion

• Tilpas forretningsproces tilmodelunderstøttelse

• Idriftsættelse

• Analyse af fejl baseret på opnået viden omkring data og problemstilling.

• Gennemgang af evt. problem-stillinger med ‘forretningen’.

• Evaluering af modelperformance og valg af model – evt. ”ensemble” (dvs. sammensætning af flere modeller)

• Setup til at identificere mønstre i fejl

• Rapportering af findings i en visuel og intuitiv struktur

• Overvåget klassifikation af handlinger vil ske vha. machinelearning, fx boosted classifiers, og deep learning, fx 1Dim-convNets.

• Uovervåget klassifikation vil blive forsøgt på vektorindlejret dokument-centroider vha. PCA, spin-modeller eller tSNE.

• Modelvurdering, inkl. forudsigelse,vil ske vha. confusion matrix, AUC/ROC kurver og kontrol for falske rapporteringsrater.

• Data skal være trukket ud i et standardformat inden projektstart, eg. txt, csv [utf-8 kodning] el. binært iht. en given dekodningspakke.

• Automatisk tagging,kategorisering og syntaksparsing af tekst vha. Google open source metoder [ParseySaurus].

• Kategorisering af terminologi vha. begrebs-frekvens-invers-dokument-frekvens (TFIDF).

• Word2vec indlejring af ord ihht. kontekst.

• Beslutning omkring den forretningsmæssige problemstillingder søges løst gennem PoC forløbet

• Gennemgang af forskellige epikriser for at opnå forståelse af indhold og opbygning.

• Fokus på forretningsmæssig problemstilling med udgangspunkt i forskellige epikrisedokumenter.

• Gennemgang af andre datakilder, der evt. kan berige datagrundlag og model.

• Analyse og visualisering af datas repræsentation.

• Data-dimensionalitet vurderes, fx antal prøver versus prøvestørrelse skal være over forholdet 1:1, hvor en minimal ydeevne for machinelearning algoritmer kan forventes.

ForretningsforståelsePrioritering af problemstilling

DataforståelseGennemgang af

datagrundlag

DataforberedelseDatarens og

transformation

ModelleringDatamanipulation og

konklusioner

EvalueringEvaluering af model and

konklusioner

IdriftsættelseTilpas model og beslutninger til

forretningsprocesser

Machine Learning cycle

Page 5: Tekstanalyse af epikriser Proof-of-Concept...• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag. Infrastruktur Det stiller

5

Anbefalet forløb på 8 ugers ‘time-box’

Ugentlig opfølgning

Ud

vid

et

sta

tusm

ød

e

Afs

lutt

en

de w

ork

sh

op

Ud

vid

et

sta

tusm

ød

e

Op

sta

rts

de

4 uger 2 uger 2 uger

Roadmap og anbefalinger

• Gennemgang af forløb

• Forretnings- og dataforståelse

• Brainstorm omkring

problemstilling og hypotese

Dataforståelse, Dataanalyse,

Machine Learning, Visualisering

model ver. 1

• Præsentation og evaluering af

model ver. 1

• Brainstorm omkring potentiale

(værdi), forbedringer og nye

data

• Opdatering af problemstilling

Udvikling af model ver. 2

bl.a. med udgangspunkt i

input statusmøde

Udvikling af model ver. 3

bl.a. med udgangspunkt i

input fra statusmøde

• Præsentation og evaluering af

model ver. 2

• Brainstorm omkring potentiale

(værdi), forbedringer og nye

data.

• Opdatering af problemstilling

• Præsentation af model ver. 3

• Evaluering og findings

• Roadmap og anbefalinger til

videre forløb

• Evaluering af potentialet ved

tekstanalyse

Page 6: Tekstanalyse af epikriser Proof-of-Concept...• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag. Infrastruktur Det stiller

6

Data og infrastruktur

Data

• Omkring 10.000 eksempler på epikriser – men gerne flere (op mod 50.000). Skal sikre at mangfoldigheden i datagrundlag er repræsenteret i forbindelse med træning af modellen. Der skal gerne være markeret handlinger i et udsnit af dokumenterne (antal afhænger af hvad der er muligt)

• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag.

Infrastruktur

Det stiller nogle krav til infrastruktur at kunne arbejde med ustrukturerede data som epikrisedokumenter, især i forbindelse med træning af machine learning-modeller.

Derfor anbefaler vi, at der til PoC anvendes den big data platform, SDP, der er etableret som del af Sundhedsdataprogrammet. Det vil samtidig betyde, at der er en eksisterende struktur til datasikkerhed, som kan anvendes. Ydermere vil det give Sundhedsdata-programmet nogle værdifulde erfaringer ved at platformen skal understøtte et projekt, der anvender ustrukturerede data.

PoC’en vil alene blive gennemført på SDPs udviklings- og eller testmiljø. Der vil ikke som del af projektet ske flytning til produktion.

Alternative løsninger til infrastruktur:

• Anvendelse af Deloittes Big Data Cluster – kræver indgåelse af databehandleraftale, men ellers ingen omkostninger forbundet hermed. Sikkerhed eksisterer, så kun projekt-teamets medlemmer kan tilgå data.

• Cloud, fx AWS, Google eller Azure. Det er muligt at styre, hvilke fysiske datacentre der anvendes, så data ikke forlader fx nordvesteuropa. Der vil være infrastrukturomkostninger forbundet med denne løsning.

• Udnyttelse af partnerskabet mellem Sundhedsministeriet og IBM på Watson kan måske give adgang til en infrastruktur, der kan stilles til rådighed for PoC’en. Det skal dog ved denne løsning overvejes, hvilken grad af open-source teknologi, der ønskes testet i forbindelse med PoC’en.

Page 7: Tekstanalyse af epikriser Proof-of-Concept...• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag. Infrastruktur Det stiller

7© 2016 Deloitte

Deloittes team

Erfaring

• Topdanmark

• Exicon A/S

• Tel Aviv University

• INTA-CSIC

• WeizmannInstitute of Science

• Niels Bohr Institute

Uddannelse

• Ph.D. Physics

• Master at Molecular Biology

Jacob Bock Axelsen

Profil

Jacob er en erfaren Lead Data Scientist med 12+ års erfaring inden for Advanced Analytics. Jacobs fokus er på komplekse analyser på komplekse dataset, hvor modellering er nøglen til at opnå resultater og til at definere resultater inden for det pågældende område ved at anvende de rette teknologier inden for en specifik problemstilling. Stærke kompetencer inden for kommunikation og visualisering af resultater på en forståelig måde.

Relevante kompetencer

Machine Learning, inkl. deep learning, på store komplekse datasets. Netværksanalyser og statistisk fysik. Scientific computing, komplekse systemer, sprogmodeller (NLP). Tekniske kompetencer indenfor Matlab, Java, Pearl/Ruby/Python og Jupyter Notebooks.

Manager Analytics & Information ManagementDeloitte Consulting

Relevante Projekt eksempler

• Topdanmark: Bygget sprogmodel (NLP) som del af kognitiv løsning til brug for tolkning og beslutning på baggrund af fritekst. Anvendt deep-learning modeller til løsning af problemstilling.

• Exicon A/S (2016): Udvikling af beregningspipeline indenfor Biotek. Machine Learning-modeller, komplekse dataflows og analyser.

• Tel Aviv University (2014): Mathematical epidemiologi, udvikling af modtagelig-inficeret-remission-modtagelig SIRS modeller. Machine Learning-modeller, Netværksanalyser.

• INTA-CSIC (2011): Clustering-teknikker anvendt til unsupervisedklassificeringsproblem. Netværksanalyse.

• Niels Bohr Institute (2005): Netværksanalyse.

Erfaring

• Pandora

• Skatte-ankestyrelsen

• Mærsk

Uddannelse

• Ph.D., fysik-geofysik

• Cand-Scient., fysik-geofysik

Mads Dam Ellehøj

Profil

Mads er en erfaren Data Scientist inden for Advanced Analytics. Mads har gennem tidligere arbejde og studier beskæftiget sig med komplekse problemstillinger, der søges løst via analyser af komplekse datasets. Mads har kompetencer indenfor fysik, matematik, statistik og projektledelse og har fokus på at skabe værdi gennem en kombination af analytisk og teknisk viden og forretningsforståelse.

Relevante kompetencer

Machine Learning på store komplekse datasets, herunder strukturerede og ustrukturerede data. Erfaring med forecast-modeller, tidsserieanalyser og sprogmodeller. Tekniske kompetencer indenfor Python, R, Matlab, Fortran, LaTeX og Spark.

SeniorkonsulentAnalytics & Information Management

Deloitte Consulting

Relevante projekteksempler

• Pandora: Udvikling af R-program til forecast af butikssalgsdata som en del af et BI-data QC-initiativ; integrerede løsningen med QlikView.

• SANST: Udvikling af model til segmentering af indkomne sager (Intelligent Sagsbehandling) vha. clustering, tekstanalyser og machinelearning-teknikker.

• Mærsk: Numerisk modellering og dataanalyse, udvikling af akustiske og elastiske impedansmodeller over undergrunden, modellering af ”rock physics” samt stokastisk og deterministisk tid/dybdekonvertering af seismiske data.

Page 8: Tekstanalyse af epikriser Proof-of-Concept...• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag. Infrastruktur Det stiller

8© 2016 Deloitte

Deloittes team

Erfaring

• Sundheds- og Ældreministeriet

• Digitaliserings-styrelsen

• Rigspolitiet

• Justitsministeriet

• Beskæftigelses-ministeriet

Uddannelse

• MSc. InterculturalBusiness Administration and Modern Languages

Mark Thomasson

Profil

Mark har mere end 17 års erfaring med at rådgive kunder i grænselandet mellem forretning og it. Han arbejder med digitaliseringsstrategi og servicedesign og med de borgernære aspekter af digitalisering.

Relevante kompetencer

Mark har lang tids erfaring med at identificere de økonomiske og forretningsmæssige konsekvenser af digitaliseringstiltag.

DirectorDeloitte Digital

Deloitte Consulting

Relevante Projekt eksempler

• Sundheds- og Ældreministeriet: Identifikation af digitale forbedringstiltag for almen praksis

• Styrelsen for Arbejdsmarked og Rekruttering: Revidering af rehabiliteringsplaner – digitalisering af værktøjet til udarbejdelse af rehabilitieringsplaner

• Rigspolitiet: Vision for et analyse og vidensbaseret politi

• Digitaliseringsstyrelsen: Debatoplæg om datadrevet forvaltning i forbindelse med den fællesoffentlige digitaliseringsstrategi

• Digitaliseringsstyrelsen: Fremtidens persongrundregistrering i Danmark

Erfaring

• Sundhedsdata-styrelsen

• Skatteanke-styrelsen

• SKAT

• Københavns Kommune

Uddannelse

• MSc in Business Administration and Information Systems

Anders Boje Larsen

Profil

Anders’ fokusområder er dataintegration (ETL) og big data indenfor strukturerede og ustrukturerede data for herigennem at opdage og finde nye måder at opnå strukturerede informationer på. Tekster bliver gennem avancerede tekstanalytiske algoritmer og normalisering konverteret til strukturerede data.

Relevante kompetencer

Anders har erfaring fra flere projekter i den offentlige sektor, primært i forhold til big data-teknologier (Hadoop økosystem), Spark, Python, SQL, Tableau, Alteryx og SAS. Han er en aktiv deltager i grupper på universi-teter i Danmark, hvor der eksperimenteres med natural languageprocessing (NLP).

SeniorkonsulentAnalytics & Information Management

Deloitte Consulting

Relevante Projekt eksempler

• Sundhedssdatatyrelsen: Principper og retningslinjer for udvikling af big data løsninger på SDP (Sundheds Platformen).

• SANST: Løsningsarkitekt på udvikling af model til segmentering af indkomne sager (Intelligent Sagsbehandling) vha. clustering og tekstanalyser. Machine learning teknikker på big data-platform.

• SKAT: Løsningsarkitekt på databank-projekt baseret på big data-teknologi (Hadoop økosystem)

• Københavns Kommune: Arkitekt på big data-løsning på cloud-platform (Azure). Udførende udvikler (data engineering) vha. big data-teknologier.

Page 9: Tekstanalyse af epikriser Proof-of-Concept...• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag. Infrastruktur Det stiller

9

På baggrund af det foregående har vi udarbejdet nedenstående overslag for gennemførelse af PoC’et.

De angivne timepriser er baseret på anvendelse af SKI 02.15, som er baseret på direkte tildeling.

Estimat og priser

Titel Ressource RolleTimepris

kr. ekskl. momsEstimerede

timerI alt

kr. ekskl. moms

Seniorkonsulent Mads Dam Ellehøj Udførende Data Scientist 1.100 240 264.000

Manager Jacob Bock Axelsen Lead Data Scientist 1.650 60 99.000

Seniorkonsulent Anders Boje Larsen Løsningsarkitekt 1.425 60 85.500

Director Mark Thomasson SME, Almen Praksis 1.650 24 39.600

Partner Allan Kirk Projektansvarlig 1.650 4 6.600

Total 388 494.700

Page 10: Tekstanalyse af epikriser Proof-of-Concept...• Data skal være klar ved igangsætning af projekt og helst i et omfang af min 5.000 dokumenter fra første dag. Infrastruktur Det stiller

10© 2016 Deloitte

Om DeloitteDeloitte leverer ydelser indenfor Revision, Skat, Consulting og Financial Advisory til både offentlige og private virksomheder i en lang række brancher. Vores globale netværk med medlemsfirmaer i mere end 150 lande sikrer, at vi kan stille stærke kompetencer til rådighed og yde service af højeste kvalitet, når vi skal hjælpe vores kunder med at løse deres mest komplekse forretningsmæssige udfordringer. Deloittes ca. 225.000 medarbejdere arbejder målrettet efter at sætte den højeste standard.

Deloitte Touche Tohmatsu LimitedDeloitte er en betegnelse for Deloitte Touche Tohmatsu Limited, der er et britisk selskab med begrænset ansvar, og dets netværk af medlemsfirmaer. Hvert medlemsfirma udgør en separat og uafhængig juridisk enhed. Vi henviser til www.deloitte.com/about for en udførlig beskrivelse af den juridiske struktur i Deloitte Touche Tohmatsu Limited og dets medlemsfirmaer.