mer avancerad analys

Mer avancerad analys

Vad kan nu vara mer avancerat?

• Avancerad beräkning av P(E | HP ) resp. P(E | HD )

• Strukturer för värdering mot hypoteser på aktivitetsnivå

• Blandbilder (DNA, fingeravtryck, verktygsspår…)

• Multivariata mätvärden

• Bayesianska nätverk för sannolikhetskalkyler

• Osäkerhetsbedömningar av likelihoodkvoter

• … och mycket mer!

Multivariata mätvärden

Grundläggande kurser i statistik/matematisk statistik:

• Mycket om univariata mätvärden, dvs. utfall av endimensionella variabler

– Stickprov utreds som regel baserat på teori för oberoende univariata slumpvariabler

– Regressionsanalys innehåller fler än en variabel, men endast responsvariabeln (y) är en slumpvariabel, övriga betraktas som deterministiska (fixerade till sina värden i designen). Analyserna är därför betingade.

• Viss behandling av tvådimensionella slumpvariabler

– Täthets- och sannolikhetsfunktioner. Beräkning av sannolikheter med summering/integration i två dimensioner.

– Betingade täthets- och sannolikhetsfunktioner

– Kovarians och korrelation som teoretiska mått.

Om vi nu har m slumpvariabler eller alternativt en m-dimensionell slumpvariabel?

• Om variablerna är statistiskt oberoende Teori för endimensionella variabler kan användas.

• Om beroendestrukturer finns mellan variablerna:

– Krävs att en simultan täthets/sannolikhetsfunktion f (x1, … , xm ) ställs upp

– För alla utom en sannolikhetsfördelning är denna funktion nödvändig för att kunna göra sannolikhetsberäkningar (inga genvägar finns)

– Om vi kan anta s.k. multivariat normalfördelning (som alltså är undantaget) räcker det att känna till

väntevärdet i för var och en av de endimensionella variablerna (samlas i en väntevärdesvektor).

variansen i2 för var och en av de endimensionella variablerna

kovariansen ij mellan alla par av endimensionella variabler

De senare två samlas i en kovariansmatris

Om X = ( X1, … , Xm ) är en m-dimensionell (m-variat) normalfördelad slumpvariabel (en stokastisk vektor ) betecknas denna

Eftersom kovariansen ij mellan Xi och Xj måste vara densamma som kovariansen ji mellan Xj och Xi blir kovariansmatrisen symmetrisk.

221

22221

11221

1

och

där ;~

mmm

m

m

m

N

Σ

Σ

μ

μX

Multivariata normalfördelningar har flera mycket bra egenskaper

• Varje ingående endimensionell variabel är endimensionellt normalfördelad med motsvarande väntevärde och varians.

• Om två av de ingående endimensionella variablerna har kovariansen 0 är de också oberoende (detta gäller endast för normalfördelningar)

• Den betingade sannolikhetsfördelningen för en av de ingående endimensionella variablerna givet en eller flera av de övriga ingående variablerna är också normalfördelad med relativt enkla uttryck för väntevärde och varians

• Optimal prediktor av en av de ingående variablerna givet en eller flera av de övriga ingående variablerna sammanfaller med bästa linjära prediktor, dvs.

ij

jjii XbaXXE |

När använder vi multivariata mätningar i forensiskt analysarbete?

• Glasundersökningar: Elementalanalys, dvs. jämförelse av ämnessammansättning hos säkrade glasfragment och hos referensprov

• Analys av gummi i bromsspår

• Analys av oljor för jämförelse mellan utsläppsprover och fartygslaster

• Analys av metallinnehåll i gods från misstänkta stölder av skrot

• Amfetaminjämförelser

• m.m.

Gaskromatografi och Svepelektronmikroskopi ger multivariata mätvärden!

Amfetaminjämförelser

Att konstatera att ett visst beslag innehåller amfetamin behöver egentligen inte värderas Analysbesked, inte värdering av forensiska bevis

Analysbesked av detta slag kan vara tillräckligt för att fälla en misstänkt för

• narkotikainnehav

• langning (om analysbeskedet med säkerhet visar på mängd över viss gräns)

När kan då resultatvärdering bli aktuellt?

• För att styrka (eller motsäga) att amfetaminet har ett visst ursprung

Vad mäter man i detta sammanhang?

Föroreningar i amfetaminet

– Föroreningar tillkommer i amfetamin successivt med tiden

– Förekomst av vissa föroreningar i viss mängd används därför för att

tidsbestämma amfetaminets tillverkningstidpunkt

jämföra med andra amfetaminbeslag för att gruppera

Övergripande syfte:

Hjälp i polisens (och hela rättsväsendets) kartläggning av nationella och internationella nätverk för amfetamintillverkning och försäljning.

Baserat på ett samarbete med andra laboratorier i Europa mäter SKL idag drygt 20 olika föroreningar (variabler) i amfetaminbeslag.

Multivariata mätvärden där beroende mellan variabler inte kan uteslutas

• Normalfördelade mätvärden?

• Hur kan man jämföra?

Multivariata avståndsmått

Låt x = (x1, x2, … , x23 ) vara mätvärden för 23 föroreningar i ett beslag och

y = (y1, y2, … , y23 ) vara motsvarande mätvärden i ett annat beslag.

Ett otal avståndsmått existerar

• Euklidiskt avstånd (det klassiska avståndsmåttet):

• Pearsonavstånd (överenskommet avståndsmått inom samarbetet):

23

1

2,i

iiE yxD yx

23

1

223

1

2

23

1,

ii

ii

iii

P

yyxx

yyxxD yx

• Kvotmetoden (utvecklad vid SKL):

Studerar kvoter xi / yi och utgår från maximala värden hos sådana

• Canberra-avstånd

• Sinuskvadratavstånd

• mm.

• Mahalanobis avståndsmått:

Ett mer avancerat avståndsmått. Uttrycket anges med hjälp av matrismultiplikation och matrisinvertering (linjär algebra)

Utveckling av det Euklidiska avståndet där hänsyn tas till kovarians (korrelation) mellan föroreningsvariablerna.

yx'yxyx 1, ΣMD

Om nu avståndet mellan två beslag har beräknats,

Hur kan vi värdera detta avstånd gentemot hypoteser?

Ultimat: En likelihoodkvot beräknas.

Kan sannolikheter beräknas här?

Likelihoodkvoten blir här vad namnet verkligen anger, en kvot mellan två likelihoodvärden, det ena under modellen att beslagen har samma

ursprung, det andra under modellen att beslagen har olika ursprung.

Jämför ”continuos approach” vid LR baserad på brytningsindex för glas.

Ovanstående är föremål för aktuell forskning!!

Att gå från det diskreta till det kontinuerliga

Likelihoodkvoter har vi generellt satt upp som

dvs. uttryckts som en kvot av två betingade sannolikheter.

En mer generell formel är

där L står för likelihooden

D

P

HEP

HEP

|

|

D

P

HEL

HEL

|

|

Vad är då en likelihood ?

Ett resultat som uttrycks i form av

• ett mätvärde x (av en storhet eller en differens mellan två mätningar av samma typ av storhet)

• flera mätvärden x1, … , xn (ett stickprov av mätvärden av en storhet eller differenser mellan flera par av mätningar; en multivariat observation)

kan ”sättas in” i en täthets- eller sannolikhetsfunktion som beskriver sannolikhetsfördelningen för mätvärdena/differenserna:

• f (x )

• f (x1, … , xn )

Från grunden kan vi anta att det finns en generell täthets/sannolikhetsfunktion.

T.ex. om det rör sig om ett normalfördelat mätvärde är det generella uttrycket för täthetsfunktionen

Antag nu att om HP är sann så är =2 och = 1 medan om HD är sann så är =3 och = 2

Likelihooden under HP för värdet x blir då

och likelihooden under HD för värdet x blir

Likelihoodkvoten blir

2

2

2

2

1

x

exf

2

2 2

2

1

x

exf

8

3 2

22

1

x

exf

2

3

8

2

8

3

2

2

22

2

2

2

1

22

1

2

1xx

x

x

e

e

eLR

Likelihooden är alltså egentligen täthets/sannolikhetsfunktionen beräknad för det aktuella mätvärdet/de aktuella mätvärdena under givna värden på sannolikhetsfördelningens parametrar.

Speciellt: I statistiska sammanhang brukar man skatta parametrarna utifrån de mätvärden man har så att täthets/sannolikhetsfunktionens värde beräknad för mätvärdena blir maximal, s.k. Maximum-Liklihood-skattning. Själva maximala värdet brukar då kallas likelihooden.

Om vi nu inte har någon generell beskrivning av täthets/sannolikhetsfunktionen?

Exempel:

Har en viss omstridd bild tagits med digitalkamera A eller med digitalkamera B?

Mätmetod:

Brus i bilden kan observeras och korrelationen mellan bildbruset och en kameras ”bakgrundsbrus” kan uppskattas.

Referensmaterial för korrelationer mellan bildbrus och bakgrundsbrus hos bilder tagna med respektive kamera är tillgängliga.

Referensdata är diskreta i den meningen att det rör sig om ett ändligt antal observationer.

Hur kan man omforma histogrammen till täthetsfunktioner?

Kärnskattningsteknik

där x1, … , xn är de korrelationer man har i referensmaterialet för en kamera.

K är en s.k. kärnfunktion, som i princip är en symmetrisk funktion (runt 0) med integrerad yta =1, t.ex. täthetsfunktionen för N (0,1) och h är en s.k. bandbredd.

Ett stort värde på h medför att skattningen blir mycket utjämnad (slät) medan ett litet värde medöfr en ”hackigare” skattning

n

i

i

h

xxK

hnhxf

1

11;ˆ

T.ex. kan en observerad korrelation = 0.015 nu värderas som en likelihoodkvot mellan värdet på blå kurva och värdet på röd kurva för x = 0.015

Kanske:

Osäkerhetsbedömningar av likelihoodkvoter

Problem: Ett rapporterat resultatvärde är som all annan rapporterad statistik behäftad med osäkerhet.

Nuläget: Endast värdet rapporteras och sätts in på lämplig plats i skalan.

Vore det inte förnuftigt att kunna ange ett ”konfidensintervall” för det sanna värdet hos LR ?

(Det observerade LR är faktiskt en skattning!!)

Analytiska metoder:

Vi utgår som tidigare från att resultaten erhållits som mätvärden, x vilka har en bakomliggande generell täthetsfunktion f (x)

Notera at för enkelhets skull använder vi x för att beteckna ett eller flera mätvärden.

Likelihoodkvoten kan då skrivas

där är likelihooden under antagande att HP är sann innefattande att

parametrar i den generella f kan behöva skattas

och är likelihooden under antagande att HD är sann vilket i princip alltid

innebär att parametrar i den generella f måste skattas

xf

xfLR

D

P

H

H

ˆ

ˆ

xf PHˆ

xf DHˆ

Enkelt specialfall:

Vi antar att f beror på en enda parameter, t.ex. ett medelvärde .

Vi skriver därför f = f (x ; )

Likelihoodkvoten kan omformuleras till

Matematiskt måste vi nu Taylorutveckla LR för att kunna gå vidare.

Om man är bekant med matematisk-statistisk linjärisering vet man att detta kallas att utnyttja Gauss’ approximationsformler.

Oftast knöligt och för att i slutändan kunna komma till ett konfidensintervall krävs att asymptotiska normalfördelningsegenskaper kan utnyttjas.

Asymptotik är tveksamt foresnsiska sammanhang!!

D

P

H

H

xf

xfLR

ˆ;

ˆ;

Ett alternativ: Återsampling

Bootstrapmetoden

Antag att vi har ett slumpmässigt stickprov, dvs. n oberoende observationer av slumpvariabler med likadana sannolikhetsfördelningar:

x1, … , xn

Den sannolikhetsfördelning som råder kan approximativt illustreras med t.ex. ett histogram:

24181260

10

8

6

4

2

0

x

Frequency

Histogram of x

Bootstrapidén är nu att detta histogram (eller mer formellt: den empiriska skattningen av sannolikhetsfördelningen) kan tillfälligt spela rollen av att vara den sanna fördelningen.

Stickprovet går in som substitut för populationen.

Praktiskt. ”Nya” stickprov kan dras från det gamla.

Dragning görs med återläggning Populationen ses som oändlig där varje enskilt värde förekommer med den relativa frekvens det har i stickprovet.

T.ex. Antag att stickprovet består av värdena 3, 5, 2, 2, 8

Som substitut för populationen innebär detta följande sannolikhetsfördelning:

51853

522

XPXPXP

XP

På varje ”nytt” stickprov beräknas det som ursprungligen har beräknats i originalstickprovet I princip punktskattningar, i vårt fall LR

Utvärdering av punktskattningarnas egenskaper görs genom att studera deras variation över de ”nya” stickproven.

MMn

M

n

n

n

xx

xx

xx

xx

xxx

***1

2*2*2*1

1*1*1*1

1

321

ˆ,,

ˆ,,

ˆ,,

:stickprov Nya""

ˆ :ningPunktskatt ,, :ickprovOriginalst

:parameter Intressant ,,, :populationSann

Bootstrapprincipen:

Uppskattad sannolikhetsfördelning hos

är en approximation av sannolikhets-fördelningen hos

ˆˆ*

ˆ

Precisionen i den uppskattade sannolikhetsfördelning hos bestäms av M, dvs. antalet upprepade stickprovsdragningar

ˆˆ*

Vi kan t.ex. få följande histogram över punktskattningar från M =1000 nya stickprov:

Värdena kan transformeras till ett histogram över :

109876543

90

80

70

60

50

40

30

20

10

0

theta_hat*

Frequency

Histogram of theta_hat*

ˆˆ*

3210-1-2-3

80

70

60

50

40

30

20

10

0

th_hat*-th_hat

Frequency

Histogram of th_hat* -th_hat I detta histogram (eg. i följden av ordnade värden går det att hitta t.ex. 5:e och 95:e percentilerna

3210-1-2-3

80

70

60

50

40

30

20

10

0

th_hat*-th_hat

Frequency

-1.894 1.846

Histogram of th_hat*-th_hat

Ett 90%-igt approximativt konfidensintervall (s.k. percentilintervall) kan nu konstrueras enligt:

894.1ˆ846.1ˆ

ntervalletKonfidensi

90.0846.1ˆ894.1

principen)(Bootstrap

90.0846.1ˆˆ894.1 **

P

PP* betyder att sannolikheter beräknas under antagande att ursprungligt stickprov är population.

Tillämpning på likelihoodkvoter

Enkelt fall:

Hur har vi fått fram ”Match probability”?

Via en databas, t.ex. i DNA-sammanhang en databas om c:a 300 individer ur vilken allelfrekvenser har uppskattats.

Databasen är ett stickprov!

y"probabilitMatch "

1LR

Tillämpa bootstrap (återsampling) på databasen.

I DNA-fallet

• Skapa ”nya” databaser genom att med återläggning dra individer ur den ursprungliga.

• För varje databas, fastställ allelfrekvenserna

• Beräkna LR för varje databas

• Upprepning av förfarandet M gånger M varianter av LR.

• Konstruera konfidensintervall

Anm. Det finns alternativa sätt att göra själva återsamplingen. Det behöver inte vara en dragning av individer.

mer avancerad analys

Documents