analiza podataka - robustna statistika

30
UNIVERZITET U BEOGRADU FAKULTET ORGANIZACIONIH NAUKA Seminarski rad iz predmeta Analiza Podataka Robustna statistika Mentor: Student: Profesor Zoran Radojičić Stupljanin Maja 488/06

Upload: zoranradojicic

Post on 30-Jun-2015

324 views

Category:

Documents


12 download

TRANSCRIPT

Page 1: Analiza Podataka - Robustna statistika

UNIVERZITET U BEOGRADU

FAKULTET ORGANIZACIONIH NAUKA

Seminarski rad iz predmeta Analiza Podataka

Robustna statistika

Mentor: Student:

Profesor Zoran Radojičić Stupljanin Maja 488/06

Beograd, oktobar 2010.

Page 2: Analiza Podataka - Robustna statistika

Sadržaj:

Uvod.......................................................................................................................................................................3

Primeri robustne i ne-robustne statistike...............................................................................................................4

Definicija.................................................................................................................................................................5

Matematičko očekivanje i varijansa.......................................................................................................................6

Primer: Podaci brzine svetlosti...............................................................................................................................8

Procena položaja................................................................................................................................................9

Procena razmere..............................................................................................................................................10

Ručno traženje nepravilnosti............................................................................................................................11

Veliki broj aplikacija..........................................................................................................................................11

Mere robustnosti..................................................................................................................................................12

Prelomna tačka.................................................................................................................................................12

Primer: podaci brzine svetlosti.....................................................................................................................12

Empirijska funkcija uticaja................................................................................................................................13

Funkcija uticaja i kriva osetljivosti....................................................................................................................15

Poželjne osobine..................................................................................................................................................16

Odbojna tačka..................................................................................................................................................16

Bruto-greška osetljivosti...................................................................................................................................16

Lokalno-pomeranje osetljivosti........................................................................................................................16

M-procenjivači......................................................................................................................................................17

Osobine M-procenjivača...................................................................................................................................19

Funkcija uticaja M-procenjivača.......................................................................................................................19

Izbor ψ i ρ.........................................................................................................................................................19

Robustni parametarski pristupi............................................................................................................................20

Primer: podaci brzine svetlosti.........................................................................................................................21

Teorija robustne odluke.......................................................................................................................................22

Zaključak.............................................................................................................................................................23

Literatura.............................................................................................................................................................24

Page 3: Analiza Podataka - Robustna statistika

Uvod

Robustna statistika želi da pruži metode koje oponašaju popularne statističke metode, ali koje nisu preterano osetljive na mala odstupanja od pretpostavki modela. U statistici, klasični modeli se pretežno oslanjaju na pretpostavke koje se cesto ne ostvaruju u praksi. Naročito, često se predpostavlja da su ostaci podataka normalno raspoređeni, ili bar približno, ili da se može osloniti na teoremu centralne graničnosti da pruži normalnu raspodelu procena. Nažalost, kada ima smetnji u podacima, klasične metode često pružaju veoma loše rezultate.

Ovo se može proučavati empirijski, proučavanjem raspodele uzorka različitih procenjivača u mešovitom modelu, gde se dodaje mala količina(1-5% je često dovoljno) zagađenja. Na primer, može se koristiti mešavina sa 95% normalne raspodele, i 5% normalne raspodele sa istom očekivanom vrednošću, ali znatno većom standardnom devijacijom(greške).

Kako bi kvantifikovali robustnost metode, neophodno je definisati neke mere robustnosti. Možda najpoznatije od ovih mera su prelomna tačka i funkcija uticaja, opisane dalje u tekstu.

Robustna parametarska statistikaima sklonost da se oslanja na zamenu normalne raspodele u klasičnim metodama sa studentovom raspodelom sa niskim stepenom slobode(u praksi se pokazalo da su se često intervali 4-5 stepeni slobode pokazali korisnim) ili sa mešavino dve ili više raspodela.

Page 4: Analiza Podataka - Robustna statistika

Primeri robustne i ne-robustne statistike

Medijana je robustna mera centralne tendencije, dok matematičko očekivanje nije; na primer, medijanja ima prelomnu tačku na 50%, dok očekivana vrednost ima prelomnu tačku od 0%(jedan veliki uzorak može je poremetiti).

Apsolutna devijacija medijane i međukvartilna varijansa su robustne mere statističke disperzije, dok standardna devijacija i varijansa nisu.

Skraćeni procenjivači i vinzorizovani procenjivači su opšte metode za činjenje statistike robustnijom. M-procenjivači su opšta klasa robustne statistike.

Page 5: Analiza Podataka - Robustna statistika

Definicija

Postoje različite definicije "robustne statistike". Striktno govoreći, robustna statistika je otporna na greške u rezultatima, nastale devijacijama iz pretpostavki(npr. normalnost). Ovo znači da ako su pretpostavke samo delimično ostvarene, robustni procenjivač će i dalje imati prihvatljivu efikasnost, i prihvatljivo malu pristrasnost, kao i osobinu asimptotičke nepristrasnosti, odnostno pristrasnost će težiti nuli kako uzorak raste u beskonačno.

Jedan od najbitnijih slučajeva je raspodelna robustnost. Klasične statističke procedure su osetljive na "dugorepost"(npr. kada raspodela podataka ima višu stopu praćenja od pretpostavljene normalne raspodele). Stoga, u kontekstu robustne statistike, raspodelno robustno i otporno na smetnje su sinonimi.

Tema bliska ovoj je otporna statistika, koja je otporna na efekte ekstremnih vrednosti. Većina statistika je ili robustno ili otporno, ili nijedno.

Page 6: Analiza Podataka - Robustna statistika

Matematičko očekivanje i varijansa

Neka je aritmetička sredina obeležja X na populaciji jednaka m , a njegova varijansa ima

vrednost σ2

, tj. neka je m=E ( x ) , σ2=Var (x ) , pri čemu je X slučajna promenljiva vezana za neki

eksperiment.Posmatrajmo uzorak veličine n ,izvučen iz ove populacije, označimo elemente uzorka sa

x1 , .. . , xn .

Aritmetička sredina uzoraka (sredina uzorka) je statistika data funkcijom:

x̄=1n∑i=1

n

x i=1nx1+

1nx2+. . .+

1nxn

Statistika x̄ je linearna funkcija slučajne promenljive x i koje su međusobno nezavisne i sve imaju istu raspodelu, pa je očekivana vrednost ove statistike jednaka linearnoj funkciji

očekivanih vrednosti promenljive x i . Očekivana vrednost i varijansa svake promenljive

jednaka je m i σ2

populacije, zato je:

E ( x̄ )=1nnm=m

Var ( x̄ )=1n2nσ2=1

nσ2 ,

tj. očekivana vrednost uzorka je jednaka očekivanoj sredini populacije, a njena varijansa je

jednaka varijansi populacije podeljenoj sa veličinom uzorka, tj:E ( x̄ )=m , Var ( x̄ )=σ

2

n

Odakle sledi da rastom uzorka σ2 ( x̄ )će opadati i težiti nuli, kada n↦∞ . To znači da će verovatnoća

da će se x̄ naći u odredjenoj okolini oko m težiti jedinici kada n↦∞ , tj. тј. za dovoljno veliki obim uzoraka moći ćemo, skoro sigurno, da tvrdimo da će se sredina uzorka malo razlikovati od sredine

populacije. Ako pretpostavimo da Х ima na populaciji normalnu raspodelu, tj. X :N (m;σ2 ) , kod

uzorka izvučenog iz ove populacije sredina uzorka će imati normalnu raspodelu x̄ :N (m; σ 2n )

, odakle

Page 7: Analiza Podataka - Robustna statistika

sledi da će i statistika z¿= x̄−m

σ√n

koja predstavlja standardizovanu sredinu uzorka imati

standardizovanu normalnu raspodelu: z¿= x̄−m

σ√n :N (0,1 )

.

Ovaj rezultat može da se iskoristi za određivanje verovatnoće pojedinih događaja, najčešće

verovatnoća razlika sredine uzorka x̄ i sredine populacije m . To je dogadjaj oblika:

|x̄−m|≤ε , ε>0⇒P {|̄x−m|≤ε }=2Φ ( εσ √n)−1

Za odredjene vrednostiε , n , σ2 , može se odrediti verovatnoća iz tablica za funkciju normalne

raspodele. Obrnuto, za zadatu verovatnoću može se odrediti okolina sredine m .

Za odredjivanje raspodele sredine uzorka x̄ za svaku populaciju koristi se centralna granična

teorema: ako je očekivana vrednost (sredina) populacije m , a varijansa σ2

, tada raspodela sredine

x̄ uzorka teži normalnoj raspodeli sa sredinom m i varijansom σ2/n (kada n neograničeno raste),

pa za dovoljno veliko n možemo reći da će sredina uzorka x̄ imati približno normalnu raspodelu tj.

x̄ : (¿ )N (m; σ 2n ).

Na osnovu ove teoreme, normalna raspodela postaje univerzalno primenljiva, pa se zato najčešće koristi. Za jednu grupu podataka osnovno što treba računati je njihova sredina.

Uz ovu teoremu se mogu lako rešavati sledeći problemi:

Kolika je verovatnoća da će se sredina uzorka i sredina populacije razlikovati za manje od datog broja ε?

P {|̄x−m|<ε }≈2Φ ( εσ √n)−1 Odrediti interval oko sredine uzorka, tako da sa zadanom verovatnoćom tvrdimo da će sredina

populacije biti u tom intervalu; to će biti interval ( x̄−ε , x̄+ε ) , pri čemu ε treba odrediti tako da

funkcija 2Φ( εσ √n)−1

bude jednaka zadatoj verovatnoći.

Za koji obim uzorka n možemo, sa zadatom verovatnoćom, tvrditi da će se sredina uzorka i sredina

populacije razlikovati za manje od datog broja ε . To će biti ona vrednost n za koju funkcija

2Φ( εσ √n)−1 ima vrednost zadane verovatnoće.

Page 8: Analiza Podataka - Robustna statistika

Primer: Podaci brzine svetlostiIako veliki deo podataka izgleda manje ili više normalno raspodeljeno, postoje dve očigledne smetnje. Ove smetnje imaju veliki uticaj na očekivanu vrednost, povlačeći je ka sebi, a od sredine većeg dela podataka. Samim tim, ako se očekivana vrednost koristi za pronalaženje sredine podataka, ona je, u neku ruku, pristrasna kada su smetnje prisutne.

Takođe, za raspodelu očekivane vrednosti je poznato da je asimptotički normalna zbog teoreme centralnog limita. Ali ipak, smetnje mogu da učine raspodelu očekivane vrednosti ne-normalnom čak i za prilično velike grupe podataka. Pored ove ne-normalnosti, očekivana vrednost je takođe beskorisna u prisustvu smetnji i manje varijabilne mere lociranja su dostupne.

Page 9: Analiza Podataka - Robustna statistika

Procena položaja

Grafik ispod prikazuje grafik gustine podataka brzine svetlosti(slika (a)). Takođe je prikazan i normalan QQ-grafik(slika (b)). Smetnje se jasno vide na ovim graficima.

Slike (c) i (d) prikazuju grafik početne raspodele za očekivanu vrednost (c) i za 10% skraćenu očekivanu vrednost (d). Skraćena očekivana vrednost je jednostavan robustni procenjivač lokacije koja briše određeni procenat posmatranja(10% u datom slučaju) sa svake strane podataka, zatim računa očekivanu vrednost na uobičajen način. Analiza je vršena u R i 10000 početnih uzoraka su korišćeni i za osnovnu i za skraćenu očekivanu vrednost.

Raspodela očekivanih vrednosti je očigledno mnogo šira nego ta kod 10% skraćene očekivane vrednosti(grafici imaju istu skalu). Takođe se primećuje da, dok raspodela skraćene očekivane vrednosti deluje približno normalnoj raspodeli, raspodela osnovne očekivane vrednosti je pomerena ulevo. Dakle, u ovom uzorku od 66 posmatranja, samo 2 smetnje čine teoremu centralnog limita neupotrebljivom.

Metode robustne statistike, od kojih je skraćena očekivana vrednost jednostavan primer, teže da prevaziđu klasične statističke metode u prisustvu nepravilnosti, ili, opštije, kada početne parametarske predpostavke nisu tačne.

Dok skraćena očekivana vrednost radi dobro u odnosu na očekivanu vrednost u ovom primeru, dostupni su i bolji procenjivači. U stvari, očekivana vrednost, medijana i skraćena očekivana vrednost su svi specijalni slučajevi M-procenjivača.

Page 10: Analiza Podataka - Robustna statistika

Procena razmere

Nepravilnosti u podacima brzine svetlosti imaju više nego samo nepovoljan efekat na očekivanu vrednost; uobičajeni procenjivač razmere je standardna devijacija, a ova veličina je pod još nepovoljnijim uticajem nepravilnosti zbog toga što u račun ulaze kvadrati očekivane vrednosti devijacije, pa su efekti nepravilnosti prenaglašeni.

Grafici naslici ispod prikazuju početnu raspodelu standardne devijacije, medijanu apsolutne devijacije(MAD) i Qn procenjivač razmere (Rousseeuw and Croux, 1993). Grafici su bazirani na početnim uzorcima od 10000 za svaki procenjivač i dodato je malo normalnog nasumičnog šuma na uzorkovane podatke. Slika (a) prikazuje raspodelu standardne devijacije, (b) medijane apsolutne devijacije i (c) Qn-a.

Raspodela standardne devijacije je haotična i široka, kao rezultat nepravilnosti. MAD se bolje ponaša, a Qn je malo efikasniji od MAD. Ovaj primerak uzorka demonstrira da kada su nepravilnosti prisutne, standardna devijacija ne može biti preporučena kao procenjivač razmere.

Page 11: Analiza Podataka - Robustna statistika

Ručno traženje nepravilnosti

Tradicionalno, statističari bi rčno pretraživali podatke tražeći nepravilnosti, i uklanjali ih, najčešće proveravajući izvor podataka da vide da li su nepravilnosti pogrešno zabeležene. Zaista, u primeru brzine svetlosti, navedenom iznad, lako je primetiti i ukloniti dve nepravilnosti pre nastavljanja sa bilo kakvom daljom analizom. Naime, u modernom vremenu, grupe podataka se često sastoje od velikih brojeva varijabli koje se mere na velikim brojevima eksperimentalnih jedinica. Samim tim, ručno traženje nepravilnosti je često nepraktično.

Nepravilnosti se često javljaju tako da prikrivaju jedne druge. Kao primer, uzmimo malu jednovarijabilnu grupu podataka sa jednom srednjom i jednom velikom nepravilnošću. Procenena standardna devijacije biće veoma uvećana od strane veće nepravilnosti. Rezultat je da srednja nepravilnost deluje relativno normalno. Istog trenutka kada se velika nepravilnost otkloni, procenjena standardna devijacija se smanjuje, i srednja nepravilnost sada deluje neobično.

Ovaj problem prikrivanja se pogoršava sa povećanjem složenosti podataka. Na primer, u regresionim problemima, dijagnostički grafici se koriste za otkrivanje nepravilnosti. Tu je uobičajeno da kada se par nepravilnosti otkloni, ostale postaju vidljive. Problem je još gori u višim dimenzijama.

Robustne metode pružaju automatske načine otkrivanja, smanjivanja(ili uklanjanja) i obeležavanja nepravilnosti, uglavnom uklanjajući potrebu za ručnom pretragom.

Veliki broj aplikacija

Iako se ovde bavimo opštim principima jednovarijabilnih statističkih metoda, robustne metode postoje takođe i za regresione probleme, uopštene linearne probleme i parametarsku procenu različitih raspodela.

Page 12: Analiza Podataka - Robustna statistika

Mere robustnostiOsnovni alati za opisivanje i merenje robustnosti su prelomna tačka, funkcija uticaja i kriva osetljivosti.

Prelomna tačka

Intuitivno, prelomna tačka procenjivača je broj netačnih posmatranja(npr. proizvoljno velika posmatranja) koja procenjivač može da obradi pre nego što da proizvoljno veliki rezultat. Na

primer, , za n nezavisnih nasumičnih promenljivih i istih

realizacija , možemo koristiti da procenimo očekivanu vrednost. Takav procenjivač ima prelomnu tačku 0 zato što učiniti proizvoljno velikim ako samo menjamo bilo koji iz niza .

Što je viša prelomna tačka procenjivača, to je on robustniji. Intuitivno, razumemo da prelomna tačka ne može prekoračiti 50% zato što ako je više od pola posmatranja zagađeno, nije moguće praviti razliku između tražene i kontaminirane raspodele. Zato je, maksimalna prelomna tačka 0.5 i postoje procenjivači koji dostižu takvu prelomnu tačku. Na primer, medijana ima prelomnu tačku 0.5. X% skraćena očekivana vrednost ima prelomnu tačku od X% za odabrani nivo X.

Statistike sa visokim prelomnim tačkama ponekad se nazivaju rezistentnim(otpornim) statistikama.

Primer: podaci brzine svetlosti

U primeru brzine svetlosti, uklanjanje dva najniža posmatranja čini da se očekivana vrednost promeni sa 26.2 na 27.75, promena od 1.55. Procena razmere određena Qn metodom je 6.3. Dalje, možemo da podelimo kvadratnim korenom veličine uzorka da dobijemo robustnu standardnu grešku, i nalazimo da je ova veličina 0.78. Dakle, promena u očekivanoj vrednosti koja je nastala uklanjanjem nepravilnosti jednaka je približno dvostrukoj robustnoj standardnoj grešci.

Page 13: Analiza Podataka - Robustna statistika

10% skraćena očekivana vrednost podataka brzine svetlosti je 27.43. Oklanjanje dva nedostatka i preračunavanje daju 27.67. Očigledno, skraćena očekivana vrednost je pod manjim uticajem nedostataka i ima višu prelomnu tačku.

Primetimo da ako zamenimo najniže posmatranje, -44 sa -1000, očekivana vrednost postaje 11.73, dok je 10% skraćena očekivana vrednost i dalje 27.43. U mnogim oblastima primenjene statistike, redovno je za podatke da se logaritmuju približno simetriji. Veoma male vrednosti postaju velike negativne kada se logaritmuju, a nule postaju negativne beskonačne. Zato je ovaj primer od praktičnog interesa.

Empirijska funkcija uticaja

Tukey-eva dvotežinska funkcija

Empirijska funkcija uticaja daje nam uvid u to kako se procenjivač ponaša kada promenimo jednu tacku u uzorku i kada se oslanja na podatke(npr. bez predpostavki modela). Na slici gore je Tukey-eva dvotežinska funkcija, koja, kako ćemo videti kasnije, je primer toga kako "dobra" empirijska funkcija uticaja treba da izgleda. Kontekst je sledeci:

1. je prostor verovatnoće,

2. je prostor mere (prostor stanja),

3. Θ je prostor parametra, dimenzije ,4. (Γ,S) je prostor mere,

5. je projekcija,

6. je set svih mogućih raspodela Σ

Na primer,

1. je bilo koji prostor verovatnoće,

Page 14: Analiza Podataka - Robustna statistika

2. ,

3.

4. ,

5. definisan sa: γ(x,y) = x.

Definicija empirijske funkcije je: Neka je i i

je uzorak ovih promenljivih. je procenjivač. neka je

. Empirijska funkcija uticaja EIFi pri i-tom posmatranju je definisana kao:

Šta ovo u stvari znači je da mi menjamo i-tu vrednost sa proizvoljnom vrednošću i posmatramo izlaz iz procenjivača.

Ovaj oblik funkcije uticaja je analogno ostalim oblicima funkcije uticaja, kao što je impulsni odgovor: meri osetljivost na vrednost u tački.

Page 15: Analiza Podataka - Robustna statistika

Funkcija uticaja i kriva osetljivosti

Umesto da se oslanjamo isključivo na podatke, možemo koristiti raspodelu nasumičnih promenljivih. Ovaj pristup je prilično drugačiji od onog iz prethodnog pasusa. Ono što sad pokušavamo da uradimo je da vidimo šta se dešava sa procenjivačem kada blago menjamo raspodelu podataka: on preuzima raspodelu, i meri osetljivost na promene u ovoj raspodeli. Kao kontrast, empirijsta funkcija uticaja, preuzima skup uzorka, i meri osetljivost na promene u uzorku.

Neka je A konveksan podskup skupa svih ograničenih mera na . Mi želimo da procenimo parametar raspodele F u A. Neka je funkcional asimptotska vrednost

nekog niza procenjivača . Predpostavimo da je ovaj funkcional Fisher konzistentan,

npr. . Ovo znači da kod modela F, niz procenjivača asimtotski meri tačnu količinu.

Neka je G neka raspodela u A. Šta se dešava kada podaci ne prate model F nego neki drugi, malo drugačiji "idući ka" G?

Gledamo u: ,

što predstavlja usmereni izvod T od F, u smeru G.

Neka . Δx je mera verovatnoće koja dodeljuje x masu 1. Izabrali smo da je G = Δx. Funkcija uticaja je onda definisana kao:

Ona opisuje efekat beskonačno malog zagađenja u tački x u proceni koju tražimo, standardizovanu od strane mase t zagađenja. Za robustni procenjivač, želimo ograničenu funkciju uticaja, tj. onu koja ne ide u beskonačno kada x postaje proizvoljno veliko.

Page 16: Analiza Podataka - Robustna statistika

Poželjne osobineOsobine funkcije uticaja koje joj omogućavaju poželjan učinak su:

1. Odbojna tačka ρ * ,2. Mala bruto-greška osetljivost γ * ,3. Mala lokalno-pomeranje osetljivost λ * .

Odbojna tačka

Bruto-greška osetljivosti

Lokalno-pomeranje osetljivosti

Ova vrednost, koja izgleda kao Lipschitz-ova konstanta,predstavlja efekat pomeranja posmatranja blago sa x na susednu tačku y, npr. dodati posmatranje na y a ukloniti ono sa x.

This value, which looks a lot like a Lipschitz constant, represents the effect of shifting an observation slightly from x to a neighbouring point y, i.e., add an observation at y and remove one at x.

Page 17: Analiza Podataka - Robustna statistika

M-procenjivači

( Matematički kontext ove oblasti dat je u oblasti empirijske funkcije uticaja)

Istorijski gledano, nekoliko pristupa robustnim procenama je predstavljano, uključujući i R-rpocenjivače i L-procenjivače. Međutim, M-procenjivači kako se sada čini, dominiraju ovim poljem kao rezultat njihove opštosti, visoke prelomne tačke i njihove efikasnosti.

M - procenjivači su uopštenje procenjivača maksimalne verovatnoće(MLE). Ono što

pokušavamo da sa njima uradimo je da maksimiziramo ili, ekvivalentno,

minimiziramo . 1964, Huber je predložio uopštavanje ovoga na minimizaciju

, gde je ρ neka funkcija. MLE su znači specijalan oblik M-procenjivača (otud i ime: "Maximum likelihood type" estimators).

Minimizacija može često da se uradi diferencijacijom ρ i rešavanjem

, gde (ako ρ ima izvod).

Predloženo je nekoliko opcija za ρ i ψ. Dve slike ispod predstavljaju 4 funkcije ρ i njihove ψ.

Za kvadratne greške, ρ(x) se povećava rastućom stopom, dok kod apsolutnih grešaka raste konstantnom stopom. Kada se koristi vinzorajzing, mešavina ova dva efekta se javlja: za male vrednosti x, ρ raste kvadratnom stopom, ali kada se je odabrani prag dostignut(1.5 u ovom primeru) stopa rasta postaje konstantna. Ovaj vinzorizovan procenjivač je takođe poznat i kao Huberova funkcija gubitka. Tukey-eva dvotežinska(takođe poznata i kao bikvadratna) funkcija se ponaša slično kao kvadratna greška u početku, ali kod većih grešaka, funkcija se sužava

Page 19: Analiza Podataka - Robustna statistika

Osobine M-procenjivača

Primetimo da se M-procenjivači ne neophodno odnose prema funkciji verovatne gustine. Samim tim, direktni pristupi zaključivanju koji nastaju od teorije verovatnosti ne mogu, uopšteno, da se koriste.

Može se pokazati da su M-procenjivači asimptotski sa normalnom raspodelom, tako da sve dok se njihove standardne greške mogu obraditi, približan pristup zaključivanju je dostupan.

Kako su M-procenjivači normalni samo asimptotski, za male uzorke može biti odgovarajuće korišćenje alternativnih pristupa zaključivanju, kao što su početne predpostavke. Međutim, M-procenjivači nisu neophodno jedinstveni(npr. može biti više od jednog rešenja koje zadovoljava jednačinu). Takođe, moguće je da bilo koji posebni početni uzorak sadrži više nepravilnosti nego što je procenjivačeva prelomna tačka. Stoga, određena doza opreza je potrebna kod pravljnjea početnih šema.

Naravno, kao što smo videli sa primerom brzine svetlosti, očekivana vrednost ima normalnu raspodelu samo asimptotski i kada su nepravilnosti prisutne aproksimacija može biti veoma loša čak i kod prilično velikih uzoraka. Međutim, klasični statistički testovi, uključujući i one bazirane na očekivanoj vrednosti, u uglavnom ograničeni iznad nominalnih veličina testa. Ovo ne važi za M-procenjivače i greške I vrste mogu biti znatno iznad nominalnog nivoa. Ove osobine ne "omalovažavaju" M-procenu u bilo kom smislu. Tone samo ukazuju da je malo pažnje potrebno pri njihovom korišćenju, što važi i za druge metode procene.

Funkcija uticaja M-procenjivača

Može da se pokaže da je funkcija uticaja M-procenjivača T proporcionalna u odnosu na ψ, što znači da možemo izvesti osobine takvog procenjivača(kao što su njegova odbojna tačka, bruto-greška osetljivosti...) kada znamo njegovu ψ funkciju.

IF(x;T,F) = M − 1ψ(x,T(F)) sa dato od: .

Izbor ψ i ρ

U mnogo praktičnih situacija, izbor funkcije ψ nije kritičan za dobijanje dobre robustne procene, i mnogi izbori daju slične rezultate koji nude velika unapređenja, u pogledu efikasnosti i opterećenja, ispred klasičnih procena pri prisustvu nepravilnosti.

Page 20: Analiza Podataka - Robustna statistika

Teoretski, funkcije ψ trebaju biti preferirane, i Tukey-eva dvotežinska(takođe poznata i kao bikvadratna) funkcija je popularan izbor. Preporučuje se dvotežinska funkcija sa efikasnošću na normalnom postavljenom na 85%

Robustni parametarski pristupiM-procenjivači nisu neophodno povezani sa funkcijom gustine pa nisu ni u potpunosti parametarski. Potpuno parametarski pristupi robustnom modeliranju i zaključivanju, i Bajesovi i verovatnosni pristupi, najčešće se suočavaju sa veoma opterećenim raspodelama kao što je Studentova t-raspodela.

Za t-raspodelu sa v stepeni slobode može se prikazati da:

.

Za v = 1, t-raspodela je ekvivalentna Košijevoj raspodeli. Primetimo da se stepeni slobode ponekad nazivaju i parametrima kurtoznosti. To je parametar koji kontroliše opterećenost raspodele. U principu, v moda se proceni iz podataka kao i svaki drugi parametar. U praksi često se dešava da bude više lokalnih maksimuma kada je v dozvoljeno da varira. Kao takvom, često je da se v fiksira na vrednost oko 4 ili 6. Slika ispod prikazuje funkciju ψ za 4 različite vrednosti v.

Page 21: Analiza Podataka - Robustna statistika

Primer: podaci brzine svetlosti

Za podatke brzine svetlosti, dozvoljavanjem parametru da varira i maksimizirajući verovatnoću, dobijamo

Fiksirajući ν = 4 i maksimizirajući verovatnoću dobijamo

Page 22: Analiza Podataka - Robustna statistika

Teorija robustne odluke

Teorija odluke se zasniva na maksimiziranju očekivane vrednosti ili očekivane hipoteze korisnosti je osetljiva na predpostavke o verovatnoćama različitih ishoda, naročito ako je očekivanost dominirana od strane retkih ekstremnih događaja.

Po kontrastu, teorije odluka koje nisu zasnovane na verovatnoći, kao što su minimax i minimax sa žaljenjem su nezavisne u odnosu na predpostavke o verovatnoćama ishoda, zaviseći samo od evaluacije mogućih ishoda i njihovih poželjnosti. Analiza scenarija i stres testiranje su neformalne metode koje se ne zasnivaju na verovatnoći, dok je info-gap teorija odluka formalna robustna teorija odluka.

Page 23: Analiza Podataka - Robustna statistika

Zaključak

Robustna statistika se bavi veoma realnim problemom statističke primene: efektom narušavanja modela koji se koristi za analizu podataka. U poslednjih 40 godina došlo je do neverovatnog napretka u teoriji robustne statistike, ali nažalost većina ovih procedura još uvek nije rasprostranjena u praksi. Razlog koji govori u korist ograničenog korišćenja robustne statistike jesu visoki troškovi obrade velikog broja ovih tehnika.

Nedostatak lakog za upotrebu i dobro dokumentovanog kompjuterskog koda takođe ne pomaže. U poslednjih par godina konsolidacija projekta R kao široko dostupnog, moćnog i svestranog kompjuterskog programa za statističku analizu je rezultovao time da je veliki broj ljudi istovremeno počeo da razvija i objavljuje R kodovve koji implementuju tehnike robustne statistike.

Jedan od glavnih ciljeva ovog projekta je da organizuje razvoj alata u R koji bi implementovali metode robustne statistike u mnoge modele koji se široko koriste.

Page 24: Analiza Podataka - Robustna statistika

Literatura

Robust Statistics - The Approach Based on Influence Functions, Frank R. Hampel, Elvezio M. Ronchetti, Peter J. Rousseeuw and Werner A. Stahel, Wiley, 1986 (republished in paperback, 2005)

Robust Statistics, Peter. J. Huber, Wiley, 1981 (republished in paperback, 2004)

Robust Regression and Outlier Detection, Peter J. Rousseeuw and Annick M. Leroy, Wiley, 1987 (republished in paperback, 2003)

Hettmansperger, T. P.; McKean, J. W. (1998). Robust nonparametric statistical methods. Kendall's Library of Statistics. 5 (First ed.). London: Edward Arnold.

Robust Statistics - Theory and Methods, Ricardo Maronna, Doug Martin and Victor Yohai, Wiley, 2006

Alternatives to the Median Absolute Deviation, P. J. Rousseeuw and C. Croux, C., Journal of the American Statistical Association, 88, 1993