matepristem matematica in classe/4 – probabilità e statistica frascati, 14-16 ottobre 2011 che...
TRANSCRIPT
MATEpristem
“Matematica in classe/4 – Probabilità e Statistica”Frascati, 14-16 ottobre 2011
Che cos’è la significatività statistica(amena conversazione su concetto e uso della significatività in statistica)
Walter Racugno – Università di Cagliari
La statistica
Ma – ahimè! - non sempre il buon senso conduce a conclusioni sensate:un trattamento semplicistico dei dati può portare a risultati ingannevoli.
La statistica matematica è buon senso tradotto in una struttura logica e in un linguaggio matematico capaci di dare coerenza logica e algoritmi di calcolo alla conoscenza parziale.
Significatività statistica(attraverso esempi)
• i tranci di pizza sono terapeutici per la varicella?
• il dramma del professore
• l’affondamento del Titanic: naufragio di statistici
• il dimorfismo sessuale
• tassa sul lusso
La pizza cura le pustole della varicella?(da:T.E. Bradstreet – The American Statistician, 1996)
Il piano di lavoro
Tesi
Ipotesi da verificare
Piano sperimentale
Variabili risposta
Risultati
Conclusione
La pizza cura le pustole
Dopo 5 giorni di trattamento con pizza i pazienti con pustolepresentano una durata delle lesioni inferiore del 40%rispetto ai non trattati (controlli)
Prove cliniche parallele, randomizzate
Durata delle lesioni
La pizza cura le pustole della varicella?
I dati sperimentali
0
5
10
15
7.2
5.129%
29% < 40%la differenza non è significativa
(clinicamente)
controllo
pizza
durata media
La pizza cura le pustole della varicella?
Piano di lavoro, risultati e conclusioni
Tesi La pizza cura le pustole
Ipotesi da testareDopo 5 giorni di trattamento con pizza i pazienti con pustole presentano una durata delle lesioni inferiore del 40% rispetto ai non trattati (controlli)
Piano sperimentale Prove cliniche parallele, randomizzate
Variabili risposta Durata delle lesioni
Risultati
Conclusione
Differenza clinica non significativa
Non c’è evidenza sperimentale a favore dell’ipotesiche la pizza abbia efficacia terapeutica nel trattamento delle pustole da varicella
Il dramma del professore (per spiegare la significatività statistica)
Dramma aperto in VI atti
e un epilogo
Protagonisti: lo studente; il professore
Atto I (il contesto)
• Lo studente deve sostenere un esame• Può essere preparato o non-preparato
Atto II (l’azione)
Il professore deve compiere l’azione:
Atto III (la trama si sviluppa)
• Lo studente e il professore si incontrano• Il prof non sa se lo studente è preparato o no (forse neppure lo studente lo sa!)• Non potendo esplorare “tutta” la preparazione dello studente,
il prof ha la possibilità di fare alcune domande (ad es. 5)
Atto IV (il dilemma)
Il professore pensa: quante risposte esatte dovrà darmi lo studente per convincermi d’essere preparato?
(Nota: professore “buono”=2 risposte su 5; “severo” =3 su 5; “cattivo”=4 su 5; “terribile”=5 su 5).
Atto V (il fatto)
Atto VI (il dramma del prof)
Epilogo
Lo studente risponde a 3 domande il prof lo promuove
Lo studente risponde a meno di 3 domande il prof lo boccia
Ha promosso un non-preparato? Ha bocciato un preparato?
promuovere
bocciare
Il professore si rivolge al suo statistico di fiducia!
(per spiegare la significatività statistica)
• Studente
• Azioni
• Regola di decisione
preparato
non-preparato
Stati di natura
: preparato , : non-preparato
10 ,: HH
0H
promuovere
bocciare
spazio campionario
1 2 3 4 5
promuoverebocciare
rifiuto 0H accetto 0H
1H
preparato non-preparato
promuovo
boccio )|( 0HbP
1H
… in sintesi
0H
)|( 1HprP
)|( 1HbP
)|( 0HprP
zona di rifiuto zona di accettazione 0H0H
valore di soglia
rifiuto e accetto0H 1Haccetto e rifiuto 0H 1H
= P(rifiutare quando è vera) = P(rifiuto| )
Nella teoria della verifica (test) d’ipotesi di Neyman-Pearson-Wald
• livello di significatività del test : livello d’errore con cui siamo “disposti” a rifiutare l’ipotesi .
• è usualmente molto piccolo : valori standard 0.05; 0.01; anche 0.001.------------------------------------------------------------------------------
-
• Jerzy Neyman, (1894 – 1981)• Sir Ronald Aylmer Fisher, (1890 – 1962) • Egon Sharpe Pearson, (1895 – 1980)• Abraham Wald, (1902 – 1950)
0H0H
0H
L’affondamento del Titanic (S.M. Iacus, G. Masarotto – 2007, 2^ Ed.) ………………………….
Nel suo rapporto ufficiale Lord Mersey il parlamentare incaricato dell’inchiesta sul naufragio del Titanic (15 aprile 1912):
“Si era sospettato prima dell’inizio dell’indagine che i passeggeri di terza classe fossero stati trattati in modo discriminatorio … e che fu data precedenza ai passeggeri di prima e seconda classe …
… l’elevata proporzione di perdite non deve essere ricercata nella discriminazione dei passeggeri di terza classe. Essi non sono stati discriminati”
L’affondamento del Titanic
Classe Sesso Età Morti Salvati
1uomini
bambini
adulti
0
118
5
57
donnebambini
adulti
0
4
1
140
2uomini
bambini
adulti
0
154
11
14
donnebambini
adulti
0
13
13
80
3uomini
bambini
adulti
35
387
13
75
donnebambini
adulti
17
89
14
76
crewuomini 670 192
donne 3 20
totale 1490 711
L’affondamento del Titanic
Una prima domanda: è stata rispettata la legge marinara “ prima le donne e i bambini” ?
Salvati (%) N°. imbarcati
bambini 52 % 109
donne 74 % 425
uomini 20 % 1667
32% 2201
L’affondamento del Titanic
Altra domanda: vi è una relazione tra sopravvissuti e classe di imbarco ?
classe morti salvati
1 122 203 325
2 167 118 285
3 528 178 706
crew 673 212 885
1490 711 2201
classe morti salvati
1122
(38%)203
(62%)325
2 167
(59%)118
(41%)285
3528
(75%)178
(25%)706
817 (62%)
499 (38%)
1316
L’affondamento del Titanic
vi è una relazione tra sopravvissuti e classe di imbarco ?
classe morti salvati
1202
(62%)123
(38%)325
2 177
(62%)108
(38%)285
3438
(62%)268
(38%)706
817 (62%)
499 (38%)
1316
Tabella reale Tabella ideale
L’affondamento del Titanic
“distanza” tra tabella reale e tabella ideale (con variabili indipendenti: )
confronto tra proporzioni o percentuali
ipotesi :la differenza èdovuta al caso
Accettare o rifiutare l’ipotesi
Test“Chi-quadrato”
0H
0H
rifiuto 0Haccetto 0H
0H
distanza chi-quadro
L’affondamento del Titanic
“distanza” tra tabella reale e tabella ideale (con variabili indipendenti: )
rifiuto 0Haccetto 0H
0H
distanza chi-quadro
I dati rilevati non forniscono un’evidenza sperimentale per poter rifiutarel’ipotesi : la distanza della tabella reale dalla tabella ideale non è statisticamente significativa al livello = 0.05. In altri termini:la differenza è attribuibile al caso e non a un “errore sistematico”
0H
… ma …
L’affondamento del Titanic (A. Farcomeni – Convegno SIS, Venezia 6-8 settembre 2007)
NOTA Le interazioni tra fattori (variabili) possono essere considerate come ulteriori fattori:
esplicativi dell’effetto di interesse.
Es. tabella:• fattore di riga• fattore di colonna• fattore di cella (interazione tra riga e colonna) tabelle a più di due dimensioni (vedi Titanic)
Come modellizzare l’interazione
Problema
Descrivere il numero (y) di volte in cui un gruppo di pazienti visita annualmente il proprio medico di base, in dipendenza dell’età ( ).1x
1bxay n° visite
etàparametri
etàvisiten20
12 Esempio
Modello1
Come modellizzare l’interazione
1bxay
età
n° visite
a
Domanda:
oltre l’età, il sesso ha qualche influenza sul n° di visite?
1x
Come modellizzare l’interazione
21 cxbxay
1bxay
2x
età
n° visite
a
1x
Modello 2 = 0 uomo
= 1 donna
1)( bxcay
a+c
c = influenza del sesso sul n° visite
NOTA: non c’è interazione tra gli effetti dell’età e del sessol’effetto del sesso è uguale per tutte le età!
Come modellizare l’interazione
Domanda: come esprimere algebricamente che le due rette (uomo-donna) non sono parallele?
Risposta: creiamo una nuova variabile
213 xxx interazione = età-sesso
Modello 3 321 dxcxbxay
uomo
donna
00 32 xx
132 1 xxx
321 dxcxbxay
1)()( xdbcay
Come modellizzare l’interazione
1bxay
età
n° visite
a
1x
1)()( xdbcay
a+c
d = effetto età-sesso sul n° visite
NOTA: il modello considera l’effetto di ciascuna variabile (età, sesso) e della loro interazione il n° delle visite dipende dall’etàe dal sesso ma NON con uguale intensità!
L’affondamento del Titanic
Nella prima analisi che abbiamo visto sono state considerate soltanto interazioni del secondo ordine:
• tra la variabile (fattore) Classe e la variabile Sopravvivenza (morti/salvati) si è visto che l’interazione non è statisticamente significativa (mentre c’è “evidenza” nelle interazioni di Sopravvivenza con Sesso e con Età)
Con un modello più complesso che considera anche le interazioni del terzo ordine, sono risultate statisticamente significative le interazioni
- Class:Sex:Age- Class:Sex:Survived- Class:Age:Survived
… morale
Il dimorfismo sessuale
Il problema antropologico statistico
• Consideriamo due variabili X e Y che rappresentano una stessa dimensione antropometrica relativa ai due sessi.
• In letteratura è spesso considerata soltanto la diversità tra i valori medi (dimorfismo di media)
x
yxyx
oppure
N (20, 16) N (40, 16)
Il dimorfismo sessuale
• La variabilità intrasesso può alterare il dimorfismo di media: a parità di distanza tra medie, una minore [maggiore] variabilità intrasesso determina un aumento [diminuzione] del dimorfismo
N (20, 4) N (30, 4)
N (20, 36) N (30, 36)
• La variabilità intrasesso è dunque anch’essa una componente del dimorfismo: dimorfismo di dispersione, (Marini, Racugno et al. 2005, 2007).
Esempio (a parità di medie):
N (30,36)N (30, 4)
Il dimorfismo sessuale
Due problemi:
1 – di natura antropologica2 – di natura statistica
1. Dimorfismo di media; di variabilità; di asimmetria; di … altre componenti?
2. Rilevazione della presenza di dimorfismo; individuazione e stima delle differenze; misura dell’evidenza; costruzione di statistiche in presenza di modelli e non.
Il dimorfismo sessuale
Obiettivi:
1. Proporre una visione globale del dimorfismo sessuale nei caratteri metrici. Evidenziarne le varie forme di espressione (componenti).
Sviluppare considerazioni sintetiche sulla sua natura nelle diverse tipologie di variabili antropometriche.
2. Considerare l’intero contenuto informativo delle due (♀,♂) distribuzioni campionarie di frequenza per ciascuna variabile antropometrica.
Costruire procedure di analisi statistica per l’applicazione dei test di confronto.
Il dimorfismo sessuale
“Tassa sul lusso”Art. 4 L.R. 4/2006 (imposta sulla nautica)
La politica
• L’articolo 4 della L.R. n. 4 del 2006 ha istituito un’imposta regionale sulle unità da diporto di lunghezza maggiore o uguale a 14 mt., (scali tra il 1° giugno e il 30 settembre nei porti del territorio regionale).
Domanda
• L’imposta causa effetti negativi sullo scalo di unità da diporto nei porti sardi?
Stime errate
• Stime ottenute confrontando gli scali osservati nel 2006 con quelli osservati nell’anno precedente.
Definizione di effetto
• L’effetto dell’imposta sugli scali è la differenza tra il numero di scali osservati nel 2006 e il numero che avremmo osservato nello stesso periodo del 2005, in assenza dell’imposta.
Tassa sul lusso
Dati disponibili• 56 gestori che possono accogliere barche oltre i 14 mt • 15000 posti barca• da 16 gestori non è stato possibile avere dati (15%)• dei 40 gestori, 33 hanno collaborato, 19 hanno fornito dati
completi
Si sono analizzati i dati relativi a 57% dei posti barca (6926)per un totale di 5065 scali (il 77% di cui si è avuta notizia).
• Tra il 2005 e il 2006 si è verificata una riduzione del numero di scali pari al 15%:
18% di barche soggette a imposta; 8% non soggette.
In particolare una riduzione del 20% delle barche tra 12 e 13 mt (NON assoggettate).
Tassa sul lusso
0.1
.2.3
10 15 20 25 30 10 15 20 25 30
2005 2006Scali Scali
Density
kdensity lunghezza
Den
sity
lunghezza
Graphs by stagione
Aspetti critici
Tassa sul lusso
05
10
15
12 13 14 15 16 12 13 14 15 16
2005 2006
Num
ero
di s
cali
LunghezzaGraphs by stagione
Aspetti critici
Infine
la rondine … la primavera …
… il reverendo Thomas Bayes …
… sillogismi
La colpa di
• In una classe, alcuni studenti lamentano il malfunzionamento di WORD.
• Una parte degli studenti usa WINDOWS 2000, un’altra parte XP.
Domanda:
XP ha qualche colpa?
La colpa di I dati
• il 60% usa XP (il 40% altro!)
• il 20% ha problemi con WORD
• il 75% di coloro che hanno problemi usa XP
male bene
TOT
0.40
0.60
TOT.
No XP
XP
0.350.05
0.20 0.80 1
0.15 0.45
)|( XPmaleP)(
),(
XPP
XPmaleP 25.0
6.0
15.0 20.0
0,15 0.60
L’informazione aggiuntiva “ sapendo che usano XP ” fa passare la probabilità da 0.20 a 0.25
)|()( maleXPPmaleP
Il reverendo e … la rondine
Teorema di Bayes (1702 – 1761)
Dove si vede che – ovviamente! - )|()|( maleXPPXPmaleP
)|( XPmaleP)(
)|()(
XPP
maleXPPmaleP
Sillogismi (1)
0)( AP
Domanda:
Qual è la probabilità che WR sia un alieno?
)|()()|()()( AWRPAPUWRPUPWRP
)(
)|()(
WRP
UWRPUP
1)( UPmldUWRP 6/1)|(
0
)|( WRUP 1
Sillogismi (2)
999.0)( NBP
Domanda:
Qual è la probabilità che WR sia un bandito?
)|()()|()()( NBSPNBPBSPBPSP
)(
)|()(
SP
BSPBP
001.0)( BP10.0)|( BanditoSardoP
)|( SBP
028.053000000
1500000)( SP
0036.0028.0
10.0001.0
Risposta:
Alieno no, ma bandito un po’ sì (ma poco!!)