campionamento e statistica...
TRANSCRIPT
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Campionamento
e
Statistica Descrittiva
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Statistica, perché ?
• Incertezza nella ripetizione delle
misurazioni (dipendenza da fattori
casuali)
• Trarre conclusioni dai dati
• Costruire esperimenti validi e tracciare
conclusioni affidabili
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Idea di base
Fare inferenze su una popolazione
studiando un campione estratto da
essa.
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Esempio• Un macchinario produce rondelle d’acciaio per
dispositivi di memoria ottica.
• Specifica per il diametro delle rondelle è
0.45 0.02 cm
• 1000 rondelle prodotte…..quante rispettano la specifica?
• Su 50 rondelle 46 (=92%) hanno il diametro nella specifica.
• La proporzione, nella popolazione, di rondelle col diametro giusto è probabile che differisca dal 92% (proporzione campionaria).
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Domande
• Quanto può essere grande la differenza tra la
proporzione delle rondelle buone nel campione
e nella popolazione?
• Come calcolare x tale che la vera percentuale di
rondelle accettabili nella popolazione si trovi,
con ragionevole fiducia nell’intervallo 92%x%?
• Come essere sicuri che almeno il 90% delle
1000 rondelle sia accettabile?
Deviazione Standard
Intervallo di confidenza
Test d’ipotesi
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Metodi per poter trarre conclusioni dai dati
Metodi per raccogliere dati e produrre informazioni da essi
Statistica inferenziale
Statistica descrittiva
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indagine Statistica
• Rilevazione dei dati
• Organizzazione dei dati
• Presentazione dei dati organizzati
• Interpretazione dei dati e conclusioni
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
CampionamentoDefinizioni:Una popolazione è l’intera collezione di oggetti
o eventi sui quali si ricerca l’informazione.
Un campione è un sottoinsieme della popolazione. Esso contiene gli oggetti o gli eventi che sono osservati realmente.
Un campione casuale semplice (ccs) di ampiezza n è un campione casuale scelto in modo che ogni elemento degli n abbia la stessa probabilità di essere incluso nel campione. Estrazione casuale degli elementi che costituiscono il campione.
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Campione Casuale Semplice
• Un CCS non rispecchia perfettamente la
propria popolazione.
• CCS differiscono dalla popolazione per diversi
motivi, a volte anche in maniera sostanziale.
• Due differenti campioni da una stessa
popolazione sono diversi l’uno dall’altro.
Tale fenomeno è noto come
variabilità di campionamento.
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza
• Gli elementi in un campione casuale
semplice possono essere trattati come
indipendenti nella maggior parte dei casi
che si incontrano nella pratica.
L’eccezione si ha quando la popolazione è
finita e l’ampiezza del campione è
maggiore o uguale al 5% di quella della
popolazione.
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: esempio
1 010
Popolazione Campione
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: esempio
1 010
Popolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
Campione
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: esempio
1 010
Popolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
1 01
Campione
0
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: esempio
1 010
Popolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
1 01
Campione
0
Estrazione: maggiore probabilità di
estrarre 1
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: esempio
1 010
Popolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
1 01
Campione
0
Estrazione: maggiore probabilità di
estrarre 1
10 0 1
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: esempioPopolazione Campione
01
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: esempioPopolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
Campione
01
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: esempioPopolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
Campione
0
01
01
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: esempioPopolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
Campione
0
Estrazione: probabilità di estrarre 0
o 1 praticamente uguali
01
01
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: esempioPopolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
Campione
0
Estrazione: probabilità di estrarre 0
o 1 praticamente uguali
0 ?
01
01
01
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Indipendenza: campionamento con reinserimento
1 010
Popolazione Campione
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
1 010
Popolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
Campione
Indipendenza: campionamento con reinserimento
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
1 010
Popolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
1 01
Campione
0
Indipendenza: campionamento con reinserimento
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
1 010
Popolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
1 01
Campione
0
Indipendenza: campionamento con reinserimento
0
reinserimento
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
1 010
Popolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
1 01
Campione
0
Indipendenza: campionamento con reinserimento
0
reinserimento
Estrazione: uguale probabilità di
estrarre 0 o 1
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
1 010
Popolazione
Estrazione: uguale probabilità di
estrarre 0 o 1
1 01
Campione
0
1 00 ?
Indipendenza: campionamento con reinserimento
0
0
Estrazione: uguale probabilità di
estrarre 0 o 1reinserimento
1
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Una sintesi numerica calcolata su un
campione è detta statistica.
Una sintesi numerica calcolata su una
popolazione è detta parametro.
Le statistiche vengono spesso utilizzate
per stimare i parametri.
Ancora Definizioni:
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Popolazione Campione
Statistica
Inferenza
Parametro
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Ancora sui CCS
Definizione: Una popolazione concettuale è formata da tutti i valori che potrebbero essere osservati.
• Per esempio, un geologo pesa una pietra diverse volte su una bilancia elettronica. Ogni volta la bilancia dà risultati leggermente differenti
• La popolazione è concettuale ed è composta da tutte le misurazioni che la bilancia, in teoria, potrebbe produrre.
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Tipi di dati
• Numerico o quantitativo se una quantità numerica è assegnata ad ogni elemento nel campione.• Altezza
• Peso
• Età
• Categorico o qualitativo se gli elementi del campione sono classificati in categorie.• Genere
• Colore dei capelli
• Sigle di province
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Organizzazione dei datiIndici statistici
iy
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Organizzazione dei datiIndici statistici
iy
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Organizzazione dei datiIndici statistici
• Campo di Variazione: minimo intervallo
che contiene tutti gli ; iy
iymin iymax
ii yyr minmax
iy
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Organizzazione dei datiIndici statistici
• Campo di Variazione: minimo intervallo
che contiene tutti gli ;iy
• Classi
iymin iymax
iy
ii yyr minmax
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Organizzazione dei datiIndici statistici
• Campo di Variazione: minimo intervallo
che contiene tutti gli ;iy
n log 443.11cncn
r
• Classi (numero delle classi ed ampiezza)
iymin iymax
iy
ii yyr minmax
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Funzioni di frequenza
• Funzione di frequenza (x): associa ad ogni classe il numero degli
elementi che la compongono;
n
xxr
)(
n
xx c
cr
)(
• Funzione di frequenza relativa r(x): rapporto tra il numero degli
elementi della classe e il numero totale degli elementi;
• Funzioni di frequenza cumulativa c(x): numero degli elementi della
classe e delle classi precedenti;
• Funzione di frequenza cumulativa relativa cr(x):
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Funzione di frequenza
iymin iymax
100n
3)( 1 x
1x 2x 3x 4x 5x 6x 7x
7)( 2 x 20)( 3 x 45)( 4 x
8)( 5 x 5)( 6 x 12)( 7 x
100)(1
cn
iix
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Funzione di frequenza relativa
iymin iymax
03.0)( 1 xr
1x 2x 3x 4x 5x 6x 7x
07.0)( 2 xr 2.0)( 3 xr
45.0)( 4 xr 08.0)( 5 x 05.0)( 6 xr
12.0)( 7 xr
1)(1
cn
iir x
nxxr /)()(
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Funzione di frequenza cumulativa
iymin iymax
100n
3)( 1 xc
1x 2x 3x 4x 5x 6x 7x
10)( 2 xc 30)( 3 xc 75)( 4 xc
83)( 5 xc 88)( 6 xc 100)( 7 xc
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Funzione di frequenza cumulativa relativa
iymin iymax
03.0)( 1 xcr
1x 2x 3x 4x 5x 6x 7x
1.0)( 2 xcr 3.0)( 3 xcr
75.0)( 4 xcr 83.0)( 5 xcr 88.0)( 6 xcr
1)( 7 xcr
nxx rcr /)()(
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Istogramma• Scegliere i punti di confine
per gli intervalli di classe.
• Calcolare le frequenze e le frequenze relative per ogni classe.
• Calcolare la densità per ogni classe secondo la formula
Densità = frequenza relativa /ampiezza classe
• Disegnare un rettangolo per ogni classe, la cui altezza sia uguale alla densità.
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
IstogrammaL’altezza di ogni rettangolo dell’istogramma è la densità:
,/)()( iiri xx
dove è la lunghezza della classe i e è la frequenza relativa.
L’area totale dell’istogramma è
i )(xr
dove è la frequenza, che soddisfa alla condizione:)(x
,)(1
nxc
n
ii
è l’ampiezza del campione e è il numero delle
classi.
ncn
1)(1
)()(111
cccn
iii
n
iri
n
ii x
nxx
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Misure Statistiche di sintesi
• Media Campionaria:1
1 n
i
i
X Xn
• Varianza Campionaria: 22 2 2
1 1
1 1
1 1
n n
i i
i i
s X X X nXn n
• Deviazione Standard Campionaria è la radice quadrata
della varianza campionaria.
•Se X1, …, Xn è un campione, e Yi = a + b Xi ,con a e b
costanti, allora .Y a bX
• Se X1, …, Xn è un campione, e Yi = a + b Xi ,con a e b
costanti, allora 222
xy sbs xy sbs ||
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Misure di Dispersione
• Varianza dei dati
• Varianza campionaria
• La varianza stima la dispersione nella popolazione da cui si estrae il campione (le distanze dalla media campionaria sono più piccole delle distanze dalla media della popolazione si divide per (n-1))
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Definizione: La moda è il valore più presente nel
campione. Se esistono diversi valori con uguale
frequenza, ciascuno di essi è una moda.
Definizione: La mediana come la media è un’altra
misura di tendenza centrale. Per calcolarla si
ordinano i valori in ordine crescente:
Se n è dispari, la mediana campionaria è il
valore nella posizione:
Se n è pari, la mediana campionaria è la media
dei due valori che occupano le posizioni:
1.
2
n
and 1.2 2
n n
Moda e Mediana
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Moda unica
Più mode
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
QuartiliDefinizioni:
Il primo quartile è la mediana della metà inferiore
dei dati (includere la mediana nella metà inferiore dei
dati se n è dispari).
Il terzo quartile è la mediana della metà superiore
dei dati (includere la mediana nella metà superiore dei
dati se n è dispari).
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
QuartiliDefinizioni:
Il primo quartile è la mediana della metà inferiore
dei dati (includere la mediana nella metà inferiore dei
dati se n è dispari).
Il terzo quartile è la mediana della metà superiore
dei dati (includere la mediana nella metà superiore dei
dati se n è dispari).
•Ex n=99 ( ordinati)
1x 99x50x
22625 xx
ix
27574 xx
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Percentili
Definizione: Il p-esimo percentile di un campione, con p numero tra 0 e 100, divide il campione in modo tale che almeno il p% dei valori campionari siano più piccoli di . Per calcolarlo:
Ordinare i valori del campione in ordine crescente.
Calcolare la quantità (p/100)(n+1), dove n è l’ampiezza del campione.
Se questa quantità è un intero, allora il valore del campione che occupa questa posizione è il p-esimo percentile. Altrimenti, è la media dei due valori tra cui si trova (p/100)(n+1).
Osserva: il primo quartile è il 25mo percentile, la medianaè il 50mo percentile, e il terzo quartile è il 75mo percentile.
pz
pz
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Rappresentazioni Grafiche
• Grafico a punti
• Istogramma
• Boxplot
• Scatterplot (o grafico a dispersione)
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Grafico a punti
• Un dotplot è un grafico che può essere usato per dare una prima (approssimativa) idea della forma del campione.
• È utile quando l’ampiezza del campione è non troppo grande e quando il campione contiene alcuni valori ripetuti.
• Generalmente non usato nelle presentazioni formali.
22122
HiAltitude
Dotplot for HiAltitude
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Istogramma• Scegliere i punti di confine
per gli intervalli di classe.
• Calcolare le frequenze e le frequenze relative per ogni classe.
• Calcolare la densità per ogni classe secondo la formula
Densità = frequenza relativa /ampiezza classe
• Disegnare un rettangolo per ogni classe, la cui altezza sia uguale alla densità.
)( ir x
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Simmetria e Asimmetria
• Un istogramma è perfettamente simmetrico se la sua metà di destra è esattamente l’immagine speculare della sua metà di sinistra. – Altezze di persone scelte a caso
• Gli istogrammi che non sono simmetrici sono detti asimmetrici.
• Un istogramma con la coda a destra più lunga si dice asimmetrico a destra, o con asimmetria positiva.– L’istogramma del reddito è asimmetrico a destra.
• Un istogramma con la coda a sinistra più lunga si dice asimmetrico a sinistra, o con asimmetria negativa.– Votazioni riportate in un test facile: asimmetrico a sinistra.
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Boxplot
• Un boxplot è un grafico che riporta la mediana, il primo e il terzo quartile e gli outliers presenti nel campione.
• La differenza interquartile (IQR) è la differenza tra il terzo e il primo quartile. Questa è la distanza che copre la metà centrale dei dati.
• Passi nella costruzione di un Boxplot Calcolare la mediana, il primo e il terzo quartile del campione. Indicare
questi valori con linee orizzontali. Disegnare linee verticali per completare la scatola.
Trovare il più grande valore del campione che non superi per più di 1.5 IQR il terzo quartile e il più piccolo valore del campione che non sia inferiore per più di 1.5 IQR del valore del primo quartile. Collegare le linee dei quartili con delle linee verticali (baffi) a questi punti.
I Punti più grandi di 1.5 IQR volte il terzo quartile o più piccoli di 1.5 IQR volte il primo quartile sono definiti outliers e riportati singolarmente attraverso delle croci.
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Boxplot
mediana
terzo quartile
primo quartile
X
outlier
}5.1|max{ txx ii
}5.1|min{ pxx ii
t
p
outlierX
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Esempio: dati del Geyser: Non ci sono outliers in questo campione.
Osservando le quattro parti del boxplot, si può dire che I valori del campione sono più addensati tra la mediana ed il terzo quartile.
Il baffo che si trova in basso è un po’ più lungo di quello che si trova in alto, il che indica che i dati hanno una coda leggermente più lunga sulla parte inferiore che su quella superiore.
La distanza tra il primo quartile e la mediana è più grande di quella tra la mediana e il terzo quartile.
Questo boxplot suggerisce che i dati sono asimmetrici a sinistra.
90
80
70
60
50
40
dura
tio
n
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Scatterplot
• I dati le cui unità possiedono una coppia di
valori sono detti bivariati
• La rappresentazione grafica per i dati bivariati
è lo scatterplot (o grafico a dispersione).
• Esempio di scatterplot:
876543210
2
1
0
-1
x
y
),( ii yx
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Esempio:Pesi di 50 persone
53 55 56 57 57 58 58 59 59 60
60 60 61 61 61 61 62 62 62 62
63 63 63 63 63 64 64 64 64 64
64 65 65 65 65 65 66 66 66 66
67 67 67 68 68 69 70 71 71 73
Campo di variazione [53,73]
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Suddivisione in classi
• Numero di classi: 7 ([1+1.443 lg 50]=7);
• Ampiezza delle classi: 3 ( )86.27
20
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Istogramma
•Media:
22.6351717350
1
50
1 50
1
i
ixx
•Mediana:
5.632
6463
2
2625
xx
xmed
•Moda
64modx
Statistica Matematica
Cecilia VerniaStatistica Descrittiva
Funzioni di frequenza
•Varianza
13.1722.6350
11 250
1
2
1
2 i i
n
i i xxxn
•Deviazione Standard
14.413.17