campionamento e statistica...

62
Statistica Matematica Cecilia Vernia Statistica Descrittiva Campionamento e Statistica Descrittiva

Upload: others

Post on 22-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Campionamento

e

Statistica Descrittiva

Page 2: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Statistica, perché ?

• Incertezza nella ripetizione delle

misurazioni (dipendenza da fattori

casuali)

• Trarre conclusioni dai dati

• Costruire esperimenti validi e tracciare

conclusioni affidabili

Page 3: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Idea di base

Fare inferenze su una popolazione

studiando un campione estratto da

essa.

Page 4: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Esempio• Un macchinario produce rondelle d’acciaio per

dispositivi di memoria ottica.

• Specifica per il diametro delle rondelle è

0.45 0.02 cm

• 1000 rondelle prodotte…..quante rispettano la specifica?

• Su 50 rondelle 46 (=92%) hanno il diametro nella specifica.

• La proporzione, nella popolazione, di rondelle col diametro giusto è probabile che differisca dal 92% (proporzione campionaria).

Page 5: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Domande

• Quanto può essere grande la differenza tra la

proporzione delle rondelle buone nel campione

e nella popolazione?

• Come calcolare x tale che la vera percentuale di

rondelle accettabili nella popolazione si trovi,

con ragionevole fiducia nell’intervallo 92%x%?

• Come essere sicuri che almeno il 90% delle

1000 rondelle sia accettabile?

Deviazione Standard

Intervallo di confidenza

Test d’ipotesi

Page 6: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Metodi per poter trarre conclusioni dai dati

Metodi per raccogliere dati e produrre informazioni da essi

Statistica inferenziale

Statistica descrittiva

Page 7: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indagine Statistica

• Rilevazione dei dati

• Organizzazione dei dati

• Presentazione dei dati organizzati

• Interpretazione dei dati e conclusioni

Page 8: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

CampionamentoDefinizioni:Una popolazione è l’intera collezione di oggetti

o eventi sui quali si ricerca l’informazione.

Un campione è un sottoinsieme della popolazione. Esso contiene gli oggetti o gli eventi che sono osservati realmente.

Un campione casuale semplice (ccs) di ampiezza n è un campione casuale scelto in modo che ogni elemento degli n abbia la stessa probabilità di essere incluso nel campione. Estrazione casuale degli elementi che costituiscono il campione.

Page 9: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Campione Casuale Semplice

• Un CCS non rispecchia perfettamente la

propria popolazione.

• CCS differiscono dalla popolazione per diversi

motivi, a volte anche in maniera sostanziale.

• Due differenti campioni da una stessa

popolazione sono diversi l’uno dall’altro.

Tale fenomeno è noto come

variabilità di campionamento.

Page 10: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza

• Gli elementi in un campione casuale

semplice possono essere trattati come

indipendenti nella maggior parte dei casi

che si incontrano nella pratica.

L’eccezione si ha quando la popolazione è

finita e l’ampiezza del campione è

maggiore o uguale al 5% di quella della

popolazione.

Page 11: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: esempio

1 010

Popolazione Campione

Page 12: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: esempio

1 010

Popolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

Campione

Page 13: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: esempio

1 010

Popolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

1 01

Campione

0

Page 14: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: esempio

1 010

Popolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

1 01

Campione

0

Estrazione: maggiore probabilità di

estrarre 1

Page 15: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: esempio

1 010

Popolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

1 01

Campione

0

Estrazione: maggiore probabilità di

estrarre 1

10 0 1

Page 16: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: esempioPopolazione Campione

01

Page 17: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: esempioPopolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

Campione

01

Page 18: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: esempioPopolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

Campione

0

01

01

Page 19: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: esempioPopolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

Campione

0

Estrazione: probabilità di estrarre 0

o 1 praticamente uguali

01

01

Page 20: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: esempioPopolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

Campione

0

Estrazione: probabilità di estrarre 0

o 1 praticamente uguali

0 ?

01

01

01

Page 21: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Indipendenza: campionamento con reinserimento

1 010

Popolazione Campione

Page 22: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

1 010

Popolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

Campione

Indipendenza: campionamento con reinserimento

Page 23: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

1 010

Popolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

1 01

Campione

0

Indipendenza: campionamento con reinserimento

Page 24: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

1 010

Popolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

1 01

Campione

0

Indipendenza: campionamento con reinserimento

0

reinserimento

Page 25: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

1 010

Popolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

1 01

Campione

0

Indipendenza: campionamento con reinserimento

0

reinserimento

Estrazione: uguale probabilità di

estrarre 0 o 1

Page 26: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

1 010

Popolazione

Estrazione: uguale probabilità di

estrarre 0 o 1

1 01

Campione

0

1 00 ?

Indipendenza: campionamento con reinserimento

0

0

Estrazione: uguale probabilità di

estrarre 0 o 1reinserimento

1

Page 27: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Una sintesi numerica calcolata su un

campione è detta statistica.

Una sintesi numerica calcolata su una

popolazione è detta parametro.

Le statistiche vengono spesso utilizzate

per stimare i parametri.

Ancora Definizioni:

Page 28: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Popolazione Campione

Statistica

Inferenza

Parametro

Page 29: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Ancora sui CCS

Definizione: Una popolazione concettuale è formata da tutti i valori che potrebbero essere osservati.

• Per esempio, un geologo pesa una pietra diverse volte su una bilancia elettronica. Ogni volta la bilancia dà risultati leggermente differenti

• La popolazione è concettuale ed è composta da tutte le misurazioni che la bilancia, in teoria, potrebbe produrre.

Page 30: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Tipi di dati

• Numerico o quantitativo se una quantità numerica è assegnata ad ogni elemento nel campione.• Altezza

• Peso

• Età

• Categorico o qualitativo se gli elementi del campione sono classificati in categorie.• Genere

• Colore dei capelli

• Sigle di province

Page 31: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Organizzazione dei datiIndici statistici

iy

Page 32: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Organizzazione dei datiIndici statistici

iy

Page 33: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Organizzazione dei datiIndici statistici

• Campo di Variazione: minimo intervallo

che contiene tutti gli ; iy

iymin iymax

ii yyr minmax

iy

Page 34: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Organizzazione dei datiIndici statistici

• Campo di Variazione: minimo intervallo

che contiene tutti gli ;iy

• Classi

iymin iymax

iy

ii yyr minmax

Page 35: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Organizzazione dei datiIndici statistici

• Campo di Variazione: minimo intervallo

che contiene tutti gli ;iy

n log 443.11cncn

r

• Classi (numero delle classi ed ampiezza)

iymin iymax

iy

ii yyr minmax

Page 36: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Funzioni di frequenza

• Funzione di frequenza (x): associa ad ogni classe il numero degli

elementi che la compongono;

n

xxr

)(

n

xx c

cr

)(

• Funzione di frequenza relativa r(x): rapporto tra il numero degli

elementi della classe e il numero totale degli elementi;

• Funzioni di frequenza cumulativa c(x): numero degli elementi della

classe e delle classi precedenti;

• Funzione di frequenza cumulativa relativa cr(x):

Page 37: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Funzione di frequenza

iymin iymax

100n

3)( 1 x

1x 2x 3x 4x 5x 6x 7x

7)( 2 x 20)( 3 x 45)( 4 x

8)( 5 x 5)( 6 x 12)( 7 x

100)(1

cn

iix

Page 38: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Funzione di frequenza relativa

iymin iymax

03.0)( 1 xr

1x 2x 3x 4x 5x 6x 7x

07.0)( 2 xr 2.0)( 3 xr

45.0)( 4 xr 08.0)( 5 x 05.0)( 6 xr

12.0)( 7 xr

1)(1

cn

iir x

nxxr /)()(

Page 39: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Funzione di frequenza cumulativa

iymin iymax

100n

3)( 1 xc

1x 2x 3x 4x 5x 6x 7x

10)( 2 xc 30)( 3 xc 75)( 4 xc

83)( 5 xc 88)( 6 xc 100)( 7 xc

Page 40: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Funzione di frequenza cumulativa relativa

iymin iymax

03.0)( 1 xcr

1x 2x 3x 4x 5x 6x 7x

1.0)( 2 xcr 3.0)( 3 xcr

75.0)( 4 xcr 83.0)( 5 xcr 88.0)( 6 xcr

1)( 7 xcr

nxx rcr /)()(

Page 41: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Istogramma• Scegliere i punti di confine

per gli intervalli di classe.

• Calcolare le frequenze e le frequenze relative per ogni classe.

• Calcolare la densità per ogni classe secondo la formula

Densità = frequenza relativa /ampiezza classe

• Disegnare un rettangolo per ogni classe, la cui altezza sia uguale alla densità.

Page 42: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

IstogrammaL’altezza di ogni rettangolo dell’istogramma è la densità:

,/)()( iiri xx

dove è la lunghezza della classe i e è la frequenza relativa.

L’area totale dell’istogramma è

i )(xr

dove è la frequenza, che soddisfa alla condizione:)(x

,)(1

nxc

n

ii

è l’ampiezza del campione e è il numero delle

classi.

ncn

1)(1

)()(111

cccn

iii

n

iri

n

ii x

nxx

Page 43: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Misure Statistiche di sintesi

• Media Campionaria:1

1 n

i

i

X Xn

• Varianza Campionaria: 22 2 2

1 1

1 1

1 1

n n

i i

i i

s X X X nXn n

• Deviazione Standard Campionaria è la radice quadrata

della varianza campionaria.

•Se X1, …, Xn è un campione, e Yi = a + b Xi ,con a e b

costanti, allora .Y a bX

• Se X1, …, Xn è un campione, e Yi = a + b Xi ,con a e b

costanti, allora 222

xy sbs xy sbs ||

Page 44: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Misure di Dispersione

• Varianza dei dati

• Varianza campionaria

• La varianza stima la dispersione nella popolazione da cui si estrae il campione (le distanze dalla media campionaria sono più piccole delle distanze dalla media della popolazione si divide per (n-1))

Page 45: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Definizione: La moda è il valore più presente nel

campione. Se esistono diversi valori con uguale

frequenza, ciascuno di essi è una moda.

Definizione: La mediana come la media è un’altra

misura di tendenza centrale. Per calcolarla si

ordinano i valori in ordine crescente:

Se n è dispari, la mediana campionaria è il

valore nella posizione:

Se n è pari, la mediana campionaria è la media

dei due valori che occupano le posizioni:

1.

2

n

and 1.2 2

n n

Moda e Mediana

Page 46: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Moda unica

Più mode

Page 47: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Page 48: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

QuartiliDefinizioni:

Il primo quartile è la mediana della metà inferiore

dei dati (includere la mediana nella metà inferiore dei

dati se n è dispari).

Il terzo quartile è la mediana della metà superiore

dei dati (includere la mediana nella metà superiore dei

dati se n è dispari).

Page 49: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

QuartiliDefinizioni:

Il primo quartile è la mediana della metà inferiore

dei dati (includere la mediana nella metà inferiore dei

dati se n è dispari).

Il terzo quartile è la mediana della metà superiore

dei dati (includere la mediana nella metà superiore dei

dati se n è dispari).

•Ex n=99 ( ordinati)

1x 99x50x

22625 xx

ix

27574 xx

Page 50: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Percentili

Definizione: Il p-esimo percentile di un campione, con p numero tra 0 e 100, divide il campione in modo tale che almeno il p% dei valori campionari siano più piccoli di . Per calcolarlo:

Ordinare i valori del campione in ordine crescente.

Calcolare la quantità (p/100)(n+1), dove n è l’ampiezza del campione.

Se questa quantità è un intero, allora il valore del campione che occupa questa posizione è il p-esimo percentile. Altrimenti, è la media dei due valori tra cui si trova (p/100)(n+1).

Osserva: il primo quartile è il 25mo percentile, la medianaè il 50mo percentile, e il terzo quartile è il 75mo percentile.

pz

pz

Page 51: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Rappresentazioni Grafiche

• Grafico a punti

• Istogramma

• Boxplot

• Scatterplot (o grafico a dispersione)

Page 52: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Grafico a punti

• Un dotplot è un grafico che può essere usato per dare una prima (approssimativa) idea della forma del campione.

• È utile quando l’ampiezza del campione è non troppo grande e quando il campione contiene alcuni valori ripetuti.

• Generalmente non usato nelle presentazioni formali.

22122

HiAltitude

Dotplot for HiAltitude

Page 53: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Istogramma• Scegliere i punti di confine

per gli intervalli di classe.

• Calcolare le frequenze e le frequenze relative per ogni classe.

• Calcolare la densità per ogni classe secondo la formula

Densità = frequenza relativa /ampiezza classe

• Disegnare un rettangolo per ogni classe, la cui altezza sia uguale alla densità.

)( ir x

Page 54: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Simmetria e Asimmetria

• Un istogramma è perfettamente simmetrico se la sua metà di destra è esattamente l’immagine speculare della sua metà di sinistra. – Altezze di persone scelte a caso

• Gli istogrammi che non sono simmetrici sono detti asimmetrici.

• Un istogramma con la coda a destra più lunga si dice asimmetrico a destra, o con asimmetria positiva.– L’istogramma del reddito è asimmetrico a destra.

• Un istogramma con la coda a sinistra più lunga si dice asimmetrico a sinistra, o con asimmetria negativa.– Votazioni riportate in un test facile: asimmetrico a sinistra.

Page 55: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Boxplot

• Un boxplot è un grafico che riporta la mediana, il primo e il terzo quartile e gli outliers presenti nel campione.

• La differenza interquartile (IQR) è la differenza tra il terzo e il primo quartile. Questa è la distanza che copre la metà centrale dei dati.

• Passi nella costruzione di un Boxplot Calcolare la mediana, il primo e il terzo quartile del campione. Indicare

questi valori con linee orizzontali. Disegnare linee verticali per completare la scatola.

Trovare il più grande valore del campione che non superi per più di 1.5 IQR il terzo quartile e il più piccolo valore del campione che non sia inferiore per più di 1.5 IQR del valore del primo quartile. Collegare le linee dei quartili con delle linee verticali (baffi) a questi punti.

I Punti più grandi di 1.5 IQR volte il terzo quartile o più piccoli di 1.5 IQR volte il primo quartile sono definiti outliers e riportati singolarmente attraverso delle croci.

Page 56: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Boxplot

mediana

terzo quartile

primo quartile

X

outlier

}5.1|max{ txx ii

}5.1|min{ pxx ii

t

p

outlierX

Page 57: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Esempio: dati del Geyser: Non ci sono outliers in questo campione.

Osservando le quattro parti del boxplot, si può dire che I valori del campione sono più addensati tra la mediana ed il terzo quartile.

Il baffo che si trova in basso è un po’ più lungo di quello che si trova in alto, il che indica che i dati hanno una coda leggermente più lunga sulla parte inferiore che su quella superiore.

La distanza tra il primo quartile e la mediana è più grande di quella tra la mediana e il terzo quartile.

Questo boxplot suggerisce che i dati sono asimmetrici a sinistra.

90

80

70

60

50

40

dura

tio

n

Page 58: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Scatterplot

• I dati le cui unità possiedono una coppia di

valori sono detti bivariati

• La rappresentazione grafica per i dati bivariati

è lo scatterplot (o grafico a dispersione).

• Esempio di scatterplot:

876543210

2

1

0

-1

x

y

),( ii yx

Page 59: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Esempio:Pesi di 50 persone

53 55 56 57 57 58 58 59 59 60

60 60 61 61 61 61 62 62 62 62

63 63 63 63 63 64 64 64 64 64

64 65 65 65 65 65 66 66 66 66

67 67 67 68 68 69 70 71 71 73

Campo di variazione [53,73]

Page 60: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Suddivisione in classi

• Numero di classi: 7 ([1+1.443 lg 50]=7);

• Ampiezza delle classi: 3 ( )86.27

20

Page 61: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Istogramma

•Media:

22.6351717350

1

50

1 50

1

i

ixx

•Mediana:

5.632

6463

2

2625

xx

xmed

•Moda

64modx

Page 62: Campionamento e Statistica Descrittivacdm.unimo.it/home/dsmi/giberti.claudio/StatisticaDescr2.pdf · Statistica Descrittiva Definizione: La moda è il valore più presente nel campione

Statistica Matematica

Cecilia VerniaStatistica Descrittiva

Funzioni di frequenza

•Varianza

13.1722.6350

11 250

1

2

1

2 i i

n

i i xxxn

•Deviazione Standard

14.413.17