statistica a.a. 2003-2004

36
STATISTICA a.a. 2003-2004 DISTRIBUZIONI DI FREQUENZE – RAPPRESENTAZIONE DEI DATI MISURE DI POSIZIONE: MEDIA, MEDIANA, MODA MISURE DI DISPERSIONE: DEVIANZA, VARIANZA,DEVIAZIONE STANDARD

Upload: steel-maldonado

Post on 04-Jan-2016

34 views

Category:

Documents


0 download

DESCRIPTION

STATISTICA a.a. 2003-2004. DISTRIBUZIONI DI FREQUENZE RAPPRESENTAZIONE DEI DATI MISURE DI POSIZIONE: MEDIA, MEDIANA, MODA MISURE DI DISPERSIONE: DEVIANZA, VARIANZA,DEVIAZIONE STANDARD. METODO DELLE DISTRIBUZIONI DI FREQUENZE. Rappresentazione dei dati per qualsiasi tipo di misura - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: STATISTICA a.a. 2003-2004

STATISTICAa.a. 2003-2004

– DISTRIBUZIONI DI FREQUENZE

– RAPPRESENTAZIONE DEI DATI

– MISURE DI POSIZIONE: MEDIA, MEDIANA, MODA

– MISURE DI DISPERSIONE: DEVIANZA, VARIANZA,DEVIAZIONE STANDARD

Page 2: STATISTICA a.a. 2003-2004

METODO DELLE DISTRIBUZIONI DI FREQUENZE

– Rappresentazione dei dati per qualsiasi tipo di misura

– Serie di rettangoli

– Ognuno una data osservazione

– AREA proporzionale al numero di volte in cui l’osservazione viene registrata

Page 3: STATISTICA a.a. 2003-2004

METODO DELLE DISTRIBUZIONI DI FREQUENZE

– Per dati nominali ed ordinali:– Ogni rettangolo è una classe di osservazione

(Es. colore nero dei capelli)– Per dati intervallari e razionali :– Prima si determina l’intervallo di variazione

(differenza fra valore più alto e più basso)– Poi lo si divide in un certo numero di intervalli uguali– Le basi dei rettangoli sono uguali– Le aree sono proporzionali alle frequenze– Quindi le altezze sono proporzionali alle frequenze.

Page 4: STATISTICA a.a. 2003-2004

METODO DELLE DISTRIBUZIONI DI FREQUENZE

Esempio:

– Distribuzione di frequenze di 1300 osservazioni di neonati :

• capelli (scala nominale)• condizioni di salute (scala ordinale)• temperatura (scala intervallare)• peso (scala razionale).

Page 5: STATISTICA a.a. 2003-2004

METODO DELLE DISTRIBUZIONI DI FREQUENZE

Page 6: STATISTICA a.a. 2003-2004

RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI

– Deve essere curata la comprensibilità, l’indicazione della fonte e la data di rilevamento.

IDEOGRAMMI

Page 7: STATISTICA a.a. 2003-2004

RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI

 PIE DIAGRAMS

Page 8: STATISTICA a.a. 2003-2004

RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI

ISTOGRAMMI A CANNE D’ORGANO

Page 9: STATISTICA a.a. 2003-2004

RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI

TABELLE DI CONTINGENZA

 

   E.

Coli

Klebs S. Aur.

Pseud Clostr Bact. Fungi

N° 55 12 48 21 5 18 2

% 34.16 7.45 29.81 13.04 3.11 11.18 1.24

Page 10: STATISTICA a.a. 2003-2004

SINTESI DEI DATI QUANTITATIVI

Si effettua attraverso misure di posizione e misure di dispersione.

 MISURE DI POSIZIONE – media aritmetica– media geometrica– mediana– moda

 

Page 11: STATISTICA a.a. 2003-2004

SINTESI DEI DATI QUANTITATIVI

La media aritmetica rappresenta il valore che ogni dato avrebbe se tutti i dati avessero lo stesso valore e se la somma dei valori dei dati rimanesse la stessa.

Il valor medio si rappresenta con

ed è pari alla somma dei valori di tutti i dati diviso per il numero dei dati:

n

xxxx n

...21

n

xxxx n

...21

n

xx i

n

xx i

Page 12: STATISTICA a.a. 2003-2004

SINTESI DEI DATI QUANTITATIVI

o se i dati sono raccolti in distribuzioni di frequenza

n

xx i

i

ii

f

fxx

fi numero delle osservazioni che cadono nell’intervallino di

cui xi è il valore centrale.

Page 13: STATISTICA a.a. 2003-2004

SINTESI DEI DATI QUANTITATIVI

n

xx i

Page 14: STATISTICA a.a. 2003-2004

SINTESI DEI DATI QUANTITATIVI

 

o usando la frequenza percentuale

 

 

 n

xx i

8.48822502812

70186022505040283012

x

8.48100

6.6704.18607.41503.23401030

x

Page 15: STATISTICA a.a. 2003-2004

PROPRIETA’ DELLA MEDIA

 

 

 

n

xx i

Sommando o sottraendo un valore k da tutti i dati, la media risulta aumentata o diminuita di quel valore:   

kxn

kxi )(

xkn

kxi

 

Moltiplicando o dividendo tutti i dati per un valore k, la media risulta moltiplicata o divisa per quel valore:

Page 16: STATISTICA a.a. 2003-2004

PROPRIETA’ DELLA MEDIA

 

 

 

n

xx i

 

Se chiamiamo scarto di un dato valore dalla media la differenza tra quel valore e la media, avremo che la somma degli scarti di tutti i valori dalla media è uguale a zero:     

0)( xxi

22 )()( vxxx ii

La somma dei quadrati degli scarti dei valori dalla media è sempre minore della somma dei quadrati degli scarti dei valori da un qualsiasi altro valore v:

Page 17: STATISTICA a.a. 2003-2004

MEDIA GEOMETRICA

 

  

 

    

Altro tipo di media è la media geometrica, ossia la radice ennesima del prodotto degli n dati: 

 

nnxxxG ....21

nixG

L’importanza della media geometrica emerge nel caso di grandezze che non seguono progressioni lineari ma geometriche. 

Page 18: STATISTICA a.a. 2003-2004

MEDIA GEOMETRICA

 

  

    

 

 Progressione aritmetica è una serie di numeri per cui la differenza fra due numeri contigui (d, ragione) è sempre la stessa: an = d + an-1

 Una progressione geometrica è una serie di numeri per cui il rapporto fra un numero e il precedente (q, ragione) è sempre uguale : an = q an-1 

Page 19: STATISTICA a.a. 2003-2004

MEDIA GEOMETRICA

 

  

    

 

 Esempio.Il farmaco A e il farmaco B servono ad aumentare un certo valore fisiologico.Per ambedue i farmaci quanto più alta è la dose tanto maggiore è l’aumento del valore fisiologico:FARMACO A FARMACO B

Mg somm. Aumento ott. Mg. Somm. Aumento ott.

15 1U 3 1U

30 2U 9 2U

45 3U 27 3U

60 4U 81 4U

75 5U 243 5U

Page 20: STATISTICA a.a. 2003-2004

MEDIA GEOMETRICA

 

  

    

 

 Per il farmaco B i migliori effetti si hanno a basse dosi, mentre ad alte dosi l’aumento è minimo. Quanti mg di A occorrono per far salire di 3.5 U il valore fisiologico ?

Il rapporto dose/effetto è costante, per cui la dose da somministrare sarà la media fra 45 e 60 mg, ossia 52.5 mg.

Page 21: STATISTICA a.a. 2003-2004

MEDIA GEOMETRICAfarmaco A

 

  

    

 

Page 22: STATISTICA a.a. 2003-2004

MEDIA GEOMETRICA

 

  

    

 

 Per il farmaco B: vediamo che l’effetto di B varia come il logaritmo della dose, ossia gli effetti di B seguono una progressione aritmetica mentre le dosi seguono una progressione geometrica. Quindi volendo ottenere un effetto pari a 3.5 U (media fra 3 e 4 U), dovremo usare una dose pari a 46.76 mg (media geometrica fra 27 e 81 mg.  

Page 23: STATISTICA a.a. 2003-2004

MEDIA GEOMETRICA

 

  

    

 

  farmaco B

Page 24: STATISTICA a.a. 2003-2004

MISURE DI POSIZIONE

 

  

    

 

La mediana è quella misura di posizione il cui valore è inferiore al valore del 50% dei dati, e superiore al valore dell’altro 50%.Divide i dati in due metà numericamente uguali.Non è precisa come la media perché valori estremi molto grandi o molto piccoli non ne modificano il valoreIl valore è determinato solo dai valori centrali. Se il numero delle osservazioni è dispari, il valore della mediana coincide con il valore del dato (n+1)/2.Se il numero delle osservazioni è pari, viene assunto come valore la media aritmetica dei valori dei dati n/2 e (n+2)/2.

Page 25: STATISTICA a.a. 2003-2004

MISURE DI POSIZIONE

 

  

    

 

Se il campione è più numeroso (es. 3500):

Vogliamo trovare il valore della 1750esima osservazione.

Costruiamo una tabella che riporti frequenze e frequenze cumulative delle varie classi (somma della frequenza di una classe e delle frequenze di tutte le classi precedenti): 

Page 26: STATISTICA a.a. 2003-2004

MISURE DI POSIZIONE

 

  

    

 

Se il campione è più numeroso (es. 3500):

Page 27: STATISTICA a.a. 2003-2004

MISURE DI POSIZIONE

 

  

    

 

Valore Frequenza Freq. Cum.

160-180 106 106

180-200 271 377

200-220 317 694

220-240 450 1144

240-260 683 1827

260-280 648 2475

280-300 395 2870

300-320 291 3161

340-360 96 3500

Page 28: STATISTICA a.a. 2003-2004

MISURE DI POSIZIONE

 

  

    

 

La 1750esima osservazione sta nella classe 240-260.

Se supponiamo le osservazioni uniformemente distribuite della classe,    

Page 29: STATISTICA a.a. 2003-2004

MISURE DI POSIZIONE

 

  

    

 

La 1750esima osservazione sta nella classe 240-260. Se supponiamo le osservazioni uniformemente distribuite nella classe,  dovrà valere la seguente proporzione: (1750 – 1144) : (1827 – 1144) = (x – 240) : (260 – 240) dove x è il valore della 1750esima osservazione.Risulta x = 257.74.

Page 30: STATISTICA a.a. 2003-2004

MISURE DI POSIZIONE

 

  

    

 

Analogamente alla mediana si definiscono e si calcolano:•quartili•decili•percentili 1° quartile: superiore o uguale al 25% delle osservazioni

inferiore al restante 75%2° quartile coincide con la mediana3° quartile : inferiore o uguale al 25% delle osservazioni e superiore al 75%1° decile: superiore o uguale al 10% e inferiore al 90% delle osservazioni1° percentile inferiore o uguale al 99% e superiore all’1% delle osservazioni, ecc.

Page 31: STATISTICA a.a. 2003-2004

MISURE DI POSIZIONE

 

  

    

 

 La moda è il valore più frequente di una distribuzione. Nella distribuzione precedente l’intervallo con il maggior numero di osservazioni era 240-260.Il valore centrale dell’intervallo (media aritmetica degli estremi) viene assunto come valore della moda, in questo caso 250. La media della distribuzione sarà 

24.2583500

903840

3500

...450230317210271190106170 x

quindi i tre valori mediana (257.74), moda (250) e media (258.24) sono molto vicini.Questo vale solo quando la distribuzione è approssimativamente normale (v. avanti).  

Page 32: STATISTICA a.a. 2003-2004

MISURE DI DISPERSIONE

 Le misure di posizione danno un’idea del valore centrale di una

popolazioneLe misure di dispersione danno un’idea di quanto i dati si

scostano dal valore centrale. – RANGE o intervallo di variazione: differenza fra valore massimo

e minimo. – Se il range è elevato la media non dà una buona indicazione.– Tuttavia se anche un solo bambino ha un’altezza molto bassa il

range risulta molto grande ma la media è ancora una buona stima: il range non è una misura affidabile.

– SOMMA DEGLI SCARTI dei valori della media. E’ sempre uguale a zero.

 

    

 

 

Page 33: STATISTICA a.a. 2003-2004

MISURE DI DISPERSIONEDEVIANZA o somma dei quadrati degli scarti dalla media. 

 

 

Ma la devianza è influenzata dalle dimensioni del campione (quanto più grande il campione tanto più numerosi gli scarti)E’ impossibile confrontare due campioni di dimensioni diverse attraverso la devianza. VARIANZA è la devianza divisa per il numero di osservazioni. 

2)( xxD i

n

xx

n

DV i

2)(

Page 34: STATISTICA a.a. 2003-2004

MISURE DI DISPERSIONEIn genere la si calcola con 

 

 

n

xxD ii

22

)(

n

xC i

2)(

C “termine di correzione”

perché in questo modo non richiede la conoscenza della media. Ma la varianza deve misurare la variabilità dei dati: Vanno escluse tutte le costanti. 

Page 35: STATISTICA a.a. 2003-2004

MISURE DI DISPERSIONE

 

 Chiamiamo GRADI DI LIBERTA’ il numero di dati significativi di un campione.

Conoscendo la media e n-1 dati, l’n-esimo è ricavabile.

Quindi il numero di gradi di libertà è n-1 e la formula corretta è

 

1

)( 2

n

xxV i

Quando il campione è numeroso la variazione è minima.

Page 36: STATISTICA a.a. 2003-2004

MISURE DI DISPERSIONE 

DEVIAZIONE STANDARD è la radice quadrata della varianza:

 

• In questo modo ds ha le stesse dimensioni fisiche delle osservazioni.• In genere si scrive la media di un campione seguita dalla sua deviazione standard, es. 14 3.•La deviazione standard della popolazione si indica con , la varianza con 2 .•La deviazione standard del campione si indica con s , la varianza campionaria con s2 .

 

1

)( 2

n

xxds i