la statistica - dipartimento di matematicaverardi/statistica 2011-12.pdf · allievi del ii anno,...

72
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 1 LA STATISTICA PREREQUISITI. Insiemi, numeri, funzioni, sistemi lineari, grafica. SCOPI. Presentare nozioni di base della statistica. PREMESSA. Il contenuto di queste pagine riporta, con alcune risistemazioni e qualche integrazione e correzione, il contenuto delle lezioni di Statistica tenute nell’anno accademico 2011/12 come modulo di 2 crediti dell’insegnamento di Matematica, Statistica ed Informatica del I anno della laurea triennale in Scienze Naturali. Lo stesso modulo è stato mutuato una tantum dagli allievi del II anno, come modulo di 3 crediti dell’insegnamento di Genetica e Statistica. Negli anni passati, infatti, questo modulo non era collegato all’insegnamento di Matematica e Statistica, ma a quello di Genetica. L’averlo caricato per motivi di riassetto dovuto alla legge Gelmini, sul mio insegnamento di Matematica mi ha costretto ad organizzare in tre mesi una disciplina largamente estranea ai miei interessi e sulla quale non avevo alcuna competenza né preparazione universitaria, ma solo un uso occasionale di nozioni di base. Questo è il motivo delle lacune anche importanti (il test t di Student, le distribuzioni bimodali, ecc.) e la presenza di alcune dimostrazioni di formule mediante integrazioni dei contenuti matematici, forse non necessarie e comunque non assimilate dagli allievi. Manca inoltre l’attività di laboratorio, eliminata anche a causa dello spropositato numero di allievi (circa 400 tra I e II anno), ben superiore alle medie di 60 allievi al massimo negli anni precedenti. INDICE: Introduzione: che cos’è Statistica? p. 2 § 1 Le rappresentazioni grafiche dei dati p. 4 § 2 Medie e indici di dispersione p. 13 § 3 Correlazione fra serie di dati p. 21 § 4 Probabilità e Statistica: il caso discreto p. 35 § 5 Probabilità e Statistica: il caso continuo p. 50 § 6 Esercizi p. 55 Bibliografia p. 72

Upload: voduong

Post on 18-Feb-2019

223 views

Category:

Documents


0 download

TRANSCRIPT

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

1

LA STATISTICA PREREQUISITI. Insiemi, numeri, funzioni, sistemi lineari, grafica.

SCOPI. Presentare nozioni di base della statistica.

PREMESSA. Il contenuto di queste pagine riporta, con alcune risistemazioni e qualche

integrazione e correzione, il contenuto delle lezioni di Statistica tenute nell’anno accademico

2011/12 come modulo di 2 crediti dell’insegnamento di Matematica, Statistica ed Informatica del I

anno della laurea triennale in Scienze Naturali. Lo stesso modulo è stato mutuato una tantum dagli

allievi del II anno, come modulo di 3 crediti dell’insegnamento di Genetica e Statistica.

Negli anni passati, infatti, questo modulo non era collegato all’insegnamento di Matematica

e Statistica, ma a quello di Genetica. L’averlo caricato per motivi di riassetto dovuto alla legge

Gelmini, sul mio insegnamento di Matematica mi ha costretto ad organizzare in tre mesi una

disciplina largamente estranea ai miei interessi e sulla quale non avevo alcuna competenza né

preparazione universitaria, ma solo un uso occasionale di nozioni di base. Questo è il motivo delle

lacune anche importanti (il test t di Student, le distribuzioni bimodali, ecc.) e la presenza di alcune

dimostrazioni di formule mediante integrazioni dei contenuti matematici, forse non necessarie e

comunque non assimilate dagli allievi. Manca inoltre l’attività di laboratorio, eliminata anche a

causa dello spropositato numero di allievi (circa 400 tra I e II anno), ben superiore alle medie di 60

allievi al massimo negli anni precedenti.

INDICE:

Introduzione: che cos’è Statistica? p. 2 § 1 Le rappresentazioni grafiche dei dati p. 4 § 2 Medie e indici di dispersione p. 13 § 3 Correlazione fra serie di dati p. 21 § 4 Probabilità e Statistica: il caso discreto p. 35 § 5 Probabilità e Statistica: il caso continuo p. 50 § 6 Esercizi p. 55 Bibliografia p. 72

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

2

INTRODUZIONE: CHE COS’È LA STATISTICA?

Secondo il poeta romano Trilussa, la Statistica è quella cosa per cui se tu mangi due

polli ed io nessuno, abbiamo mangiato un pollo a testa.

Un po’ di ragione Trilussa l’aveva: la Statistica non si occupa dei casi singoli, ma

cerca di descrivere che cosa succeda in generale.

In quasi ogni attività umana si tratta di:

• raccogliere dati o informazioni,

• cercare di organizzarli, per capire come funziona ciò che stiamo esaminando,

• al fine di servircene per formulare leggi, fare previsioni, e poter acquisire più

conoscenza, guadagnare più denaro o spenderne di meno, ottenere più benessere,

salute o potere.

Ogni Scienza può essere usata per fini positivi, di progresso globale, ma anche per fini negativi,

subdoli. La Statistica non fa eccezione. Spesso le statistiche sono manipolate per fini propagandistici,

elettorali, o per far compiere ai cittadini azioni che normalmente non si sognerebbero di fare.

Chi raccoglie i dati e li organizza può influenzare, consapevolmente o no, i risultati

ottenuti. Vediamo due esempi per chiarire questo punto delicato:

a) In Fisica si riflette su come si possano misurare certe grandezze, e come sia

necessario ripetere più volte una misura, per ovviare agli errori casuali. In

qualche caso, l’atto del misurare può modificare il fenomeno: una barretta di

metallo afferrata per confrontarla col metro un po’ si allunga a causa del calore

della nostra mano, o si incurva, ecc.

b) Il nostro Corso di Laurea invia un questionario ai suoi laureati, chiedendo loro

se sono stati soddisfatti degli studi e del loro esito. Risponde un certo numero

di ex allievi, l’80% dei quali afferma di essere soddisfatto. Si può essere

contenti? La quasi totalità delle risposte è positiva! O no? Non è che hanno

risposto soprattutto quelli soddisfatti? Il campione è davvero significativo?

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

3

Scopo di questo corso non è l’analisi del modo con cui i dati sono raccolti. Qui i dati

sono arrivati, ed ora che ce ne facciamo? Come li organizziamo? Come li rappresentiamo?

Neppure questa è un’attività “neutra”, oggettiva: il modo di rappresentare i dati può

essere usato per fuorviare il giudizio dei destinatari delle informazioni.

ESEMPIO 1. Nei due grafici qui sotto, quale delle due rette è più “ripida”?

In realtà, si tratta della stessa retta, di equazione

!

y = x, ma nel primo caso l’unità di

misura nei due assi è la stessa, mentre nel secondo caso l’unità di misura sull’asse x è

doppia di quella sull’asse y e la retta sembra avere una pendenza inferiore.

L’effetto visivo è ben diverso nei due grafici.

ESEMPIO 2: rappresentazione a istogramma della tabella:

!

x 0 1 2 3 4 5 6 7 8y 100 102 100 98 96 94 96 100 98

Potrebbe essere il valore di una quota di un’obbligazione nei vari mesi dopo

l’acquisto.

• Nel primo grafico, la scala sull’asse verticale va da 0 a 110;

• Nel secondo, il tratto continuo va da 93 a 104, ossia è mostrata solo la parte alta delle

colonne.

L’impressione nel primo caso è di lievi fluttuazioni, mentre nel secondo è di grande

instabilità.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

4

§1. LE RAPPRESENTAZIONI GRAFICHE DEI DATI.

Ce ne sono di vario tipo, e basta aprire un giornale economico o un atlante per rendersene

conto.

A) I diagrammi a canne d’organo e istogrammi. Sono grafici in cui compaiono rettangoli

appoggiati sulla stessa retta e con altezze differenti.

• Nel primo caso, le basi sono tutte uguali e sono le altezze a rappresentare i dati.

• Nel secondo, le basi possono essere diverse e i dati sono rappresentati dalle aree.

Esempio di diagramma a canne d’organo separate:

I 35 anni dal 1975 al 2010 sono qui indicati col loro numero progressivo. In ordinata i

metri cubi consumati.

L’asse delle x può riferirsi anche ad insiemi di dati non numerici, quindi collocati in

ordine arbitrario.

ESEMPIO tratto da un bilancio preventivo condominiale:

Spese amministrative 3.000,00 Spese di manutenzione 14.600,00 Spese comuni 39.200,00 Spese di riscaldamento 203.000,00 Spese per gli ascensori 14.000,00 Spese individuali 3.040,00 Spese straordinarie 79.000,00

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

5

NOTA. Quando le grandezze x cui si riferiscono i dati y sono di tipo numerico, l’uso di istogrammi in cui i

rettangoli hanno basi diverse può servire per conglobare lunghe serie di dati x con valori molto bassi della y.

In tal caso, i dati y sono espressi dalle aree e non dalle altezze.

B) Diagrammi a settori o “a torta”. Si usano soprattutto per evidenziare i rapporti

percentuali fra un numero limitato di dati positivi rispetto al totale. L’esempio del

preventivo condominiale si presta bene allo scopo:

• Le percentuali sono qui arrotondate agli interi.

• La loro somma è 100 (o dovrebbe esserlo).

• Il vantaggio di questo diagramma è evidenziare i dati con l’incidenza maggiore,

ossia, in questo caso, le voci “riscaldamento” e “straordinarie”.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

6

C) Diagrammi cartesiani. Si usano quando i dati x ed y sono numerici. Rispetto ai

diagrammi a colonna, è possibile interpolare i punti (x,y) congiungendoli con segmenti,

ammesso che ciò abbia qualche senso.

Esempio: andamento del costo al metro cubo dell’acqua dagli anni 1975 al 2010 (con costi

tradotti in euro).

Gli anni sono numerati da 1 a 35, ed il costo unitario medio annuo (ottenuto dividendo la

spesa per il consumo) è rappresentato dai rombi. La variazione da un anno all’altro è

mostrata dai segmenti che uniscono punti consecutivi.

Alcuni software, tra cui Excel, mettono a disposizione altri tipi di grafici, anche

personalizzati.

Esempio: un istogramma 3D rappresenta due serie di dati, riferiti ad una fattoria che negli

anni ha variato il numero di tipi di animali in suo possesso.

cavalli mucche pecore conigli galline 1975 2 8 20 26 30 1976 3 10 23 20 28 1977 4 8 25 26 32 1978 2 12 22 24 35 1979 3 10 26 25 30 1980 3 9 20 20 24 1981 2 8 22 22 24 1982 1 6 15 15 20

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

7

C’è il rischio di non vedere dati nascosti da altri più alti.

D) Ideogrammi. Un modo più buffo di rappresentare dati è usare degli ideogrammi, uno

per ogni unità.

Ma se i dati non sono interi, come si fa a rappresentarli? Inoltre, poiché ad occhio si

distinguono solo tre o quattro oggetti, se non si va a contarli una valutazione quantitativa

può essere difficoltosa.

Esempio: ecco un ideogramma, che mostra il numero di aerei posseduti da una compagnia

negli anni indicati.

1990 11 ✈

1995 14 ✈✈

2000 15 ✈✈

2005 8

Senza la tabella della seconda colonna, il diagramma suggerirebbe un andamento di massima del numero di aerei.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

8

Dal 2009 al 2010 un allevamento ha

raddoppiato la sua produzione di conigli e lo

mostra col seguente ideogramma. Lo fa

correttamente?

NO. Le dimensioni del coniglio sono

raddoppiate, ma l’area è quadruplicata e

l’impressione visiva è falsata.

ESERCIZIO: La seguente tabella riporta il saldo medio del conto corrente di un condominio,

alla fine di ogni mese:

mese Gen. Feb. Mar. Apr. Mag. Giu. avanzo 63.000 39.000 11.000 34.000 2.000 -20.000 mese Lu. Ago. Sett. Ott. Nov. Dic. avanzo 34.000 21.000 7.000 69.000 56.000 19.000

Quale tipo di rappresentazione grafica scegliereste per rappresentare questa tabella di dati?

Risposta: tipo risposta Perché no? Istogramma cSÌc

Torta cNOc Alcuni dati negativi e dati non simultanei

Grafico cartesiano cSÌc

Con ideogrammi cNOc

I dati non sono oggetti concreti

Ecco due possibili rappresentazioni:

un diagramma a canne d’organo separate e un

grafico cartesiano coi punti congiunti da segmenti.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

9

PROBLEMA: consideriamo tutti i numeri decimali compresi tra 0 ed 1, con un numero

prefissato n di cifre decimali (zeri compresi). Di questi, quanti ne possiamo scrivere senza

usare la cifra 1? Quasi tutti? La maggior parte?

Con una cifra decimale abbiamo 10 numeri:

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

Di questi, ben nove su dieci si scrivono senza la cifra 1, il 90% del totale.

Con due cifre decimali, da 0,00 a 0,99 ci sono 100 numeri: esclusa la cifra 1, abbiamo nove

cifre disponibili per i decimi e altrettante per i centesimi: perciò

!

9 "9 = 81 numeri senza la

cifra 1. Elenchiamo gli altri 19:

0,01 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18

0,10 0,21 0,31 0,41 0,51 0,61 0,71 0,81 0,91

Poiché abbiamo 81 numeri su cento senza l’1, la percentuale è 81%.

Con tre cifre decimali: 1000 numeri, di cui

!

9 "9 "9 = 93 = 729 senza la cifra 1. Dunque, siamo

scesi al 72,9% senza la cifra 1.

Per una formula generale, ragioniamo così:

• 9 casi su 10 sono rappresentabili con la frazione

!

910

;

• 81 casi su 100 con la frazione

!

81100

=9

10

"

# $ $

%

& ' '

2;

• 729 casi su 1000 con la frazione

!

7291000

=9

10

"

# $ $

%

& ' '

3.

Si può intuire che i numeri con n ≥ 1 cifre decimali senza nessun 1 siano

!

910

"

# $ $

%

& ' '

n= 0, 9n .

La tabella seguente ne illustra alcuni valori in percentuale

n 1 2 3 4 5 6 7 8 9 10 % 90,0% 81,0% 72,9% 65,6% 59,0% 53,1% 47,8% 43,0% 38,7% 34,9%

I valori sono arrotondati alla

prima cifra decimale. Con sette

cifre decimali i numeri senza

la cifra 1 sono già meno della

metà.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

10

Dal diagramma a colonne al grafico di una funzione. Per rappresentare più

convenientemente i dati è utile descriverli mediante una funzione “matematica” scelta

opportunamente. Un passaggio intermedio è l’uso di un diagramma cartesiano per

rappresentare gli stessi dati. Vediamo l’esempio precedente:

Di qui si può passare al grafico della funzione esponenziale

!

y =9

10

"

# $ $

%

& ' '

x, che collega i dati in

modo “naturale”.

Il grafico è qui eseguito con la

calcolatrice TI-92 Plus, ed è

dimetrico per comodità, con

!

0 " x " 40 . Esso suggerisce che il

numero di numeri decimali senza

la cifra 1 tende a zero al tendere

all’infinito del numero x delle cifre

decimali.

Vediamo un altro esempio, di carattere combinatorio: il triangolo aritmetico (o di

Tartaglia)

• Contiene i coefficienti binomiali

!

nk

"

# $ $ %

& ' ' =

n!k!( n ) k( )!

, che sono tutti numeri naturali.

• La prima colonna (k = 0) è sempre 1.

• Se k > n viene sempre 0.

• Ogni termine con n, k > 0 è somma dei due che lo sovrastano:

!

nk

"

# $ $ %

& ' ' =

n -1k -1

"

# $ $

%

& ' ' +

n -1k

"

# $ $

%

& ' ' .

• La somma di ogni riga è una potenza di 2.

• Fornisce i coefficienti dello sviluppo delle potenze di a+b.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

11

n\k 0 1 2 3 4 5 6 7 8

0 1 0 0 0 0 0 0 0 0

1 1 1 0 0 0 0 0 0 0

2 1 2 1 0 0 0 0 0 0

3 1 3 3 1 0 0 0 0 0

4 1 4 6 4 1 0 0 0 0

5 1 5 10 10 5 1 0 0 0

6 1 6 15 20 15 6 1 0 0

7 1 7 21 35 35 21 7 1 0

8 1 8 28 56 70 56 28 8 1 (gli zeri non li ho messi per comodità). Per n = 5 si ha:

!

a + b( )5 = a5 + 5a4b +10a3b2 +10a2b3 + 5ab4 + b5

Ecco una traduzione visiva del triangolo di Tartaglia al variare dell’esponente da 0 a 6, con

grafici 3D e cartesiano:

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

12

Sovrapponiamo ora i grafici per n = 6, eseguiti con la TI−92 Plus, insieme con un modello di

quei dati:

Istogramma a canne unite

Diagramma cartesiano, ottenuto unendo i

punti medi delle basi superiori dei

rettangoli

La funzione interpolante:

!

y = 20 "e#3" x#3( )2 10

è una campana di Gauss.

Qualcosa di simile accade per le altre righe del triangolo di Tartaglia.

Che significato hanno i numeri 20, 3, -3/10 che compaiono in questa funzione?

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

13

§2. MEDIE E INDICI DI DISPERSIONE

Dati n numeri reali x1, x2, ...., xn, si chiama media aritmetica il numero:

!

µ =1n

xii=1

n" .

Esempio II.1. Siano date le tre liste seguenti:

(1) 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9

(2) 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10, 11, 11, 12

(3) 32, 0, 0, 0, 0, 15, 0, 15, 17, 0, 17, 0, 0, 32, 0, 0

In tutti e tre i casi si ha n = 16 e µ = 8.

Spesso degli n dati solo r sono distinti e molti compaiono più volte. Se il dato xi compare fi

volte, il numero fi si chiama frequenza assoluta (o peso) del dato xi.

Il rapporto

!

fin

si chiama frequenza relativa del dato xi.

La somma delle frequenze assolute è

!

fii=1

r" = n .

La media

!

µ =1n

fi " xi( )i=1

r# =

fin" xi

$

%

& &

'

(

) )

i=1

r# è detta media ponderata dei dati.

Esempio II.1 (seguito). Determiniamo le frequenze dei dati nelle tre liste e fabbrichiamo tre

tabelle con due righe: nella prima mettiamo i dati distinti e nella seconda le loro frequenze.

Poi rappresentiamo con istogrammi le tre situazioni:

!

dati 7 8 9frequenze 5 6 5

!

5+ 6 + 5 = 16

!

µ =7 "5+ 8 "6 + 9 "5

5+ 6 + 5= 8

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

14

dati 4 5 6 7 8

freq. 1 2 2 2 2 dati 9 10 11 12

freq. 2 2 2 1

dati 0 15 17 32

freq. 10 2 2 2

Esempio II.2. In Geometria Analitica ed in Fisica la media aritmetica e la media ponderata

hanno interpretazioni in termini di baricentro di un insieme di punti.

A)

Siano

!

A = x1, y1( ) e

!

B = x2, y2( ) . Il punto medio dei

due punti è

!

D =x1 + x2

2, y1 + y2

2

"

# $ $

%

& ' ' , che ha la media

aritmetica delle coordinate di A e B.

Sia

!

C = x3, y3( )un altro punto. Il baricentro del triangolo ABC è

!

G =x1 + x2 + x3

3, y1 + y2 + y3

3

"

# $ $

%

& ' ' , che ha per coordinate la media aritmetica delle coordinate

dei tre punti A, B, C.

B) Dati r punti distinti

!

A i = xi, yi( ), 1 " i " r , se in

!

A i è collocata una massa

!

m i , il

baricentro del sistema di punti ha coordinate

!

G = x , y ( ) , dove

!

x ed

!

y sono le medie

ponderate delle coordinate degli r punti:

!

x = mi " xii=1

r# mi

i=1

r# ,

!

y = mi " yii=1

r# mi

i=1

r#

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

15

APRIAMO UNA PARENTESI. I punti nel piano cartesiano si rappresentano come coppie

ordinate (ossia liste di lunghezza 2) di numeri reali: per questo il piano cartesiano si indica

anche con R×R, o meglio con

!

R2.

Nello spazio ordinario, per individuare un punto occorrono tre numeri. Ossia, ogni punto P

dello spazio si rappresenta come una terna ordinata (ossia una lista di lunghezza 3):

!

P = x, y, z( ) . Lo spazio cartesiano si indica allora con

!

R3.

Nulla vieta di considerare più in generale l’insieme

!

Rn delle liste di lunghezza n o n-uple

ordinate. I suoi elementi sono detti anche punti o vettori ed hanno la forma

!

A = a1, a2,K, an( ) . Su questi punti possiamo eseguire delle operazioni:

Somma di punti: se

!

B = b1, b2,K, bn( ) , allora:

!

A + B = a1 + b1, a2 + b2,K, an + bn( ) " Rn

Prodotto di un numero k per un punto:

!

k "A = k "a1, k "a2,K, k "an( ) # Rn

Prodotto scalare di punti:

!

A " B = a1 #b1 + a2 #b2 + K+ an #bn( ) $ R

Il prodotto scalare di due punti è un numero e non un punto

Perché i punti di

!

Rn li chiamiamo vettori?

Per cominciare, il punto

!

O = 0, 0,K, 0( ) lo chiameremo origine o vettore nullo.

Il punto

!

A = a1, a2,K, an( ) ≠ O lo identificheremo col

vettore

!

OA"

D = A+B corrisponde alla somma

!

OD"

= OA"

+ OB"

con la

legge del parallelogramma:

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

16

E = k⋅A corrisponde al prodotto

!

OE"

= k #OA"

:

E è sulla retta OA;

!

OE = k "OA .

Il teorema del coseno assicura che il numero

!

A " B è proprio il prodotto scalare:

(AÔB)

!

OA"

#OB"

=OA $OB $cos

Che ce ne facciamo di questi vettori di

!

Rn?

Queste operazioni consentono di estendere la Geometria anche a dimensioni maggiori di 3,

che non riusciamo ad immaginare.

L’idea risolutiva è che, aumentando il numero di coordinate, basta allungare le formule.

Siano

!

A = a1, a2,K, an( ) ,

!

B = b1, b2,K, bn( ) . Vediamo la distanza

!

AB tra di essi per n = 1, 2,

3, …

a) n = 1:

!

AB = a1 " b1 = a1 " b1( )2

b) n = 2:

!

AB = a1 " b1( )2+ a2 " b2( )2

c) n = 3:

!

AB = a1 " b1( )2+ a2 " b2( )2

+ a3 " b3( )2

d) n ≥ 1:

!

AB = ai " bi( )2i=1

n#

ESEMPIO II.3 Dati

!

A = 5, 4, "1, 0( ),

!

B = -5,1, "3, 4( ) # R4 , si ha:

!

A + B = 0,5, "4, 4( );

!

3 "A = 15,12, #3, 0( ) ;

!

A " B = 5 # $5( ) + 4 #1+ $1( ) # $3( ) + 0 #4 = $18 ;

!

AB = 5+ 5( )2 + 4 "1( )2 + "1+ 3( )2 + 0 " 4( )2 = 129

Ciò posto, possiamo reinterpretare in modo diverso alcuni fatti già visti:

a) Il punto medio di AB è

!

D =12" A + B( )

b) Il baricentro di ABC è

!

G =13" A + B + C( )

c) La media ponderata è il prodotto scalare X×F del vettore

!

X = x1, x2,K, xr( ) dei

dati distinti per il vettore

!

F =f1n

, f2n

,K, frn

"

# $ $

%

& ' ' delle loro frequenze relative.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

17

Che vantaggio c’è?

• Il vedere un concetto da diversi punti di vista aumenta la difficoltà, ma anche la sua

comprensione.

• Certi concetti appaiono oscuri se visti in un modo, ma chiari se visti in modo diverso.

• Per qualcuno di noi un concetto è più facile da capire se visto in un certo modo; per

un altro di noi è preferibile una strada diversa.

• In realtà, lo scopo di introdurre i vettori in questo corso si vedrà nel capitolo sui

modelli statistici, perché mediante semplici considerazioni geometriche, note dallo

spazio ordinario, ma trasferite in ambiente n-dimensionale, si potranno giustificare

certe formule.

:Altri indici di media: :

- La mediana di dati ordinati in senso non decrescente, è il dato che occupa il posto

centrale (se n è dispari) o la media aritmetica dei due centrali (se n è pari).c Non è

influenzata da un dato troppo piccolo o troppo grande rispetto agli altri.

- La media geometrica di n dati positivi è la radice n−esima del prodotto dei dati:

!

x1 " x2 "Lxnn . Rispetto alla media aritmetica, è talora preferibile se i dati crescono in

modo esponenziale.

- La moda è ogni dato con la frequenza maggiore. Si usa anche per dati non numerici.

Questo termine è di uso corrente anche nella vita quotidiana.

- La media armonica di n dati positivi è il reciproco h del numero

!

1h

=1n"

1xkk=1

n# , ossia della

media aritmetica dei reciproci dei dati. Si usa raramente; esempi si trovano in

Elettrotecnica.

ESEMPIO II.4. Immaginiamo di voler determinare lo stipendio medio annuo netto dei

dipendenti di un maglificio.Il direttore guadagna 150.000 � l’anno; i tre impiegati

20.000 �, i trenta operai 15.000 �, i quattro fattorini solo 10.000 �.

La media aritmetica (ponderata) è:

!

1 "150.000 + 3 "20.000 + 30 "15.000 + 4 "10.0001+ 3+ 30 + 4

# 18.421 �

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

18

La moda e la mediana sono invece uguali a 15.000 �.

Rispetto alla media aritmetica, forse quest’ultima media rappresenta meglio la situazione

degli stipendi.

ESEMPIO II.5. Per dati a crescita rapida, il dato più alto sposta la media aritmetica troppo

verso l’alto. Vediamo un esempio con i seguenti 7 dati a crescita esponenziale.

dati 6 12 24 48 96 192 384 Log 0,77815 1,07918 1,38021 1,68124 1,98227 2,28330 2,58433

La media aritmetica è circa 108,85, la mediana e la media geometrica valgono 48.

NOTA. In mancanza di strumenti di calcolo, si preferiva un tempo calcolare i Logaritmi dei

dati, farne la media aritmetica m = 1,68124 e poi calcolare

!

10m = 48.

.INDICI DI DISPERSIONE.

Nelle tre liste dell’Esempio II.1 i dati sono disposti in modo diverso intorno alla loro media

aritmetica: nel primo caso sono più “uniformi”, nel terzo sono molto “sparpagliati”. Ci sono

vari modi per misurare la loro dispersione.

Il primo che viene in mente è l'intervallo di variazione d, cioè la differenza fra il massimo

ed il minimo dei dati.

Spesso non è significativo, perché influenzato da un eventuale dato troppo grande o troppo

piccolo rispetto agli altri.

Si usa quando interessa l'ampiezza massima assoluta di oscillazione dei dati.

ESEMPIO II.6. Nel 1975 un metro cubo di acqua costava a Bologna 98,56 lire (� 0,0509);

nel 2007 è costato � 1,6048 (3.107,32 lire). La variazione è stata di 1,5539 � in più in 32

anni; un aumento, quindi di oltre 30 volte (il 3052,85% in più) in 32 anni.

In generale, però non è questo l’indice che interessa, ma serve sapere come i dati si

distribuiscano rispetto alla loro media.

Se calcoliamo semplicemente la somma delle differenze

!

xi " µ troviamo come risultato 0

(basta fare il conto).

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

19

Potremmo in alternativa calcolare

!

1n

xi " µ

i=1

n# , media dei valori assoluti delle differenze dei

dati rispetto alla media aritmetica. Questo è un indice ragionevole, ma poco usato.

L’indice di dispersione usato di solito è lo scarto quadratico medio

!

" =

xi # µ( )2i=1

n$

n,

chiamato anche deviazione standard.

Spesso il quadrato di σ viene chiamata varianza (globale), ed il numeratore

!

xi " µ( )2i=1

n# = n $ %2 è detto talora devianza.

NOTE: a) Sia

!

X = x1, x2,K, xn( ) il vettore dei dati e sia

!

M = µ, µ,K, µ( ) = µ " 1,1,K,1( ) il vettore

con le n coordinate uguali alla media aritmetica µ. Allora

!

" =1n# XM .

Ossia, σ misura la distanza geometrica dei dati rispetto alla media, resa indipendente dal

numero dei dati mediante la divisione per

!

n .

b) Lo scarto quadratico medio si calcola anche in un altro modo: sviluppiamo i quadrati,

ricordiamo che

!

µ =1n

xii=1

n" e che

!

1n

µ2

i=1

n" =

1n#n #µ2 = µ2. Allora, con qualche passaggio si

ottiene:

!

" =1n

xi2

i=1

n# $ µ2 .

c) Quando si ha solo un campione dei dati e a partire da quello si vogliono fare delle stime

sull'insieme di tutti i dati, come indice di dispersione si usa la varianza stimata, ossia la

devianza divisa per n-1:

!

v =

xi " µ( )2k=1

n#

n "1.

Riprendiamo i tre esempi iniziali, ossia:

(1) 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9

(2) 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10, 11, 11, 12

(3) 32, 0, 0, 0, 0, 15, 0, 15, 17, 0, 17, 0, 0, 32, 0, 0 Riassumiamo nella tabella seguente i parametri principali: medie e indici di dispersione.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

20

tipo n µ d σ v

(1) 16 8 2 0,79 0,666

(2) 16 8 8 2,345 5,866

(3) 16 8 32 11,325 136,8

OSSERVAZIONE. A) In molte situazioni che interessano la biometria, si trovano liste di dati (per esempio i pesi di

maschi adulti di una specie animale, o le lunghezze dei loro femori), nelle quali la media aritmetica, la mediana e la

moda approssimativamente sono uguali. In questo caso, il modello matematico che descrive le frequenze rappresentate

negli istogrammi è una curva a campana detta “gaussiana”, che ritroveremo più oltre. La media corrisponde al punto di

massimo del suo grafico, mentre σ indica quanto sia “bassa e larga” oppure “alta e stretta” la curva: ne riparleremo.

In altri casi, che interessano soprattutto il campo medico, ma anche quello ecologico, si confrontano la media aritmetica

e la varianza, per valutare se sono circa uguali, ossia se il loro rapporto è prossimo ad 1 oppure no. Anche di questo

riparleremo più oltre.

B) Alcuni software, per esempio il Data/Matrix Editor della calcolatrice TI-92 Plus, forniscono per una lista di dati

numerici: il minimo e il massimo (ossia l’intervallo di variazione), la media aritmetica, la varianza stimata (o la

deviazione standard), la somma dei dati, la somma dei loro quadrati, la mediana, il primo ed il terzo quartile, ossia le

mediane dei dati minori o rispettivamente maggiori della mediana. Anche questi ultimi sono utili per comprendere la

dispersione, soprattutto quando i dati sono tanti. In compenso, di solito non è agevole avere la lista delle frequenze

assolute o relative dei dati.

Nelle figure qui accanto vediamo la lista n° 2 dell’esempio

precedente, memorizzata nella colonna c1 di un documento

sulla TI-92 Plus. L’apposita funzione fornisce la media

aritmetica

!

x , la somma dei dati, la somma dei loro

quadrati, il numero

!

Sx = v , il numero totale dei dati, il

minimo, il primo quartile, la mediana o secondo quartile, il

terzo quartile, il massimo dei dati.

Osserviamo che dal dato Sx, per ricavare σ occorre moltiplicare per

!

n "1n

=1516

# 0,968.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

21

§3. CORRELAZIONI FRA SERIE DI DATI

Spesso accade di confrontare fra di loro due o più serie di dati, al fine di stabilire se vi sia

una qualche correlazione fra di essi. Ma attenzione ad interpretare correttamente il

risultato del confronto!

Per esempio, se si esaminano dal 1950 al 1970:

A) l’andamento delle vendite di lavatrici

B) l’immatricolazione di automobili,

C) il numero delle vittime in incidenti stradali,

si nota che tutti e tre i dati aumentano.

Ossa, il legame fra le grandezze A e B è una funzione crescente; lo stesso fra A e C; lo stesso

fra B e C.

Possiamo concludere che vi sia un qualche legame di causa-effetto? Ossia,

Più lavatrici causano più automobili? O viceversa?

Più lavatrici causano più vittime della strada? O viceversa?

Più automobili causano più vittime della strada? O viceversa?

Sembra poco ragionevole soprattutto la seconda implicazione, in entrambi i versi. La terza

sì che potrebbe mostrare un legame causa – effetto.

Qui non studiamo come interpretare i dati di due grandezze variabili x ed y, ma come

determinare una funzione y = f(x) che descriva al meglio la loro compresenza, ossia

fornisca un modello matematico semplice per le coppie (x, y) di dati.

Sia dato un certo fenomeno, che coinvolge due grandezze variabili x ed y o l'una in

dipendenza dell'altra o misurate contemporaneamente.

Eseguendo n esperimenti con le modalità

opportune, si ottengono n coppie

ordinate

!

x1, y1( ),K, xn, yn( ). Ordiniamo le coppie in modo che sia

!

x1 " x2 " K " xn .

!

x yx1 y1x2 y2L L

xn yn

Ciascuna di esse corrisponde ad un punto del piano cartesiano, ed è quindi possibile

visualizzare graficamente i dati ottenuti.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

22

Quando i dati x sono tutti diversi, è utile e spesso necessario, cercare di

rappresentare i punti (x, y) con una formula del tipo y = f(x), cioè con una funzione definita

in un intervallo contenente tutti i dati

!

x1, x2,K, xn e tale che per ogni i,

!

1 " i " n , si abbia

f(xi) ≈ yi.

Si cerca cioè un modello matematico dei dati, che, quando possibile, sarà un polinomio. Il

criterio che si segue è quello della semplicità, per cui raramente si usa il "polinomio

interpolatore", ossia il polinomio di grado minimo

!

p x( ) = a0 + a1x + a2x2 + K + an"1xn"1, tale

che

!

p xi( ) = yi per ogni i, a causa del suo grado elevato.

Si rinuncia quindi all'uguaglianza tra yi ed f(xi) per poter usare polinomi di grado assai più

basso.

!

x y0 11 22 23 34 55 56 77 6

Ecco un esem-

pio eseguito con

la calcolatrice

TI-92 Plus.

Qui sotto il

polinomio

interpolatore,

assai poco ma-

neggevole,

Come nell’esempio, può

accadere che gli n punti si

dispongano approssimati-

vamente secondo una

retta. Può quindi essere

utile trovare “la retta che

approssima meglio i dati”.

Si va quindi a cercare un

modello lineare

!

y = m " x + q

del fenomeno in esame.

!

y = 0,845 " x + 0, 9167

Come si fa?

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

23

In generale si ha n > 2, per cui gli n punti non sono allineati e quindi il sistema seguente è

impossibile:

!

m " x1 + q = y1m " x2 + q = y2

L

m " xn + q = yn

#

$

% %

&

% %

(1)

Si cercheranno allora n nuovi valori y'1, y'2, ..., y'n, tali che, sostituiti al posto degli yi,

rendano possibile il sistema allineando i punti

!

xi, " y i( ) . Si cercherà inoltre di

commettere l'errore

"minimo possibile", cioè i

nuovi valori di y

dovranno essere in

qualche modo i "più

vicini possibile" ai vecchi

!

x " y 0 0,9171 1,7622 2,6073 3,4524 4,2985 5,1436 5,9887 6,833

Inoltre dovremo avere, insieme con i valori di m e q, un indice che ci permetta di valutare

se il nostro modello lineare sia adeguato oppure no a descrivere il fenomeno in esame.

La retta che troveremo sarà detta retta di regressione, e l'indice che valuta l'adeguatezza

del modello lineare sarà chiamato coefficiente di correlazione.

Come trovare la retta di regressione

Data la nostra tabella con i valori di x ed y, siano:

!

x = 1n

xii=1

n" ,

!

y = 1n

yii=1

n"

le medie aritmetiche dei dati x e dei dati y.

Siano

!

"x =1n

xi2

i=1

n# $ x 2 e

!

"y =1n

yi2

i=1

n# $ y 2 le deviazioni standard dei dati x ed y.

Poniamo poi

!

cxy =1n

xiyii=1

n" # x $ y .

Indichiamo ora con X il vettore di Rn avente per coordinate

!

x1, x2,K, xn , con Y il

vettore degli

!

y1, y2,K, yn e con U il vettore avente tutte le coordinate uguali ad 1.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

24

Li scriveremo tutti come colonne, anziché come righe, per comodità, ma non cambia nulla.

Il sistema (1) si riscrive, in forma vettoriale, mX+qU = Y ed è di solito impossibile.

NOTA. Al variare dei coefficienti m e q, il vettore mX+qU, detto combinazione lineare di X

ed U, riempie il piano Π passante per i tre punti O, X, U.

Infatti, su quel piano, i

vettori

!

OX e

!

OU

determinano gli assi

cartesiani; le lunghezze dei

due vettori sono le unità di

misura; le coordinate di un

punto di quel piano sono

allora i coefficienti m e q

Siamo abituati a coordinate cartesiane con assi perpendicolari, ma non è sempre possibile.

Basta che i due assi non siano paralleli, ma si incontrino in un punto, che sarà l’origine O.

Da ogni punto del piano si mandano le parallele agli assi, per trovarne le coordinate.

Sia Y' il vettore di Rn avente per coordinate i numeri y'1, y'2, ..., y'n cercati. Allora il

sistema:

mX + qU = Y' (2)

deve avere soluzione, cioè il punto Y' deve appartenere al piano Π di Rn costituito da tutte

le combinazioni lineari di X ed U.

Il punto Y invece non appartiene a tale piano, perché il sistema (1) è impossibile.

Occorre dunque scegliere un punto Y'∈Π, e sceglierlo in modo che si discosti il meno

possibile dal punto Y, per commettere l'errore minimo possibile.

A tal fine, come

suggerisce la

Geometria, scegliamo

come Y' il piede della

perpendicolare

condotta da Y a Π.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

25

Si tratta ora di tradurre algebricamente il procedimento. Il vettore Y-Y' è

perpendicolare a Π, quindi lo è ad ogni vettore di Π, ed in particolare è perpendicolare ad X

e ad U, che appartengono a Π.

Pertanto i prodotti scalari devono essere nulli:

!

X " Y # $ Y ( ) = 0

U " Y # $ Y ( ) = 0

% & '

( ' )

X " Y = X " $ Y U " Y = U " $ Y

% & (

.

Sostituiamo ad Y' la sua espressione mX+qU.

Con qualche passaggio si ottiene:

!

X " Y = X " mX + qU( )U " Y = U " mX + qU( )# $ %

& % '

m X " X( ) + q X " U( ) = X " Y

m X " U( ) + q U " U( ) = U " Y

# $ %

& %

Questo è un sistema di due equazioni nelle incognite m, q.

Ricordiamo che:

!

X " X = xi2

i=1

n#

!

X " U = xii=1

n# = n $ x

!

Y " U = yii=1

n# = n $ y

!

X " Y = xiyii=1

n#

!

U " U = n

Allora il sistema diventa:

!

m " xi2

i=1

n#$

%

& & &

'

(

) ) )

+ q " n " x ( ) = xiyii=1

n#

m " n " x ( ) + q "n = n " y

*

+

, ,

-

, ,

Per determinare le incognite m e q, semplifichiamo la seconda equazione per n e ricaviamo:

!

q = y "m # x .

Sostituiamo nella prima equazione, ed otteniamo:

!

m " xi2

i=1

n# + y $m " x ( ) "n " x = xiyi

i=1

n# %

!

m " xi2

i=1

n# $n " x 2%

&

' ' '

(

)

* * * = xiyi

i=1

n# $n " x " y +

!

m "1n

xi2

i=1

n# $ x 2

%

&

' ' '

(

)

* * * = 1

nxiyi

i=1

n# $ x " y + m " ,x

2= cxy . Pertanto:

c

!

m = cxy "x2

q = y #m $ x

% & '

( ' (3)

Le formule (3) possono essere applicate direttamente ai dati e forniscono la retta di regressione y = mx + q.

Il guaio è che se i dati sono molti, i calcoli (3) sono complessi, ma per fortuna ci sono i

computer.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

26

Notiamo che la retta di regressione passa per il punto di coordinate

!

x , y ( ), “baricentro” dei

dati

!

xi, yi( ) .

La retta l’abbiamo, ma sarà significativa?

Determiniamo per questo ora il coefficiente di correlazione.

La distanza di Y da Π, ossia la distanza

!

Y " Y di Y da Y' è un primo indice della “bontà” del

nostro modello lineare: più è piccola e meglio è.

Tuttavia questo numero dipende dalle unità di misura, e dalle dimensioni delle grandezze

in gioco. Come sempre, è preferibile usare un rapporto.

Sia

!

Y = y "U il vettore con tutte le coordinate uguali ad

!

y .

Si ha

!

Y ∈Π, poiché è un vettore multiplo di U ed appartiene alla retta OU.

Pertanto Y'-

!

Y è perpendicolare ad Y'-Y, cioè il triangolo di vertici Y, Y',

!

Y è rettangolo in Y'.

Sia α l'angolo tra l'ipotenusa Y Y' e il cateto Y'

!

Y .

Il numero

!

R = cos "( ) =Y # Y Y # Y

si chiama coefficiente di correlazione assoluto. Il punto Y è tanto

più vicino a Π quanto più α è prossimo all'angolo nullo, e quindi R è prossimo ad 1.

Il calcolo di R è però complicato dalla necessità di trovare prima il vettore Y', le cui

coordinate si calcolano con la formula:

y'i = m⋅xi + q , 1 ≤ i ≤ n

Percorriamo allora un’altra strada. Il prodotto scalare di due vettori non nulli P,Q∈Rn si trova mediante la formula

!

P "Q = OP #OQ #cos $( ) , dove

!

" = P ˆ O Q .

Allora, posto P =

!

Y -Y' e Q =

!

Y -Y, da questa formula ricaviamo il coefficiente di correlazione

relativo

!

r = cos "( ) = P #QOP $OQ

, il cui valore assoluto è R.

Con qualche passaggio, si ricava per r la seguente espressione:

c

!

r =cxy

"x #"yc (5)

Ricordiamo che comunque r è un coseno, quindi -1 ≤ r ≤ 1. Il modello lineare sarà tanto più

accettabile quanto più r sarà prossimo ad 1 o a -1.

Si ritiene accettabile se 0,75 ≤ r ≤ 1 oppure -1 ≤ r ≤ -0,75, (ossia 0,75 ≤ ⏐r⏐≤ 1)

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

27

RIASSUNTO: data una lista di n dati

!

xi, yi( ) , riportati come punti del piano cartesiano, la

retta che mediamente passa più vicino a tutti i punti, detta retta di regressione, ha

equazione

!

y = m "x + q , dove:

!

m = cxy "x2 ,

!

q = y "m #x

Il coefficiente di correlazione relativo è

!

r =cxy

"x #"y , con

!

"1# r #1

Gli esempi che seguono presentano alcuni casi in cui si può applicare il metodo dei

minimi quadrati o direttamente o con alcune varianti preliminari.

Distinguiamo alcuni casi:

a) Abbiamo già il modello teorico che descrive il fenomeno, e dobbiamo solo trovarne i

coefficienti m e q. In questo caso, il coefficiente di correlazione R sarà prossimo ad 1

e il modello sarà adeguato anche per fare interpolazioni, ossia per trovare valori y

corrispondenti a degli x intermedi ai dati

!

xi , oppure previsioni, cioè valori y

corrispondenti a degli x maggiori o minori di tutti gli

!

xi .

b) Non abbiamo un modello teorico, forse perché non può esistere, ma cerchiamo

comunque una funzione che approssimi i dati al meglio, per fare interpolazioni o

previsioni. In questo caso, però, più modelli anche molto diversi potrebbero essere

discretamente adeguati (ossia con R ≈1), quindi le previsioni potrebbero non essere

attendibili.

c) Non abbiamo un modello teorico, ma lo stiamo cercando, ossia vogliamo

determinare una eventuale legge che colleghi i dati x agli y. In tal caso, dobbiamo

cercare quale sia il modello preferibile: retta, parabola, cubica, esponenziale,

logaritmo, potenza, funzioni circolari, e poi cercare di spiegare teoricamente perché

il modello è adeguato, se lo è.

OSSERVAZIONE. Capita spesso di cercare modelli non lineari. In tal caso, si manipolano i

dati in modo adeguato per ricondursi al caso lineare.

Per esempio, nel caso del modello del tipo esponenziale

!

y = b "ax, con a, b > 0, applichiamo

dapprima i logaritmi ad entrambi i membri:

!

ln y( ) = ln b( ) + x "ln a( )

Poniamo ora

!

y" = ln y( ) ,

!

q = ln b( ) ,

!

m = ln a( ) .

Otteniamo il diagramma semilogaritmico

!

y" = m # x + q .

A questo, che è una retta, possiamo applicare il metodo dei minimi quadrati per trovare m

e q. Otterremo infine

!

b = eq ,

!

a = em .

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

28

ESERCIZIO 3.1. – Il censimento periodico di una cittadina ha fornito i seguenti valori:

anno 1950 1960 1970 1980 1990

abitanti 5.220 7.832 11.834 17.021 30.517

Vogliamo stimare l'anno in cui essa raggiungerà i 50.000 abitanti.

Sappiamo che l'accrescimento di una popolazione ha un modello esponenziale del tipo

y = b⋅er⋅t, con b > 0.

Poniamo y* = ln(y), m = r, q = ln(b),

!

x =t "1940

10.

Si ottiene la retta y* = m⋅x + q (diagramma semilogaritmico).

Per trovare m e q si può ora usare il metodo dei minimi quadrati, previa sostituzione dei

dati y con i loro logaritmi.

x 1 2 3 4 5 y* ≈ ln(y) 8,560 8,966 9,379 9,742 10,326 Si ha allora:

!

x = 3,

!

y = 9,395,

!

"x = 1, 414,

!

"y = 0, 606,

!

cxy = 0,860

Applichiamo le formule del metodo dei minimi quadrati:

!

m = cxy "x2#

0,86

0,1, 4142# 0, 430

!

q = y "m # x $ 8,102

R = 0,9965…

Si ha così la ragionevole retta: y* = 0,43 x + 8,102. Per rispondere al problema, non serve trovare il modello esponenziale. Basta risolvere

l’equazione di I grado:

ln(50.000) = 0,43 x + 8,102

e ricavare x = 6,308.... Di qui,

!

t = 10x +1940 " 2003. Pertanto, l'anno in cui

presumibilmente la cittadina raggiungerà i 50.000 abitanti sarà il 2003.

Per confronto, vediamo i diagrammi esponenziale e semilogaritmico del modello eseguiti con la calcolatrice

TI-Voyage 200, che in automatico sceglie la finestra ottimale del grafico: in entrambi i casi, l’unità di misura

sull’asse y è assai minore di quella dell’asse x, ed inoltre si vede di ogni asse solo il tratto corrispondente

all’intervallo dei dati corrispondenti. Altrimenti, i grafici non sarebbero stati visibili.

!

y = 3302 "1,538x y* = 0,43 x + 8,102

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

29

anno 1950 1960 1970 1980 1990

x 1 2 3 4 5

abitanti 5.220 7.832 11.834 17.021 30.517

Ora per finire confrontiamo la tabella dei valori

reali y con i valori calcolati con la funzione

esponenziale:

f(x) 5.080 7.815 12.024 18.498 28.458

In molti casi che interessano per esempio la Biometria e la Fisica, si hanno modelli

matematici di tipo gaussiano. Matematicamente, una funzione gaussiana è una funzione

esponenziale che ha all’esponente un polinomio di secondo grado:

!

y = ea "x2 +b"x+c, con a < 0.

La funzione

!

y = a " x2 + b " x + c, con a < 0, ha per grafico una parabola il cui vertice

!

V = "b

2a, 4ac " b2

4a

#

$

% %

&

'

( ( corrisponde al punto di massimo assoluto, e la retta

!

x = "b

2a è asse di

simmetria. Notiamo che, con qualche passaggio, si ottiene:

!

y = a " x2 + b " x + c = a " x +b

2a

#

$ % %

&

' ( (

2+

4ac ) b2

4a

Poiché la funzione esponenziale

!

y = ex è crescente, la funzione gaussiana rispecchia lo

stesso andamento: la retta

!

x = "b

2a è asse di simmetria, il massimo è

!

e4ac"b2# $ % &

' ( 4a( )

, ma è

positiva e per x →±∞ ha limite 0. Pertanto, ha la forma di una campana.

Se poniamo

!

h = e4ac"b2# $ % &

' ( 4a( )

,

!

x = "b

2a, allora la funzione diventa:

!

y = h "ea " x#x ( )2 , con a < 0.

Nel caso della figura si ottiene:

!

y = e "e# x#2( )2 .

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

30

In molti casi, il numero

!

x è noto, perché è la media aritmetica dei dati x.

Allora, applicando i logaritmi si ottiene:

!

ln y( ) = ln h( ) + a " x # x ( )2

Possiamo allora porre:

!

y" = ln y( ) ,

!

q = ln h( ) ,

!

m = a ,

!

x" = x # x ( )2

e ottenere la retta

!

y" = m # x" + q , i cui coefficienti si possono trovare col metodo dei minimi

quadrati.

ESERCIZIO 3.2. Consideriamo i coefficienti dello sviluppo della sesta potenza del binomio

a+b. Dal triangolo di Tartaglia (o dalla formula di Newton) sappiamo che il coefficiente di

!

akb6-k è il coefficiente binomiale

!

6k

"

# $ $ %

& ' ' , 0 ≤ k ≤ 6.

Allora abbiamo la tabella seguente:

!

x = k 0 1 2 3 4 5 6

!

y =6k

"

# $ $ %

& ' ' 1 6 15 20 15 6 1

La media dei dati k è

!

x = 217

= 3. I dati x ed y sono simmetrici rispetto alla media aritmetica,

pertanto sarà sufficiente supporre x ≥ 3.

Ora calcoliamo i numeri

!

x" = x #3( )2 e i numeri

!

y" = ln y( ) :

x* 0 1 4 9 y* 2,996 2,708 1,792 0,000

Col metodo dei minimi quadrati si ricava ora la retta:

y = −0,336⋅x + 3,058, r = -0,999 (ottimo!)

Si ha

!

h " e3,058 " 21,2849 , quindi la funzione finale è:

!

y = 21,28 "e#0,336" x#3( )2 ,

frutto di approssimazioni. Confrontiamo i valori reali e quelli calcolati con la gaussiana:

k 0 1 2 3 4 5 6 y 1 6 15 20 15 6 1

f(k) 1,03 5,55 15,21 21,28 15,21 5,55 1,03

NOTA. Alla fine del cap. I, il calcolo è stato eseguito in modo semplificato, ponendo

!

h " e3 " 20,

!

a = m = -0,3 = -3 10 . La funzione gaussiana ottenuta è stata quindi semplificata in

!

y = 20 "e#3" x#3( )2 10

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

31

Nei due casi precedenti era noto il modello matematico teorico e si dovevano solo trovare i

coefficienti. Ora vedremo un esempio in cui il modello teorico non è noto, perciò potremo

confrontare due diversi modelli e la loro adeguatezza.

OSSERVAZIONE. Con un metodo simile a quello visto per la retta di regressione, anche per

dati y dipendenti da più variabili t1, ... , tr si possono cercare modelli della forma

!

y = a0 + a1t1 + K + artr . Occorre allora considerare gli r+1 vettori

!

U, T1, K , Tr . Insieme al

vettore nullo O, essi individuano uno spazio Σ a r+1 dimensioni, a cui Y non appartiene.

In forma vettoriale il sistema (impossibile) è:

!

Y = a0U + a1T1 + K + arTr

Il vettore Y’ dei dati modificati sarà scelto in Σ in modo che il vettore Y-Y’ sia

perpendicolare agli r+1 vettori

!

U, T1, K , Tr : si otterrà allora un sistema lineare in r+1

equazioni ed r+1 incognite a0, a1, ... ar, che ci fornirà il modello cercato.

Infine, per dati y dipendenti da una variabile x ma per i quali è adeguato un modello

polinomiale del tipo

!

p x( ) = a0 + a1x + a2x2 + K + arxr

ci si riconduce al caso precedente ponendo:

ti = xi per ogni i = 1, ..., r.

Il problema è che i calcoli sono ancora più complicati, ed è più difficile scegliere un coefficiente di

correlazione.

ESEMPIO 3.3. Sia data la

tabella seguente:

Cerchiamo dapprima un

modello lineare, ossia la retta

di regressione:

!

x y"3 "3"1 "20 "11 03 3

!

x = "3"1+ 0 +1+ 35

= 0,

!

y = "3"2"1+ 0 + 35

= "35

,

!

"x =15# $3( )2 + $1( )2 + 02 +12 + 32%

& ' '

(

) * * $ 02 = 2,

!

"y =15# $3( )2 + $2( )2 + $1( )2 + 02 + 32%

& ' '

(

) * * $ $

35

%

& ' '

(

) * *

2=

235

$9

25=

1065

!

cxy ="3( ) # "3( ) + "1( ) # "2( ) + 0 # "1( ) +1 #0 + 3 #3

5" 0 # "

35

$

% & &

'

( ) ) = 4

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

32

Allora:

!

m =cxy

"x2

=4

22= 1,

!

q = "35"

5053

#0 = "35

= "0, 6,

!

r =cxy

"x # "y=

42 # 106 5

=10106

$10

10,295$ 0, 97, buono.

La retta è quindi: c

!

y = x " 0, 6 . Ecco il confronto tra i valori reali e quelli calcolati sulla retta di regressione:

x y y' -3 -3 -3,6 -1 -2 -1,6 0 -1 -0,6 1 0 0,4 3 3 2,4

Ora per confronto, con l’uso di un software della TI-92 Plus, calcoliamo la

regressione quadratica, ossia la parabola “migliore possibile”. Risulta:

!

y = 0,12 " x2 + x #1.

Si ha poi un coefficiente di correlazione ≈ 0,999, ottimo, migliore del precedente!

x y y' -3 -3 -3,1 -1 -2 -1,9 0 -1 -1,0 1 0 0,1 3 3 2,9

Il modello quadratico sembra assai migliore dell’altro per rappresentare questi 5 punti.

Nell’esempio precedente, poco significativo perché i dati sono solo cinque ed i calcoli per la retta di

regressione sono eseguiti a mano, manca un modello teorico e si è proceduto a caso a cercare di descrivere

matematicamente i dati.

Perciò nel caso si usi la funzione matematica trovata per interpolare i dati, per esempio per sapere che cosa

potrebbe valere y per x = 2, il modello lineare dà 1,4, mentre quello quadratico dà 1,48, con poca differenza,

solo il 4% della x.

Invece, per le previsioni, per esempio per x = 4, si ha rispettivamente 3,4 e 4,92, con una differenza elevata,

il 38% della x. Il dato di previsione non è attendibile.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

33

Infine, un esempio del terzo tipo: cerchiamo un modello matematico per la tabella

seguente, contenente i risultati di una complessa ricerca sulle funzioni tra un insieme e se

stesso, raggruppate in classi secondo certi criteri: x è il numero di elementi dell’insieme ed

y il numero di questi raggruppamenti. Il diagramma mostra un andamento di tipo

esponenziale, pertanto calcoliamo il logaritmo dei dati y e cerchiamo la retta di regressione:

y 1 2 3 4 5 6 7 8 9 10 11 12 y 1 3 7 19 47 130 343 951 2616 7319 20589 57280 ln(y) 0 1,099 1,946 2,944 3,850 4,868 5,838 6,858 7,869 8,898 9,933 10,956

Ecco il grafico semilogaritmico: i lati superiori dei rettangoli sembrano delineare una retta.

Applicando il metodo dei minimi quadrati si ottiene la retta di regressione

y = 0,99… x – 1,017…, con r = 0,999…

Allora si ricava la funzione esponenziale

!

y = 0,3616 "e0,99"x.

Notiamo tuttavia che per x = 12 si ha f(x) ≈ 52.553, un po’ inferiore al dato reale 57.280.

La congettura è che il modello migliore sia

!

y = ex-1, almeno per gli x “grandi”.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

34

ESERCIZIO 3.5:

a) Si riportino sul grafico cartesiano qui a

lato i sei punti

!

x, y( ) indicati qui sotto:

!

x 0 1 2 3 4 5y 0 5 9 12 14 18

b) Si calcolino la retta di regressione ed il

coefficiente di correlazione relative a

quei sei punti. Si tracci anche la retta sul

grafico.

c) Il modello lineare è adeguato?

Risposta:

Media degli x:

!

x " 2,5

Media degli y:

!

y " 9,67

Scarto degli x:

!

"x # 1,71

Scarto degli y:

!

"y # 5,91

Inoltre:

!

cxy = 10. Allora:

!

m " 3,43,

!

q " 1,1

Infine,

!

r = 0,991

Il modello lineare è adeguato. Si vede anche

dal grafico.

Ecco i grafici realizzati con la TI-92 (o con la TI-Voyage200):

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

35

§4. PROBABILITÀ E STATISTICA In questa sezione colleghiamo una teoria matematica, ossia il Calcolo delle Probabilità, con

la Statistica. Un punto di collegamento è il concetto di frequenza.

La Teoria della Probabilità si può pensare inizialmente come una reinterpretazione della

teoria degli insiemi con una terminologia diversa. Si esegue un esperimento, che può avere

un certo insieme di esiti, detto spazio campionario Ω.

Probabilità Insiemistica

Spazio campionario Ω Insieme Ω

Esito x Elemento x∈Ω

Evento E Sottoinsieme E⊆Ω

Evento impossibile Sottoinsieme vuoto ∅

Evento certo L’insieme Ω

Evento elementare {x}, x∈Ω

Eventi incompatibili A e B A∩B = ∅

L’evento A implica l’evento B A⊆B

Si verifica almeno uno dei due eventi A o B A∪B

La probabilità è una funzione p che associa ad ogni evento E un numero reale p(E)∈R, con

le proprietà seguenti:

a) p(Ω) = 1, p(∅) = 0,

b) Se l’evento A implica l’evento B allora p(A) ≤ p(B)

c) Se gli eventi A e B sono incompatibili, p(A∪B) = p(A)+p(B).

Come conseguenza, per ogni evento E si ha 0 ≤ p(E) ≤ 1.

NOTA. Si può anche moltiplicare per 100 ed esprimere la probabilità in percentuale.

La trattazione è diversa nel caso di spazi campionari finiti o infiniti.

Nel caso finito, in cui lo spazio campionario è costituito da n ≥ 1 esiti, posto

!

" = xi 1 # i # n{ } , basta assegnare ad ogni evento elementare

!

xi{ } un numero

!

p xi( ) " 0, in

modo che risulti

!

p xi( )i=1

n" = 1, e allora la probabilità di un evento E è la somma delle

probabilità degli eventi elementari contenuti in E.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

36

ESEMPIO 4.1. Nel lancio di un dado non truccato, la probabilità di uscita di ogni numero è

la stessa, quindi una su sei. Ossia, ogni evento elementare ha probabilità 1/6. La probabilità

dell’evento: “esce un numero di tre lettere”, ossia dell’evento

!

E = 1,2,3, 6{ } è quindi di 4/6,

ossia 2/3.

L’esempio precedente è un caso di equiprobabilità, ossia ogni evento elementare ha la

stessa probabilità degli altri.

Ne segue che se

!

" = xi 1 # i # n{ } , si ha

!

p xi( ) =1n

.

Se l’evento E ha k esiti, si ha

!

p E( ) =kn

.

ESEMPIO 4.2. Nel lancio di due dadi (non truccati) si sommano i punteggi. Gli esiti sono i

numeri da 2 a 12.

Poiché i dadi sono due, e ciascuno mostra una di sei facce, ci sono 36 coppie (x,y) di

numeri. Sommiamo: s = x+y.

Ora, s = 2 si ottiene solo dalla coppia (1, 1), mentre s = 3 si ottiene da (1, 2) e da (2, 1), ecc.

Riassumendo:

s 2 3 4 5 6 7 8 9 10 11 12

p(s)

!

136

!

236

!

336

!

436

!

536

!

636

!

536

!

436

!

336

!

236

!

136

Pertanto, l’evento E = “esce un numero primo”, ossia

!

E = 2,3,5,7,11{ } ha probabilità:

!

p E( ) = p 2( ) + p 3( ) + p 5( ) + p 7( ) + p 11( ) =1+ 2+ 4 + 6 + 2

36=

1536

=5

12

L’evento complementare E’ di E è costituito dagli esiti non in E, quindi è incompatibile con

E ed ogni esito di Ω è o in E o in E’. Ne segue p(E)+p(E’) = p(Ω) = 1. Ossia, p(E’) = 1-p(E).

Nell’esempio precedente, l’evento complementare “esce un numero composto” ha

probabilità 1-5/12 = 7/12.

La teoria della probabilità nasce storicamente dalla passione per i giochi d’azzardo. Sembra

naturale allora fare un esercizio tratto dal gioco del lotto:

ESERCIZIO 4.3. Nel gioco del lotto in ogni “ruota” (ossia in ciascuna delle 10 sedi

italiane) sono estratti 5 numeri su 90. Giocare un terno secco significa indicare tre numeri

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

37

sui 90 di una ruota fissata, nella speranza che facciano parte della cinquina estratta.

Sperando che il gioco non sia truccato, qual è la probabilità di vincere?

Risposta. Lo spazio campionario è costituito dalle

!

905

"

# $ $

%

& ' ' cinquine distinte, che possono

essere estratte. Si vince se i nostri tre numeri fanno parte della cinquina estratta. Quante

sono le cinquine che li contengono? Oltre ai nostri tre numeri, contengono due degli altri

87 numeri, quindi sono

!

872

"

# $ $

%

& ' ' . La probabilità di vincere è allora:

!

872

"

# $ $

%

& ' '

905

"

# $ $

%

& ' ' =

87 (861 (2

(1 (2 (3 (4 (5

90 (89 (88 (87 (86=

3 (4 (590 (89 (88

=1

11.748

NOTA. In caso di vincita, la Società che gestisce il gioco del lotto paga poco più di 4.000 volte la cifra che

abbiamo giocato. Chi vince realmente?

La Teoria della Probabilità si applica spesso in situazioni nelle quali in prove ripetute ci

sono sempre solo due alternative, ossia un evento A ed il suo complementare. Posto

!

p = p A( ) si ha

!

q = p " A ( ) = 1#p.

Il problema è allora il seguente: che probabilità c’è che in n prove indipendenti l’evento A

si sia verificato k volte?

Prove indipendenti significa intuitivamente che l’esito di una prova non ha influenza sull’esito delle altre.

ESEMPIO 4.4. In una famiglia ci sono cinque figli. Qual è la probabilità che tre siano

maschi e due siano femmine?

Presupponiamo che la probabilità della nascita di un maschio o di una femmina sia la stessa ogni volta:

!

p = q =12

(ossia il 50%).

Inoltre, ipotizziamo che la nascita di un bimbo di un dato sesso non influenzi il sesso dei successivi.

Possiamo assimilare la fila dei cinque figli ad una parola con tre M e due F. In ciascuna

parola ci sono cinque lettere: ogni lettera ha due alternative, quindi

!

25 = 32 “parole”

distinte. Quelle che ci servono hanno tre M e due F, che si ottengono anagrammando la

parola MMMFF in tutti i modi possibili. Otteniamo

!

5!3!"2!

=53

#

$ % % &

' ( ( =

52

#

$ % % &

' ( ( =

5 "41 "2

= 10 di questi

anagrammi.

Ne segue che la probabilità di avere tre maschi e due femmine (o viceversa) è:

10/32 = 5/16,

pari al 31,25%.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

38

Possiamo indicare con E l’evento: tre maschi e due femmine. Allora abbiamo trovato.

!

p E( ) =53

"

# $ $ %

& ' ' (p

3 (q2. Più in generale vale la seguente formula di Bernoulli:

!

p E( ) =nk

"

# $ $ %

& ' ' (p

k (qn-k

NOTA. Così come in Geometria si fa ricorso al disegno delle figure per illustrare la teoria,

in Probabilità si fa spesso ricorso al modello dell’urna che contiene palline di vari colori.

La probabilità di estrarre una pallina di dato colore è il rapporto tra il numero k di palline

di quel colore ed il numero totale di palline nell’urna.

ESERCIZIO 4.5. Supponiamo che nella famiglia precedente la nascita di una femmina

abbia probabilità doppia della nascita di un maschio. Quale sarebbe la probabilità di avere

tre maschi e due femmine?

Possiamo assimilare ogni nascita all’estrazione di una pallina di colore Marrone o Fuscsia da

un’urna in cui ci sono il doppio di palline fucsia rispetto alle marrone. Detto h il numero

delle palline marrone, le fucsia sono 2h, quindi in tutto 3h palline. Ci sono cinque urne,

tutte con la stessa situazione.

Allora

!

p =13

, q =23

. Gli anagrammi di MMMFF sono sempre 10, ma stavolta ogni M vale 1/3

ed ogni F vale 2/3, quindi la probabilità del nostro evento è:

!

p E( ) =53

"

# $ $ %

& ' ' (p

3 (q2 = 10 (13

"

# $ $ %

& ' '

3(

23

"

# $ $ %

& ' '

2=

40243

) 16, 46%

Che relazione c’è tra Statistica e Probabilità?

• Nella realtà non sappiamo a priori se il dado che lanciamo sia regolare o no: l’usura

o il dolo potrebbero avere modificato la probabilità di uscita dei sei numeri.

• Può accadere che la pallina di una roulette contenga del ferro e una calamita posta

sotto il piatto in corrispondenza di uno dei 37 numeri (da 0 a 36) aumenti la

probabilità che quel numero esca (si veda il film “I quattro dell’Ave Maria”).

• Un gestore disonesto potrebbe rendere ruvide o gelide o più pesanti alcune palline

dell’urna, in modo che la mano della persona bendata che le sceglie le possa

comunque riconoscere ed estrarre (è successo a Milano, nel lotto).

• Oppure, possiamo avere la convinzione che in caso di esperimenti ripetuti l’esito di

uno di essi influenzi in qualche modo i successivi.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

39

• Possiamo dover cercare se i dati ottenuti da esperimenti ripetuti siano casuali

oppure se ci sia una qualche regolarità.

• Assai spesso non abbiamo a disposizione l’intero spazio campionario, e quindi non

conosciamo la probabilità dei singoli eventi, ma possiamo cercare di ricavarla in

qualche modo.

ESEMPIO 4.8. Cerchiamo famiglie vere con cinque figli per valutare la frequenza con cui si

ritrovano tre maschi e due femmine.

Poiché si è calcolato che la probabilità p(E) dell’evento E = “tre maschi e due femmine” è

5/16 (il 31,25%), ci si attende che su un campione di 100 famiglie con 5 figli, ce ne siano

mediamente 31 con 3 maschi e due femmine.

In pratica non sarà così.

A seconda del campione scelto, il numero di quelle del tipo cercato può essere assai

variabile. Avremo cioè certamente una fluttuazione statistica.

Facciamo allora la seguente indagine: ciascuno dei 400 allievi del corso cerchi negli archivi

e nelle banche dati in giro per il mondo, un campione di 32 famiglie con 5 figli (per

facilitare i calcoli) e valuti la frequenza

!

fi E( ) , 1 ≤ i ≤ 400, dell’evento E = “tre figli maschi e

due femmine”.

Il valore atteso in ciascuna ricerca è 32⋅p(E) = 10.

Quello che accade, però, è che al variare delle campionature, i valori di

!

fi E( ) si distribuiscono intorno al

valore atteso 10.

Gli scarti

!

di = fi E( ) "10 dal valore atteso saranno tanto più rari quanto più sono

grandi in valore assoluto.

Ossia, sarà più facile trovare un campione di 32 famiglie con 12 del tipo richiesto (scarto

uguale a 2), piuttosto che 32 famiglie con 18 famiglie del tipo richiesto (scarto = 8) o 6

famiglie del tipo richiesto (scarto = - 4).

Lo scarto massimo è 22 (tutte le 32 famiglie esaminate hanno tre maschi e due femmine); il

minimo è -10 (nessuna delle 32 famiglie ha tre maschi e due femmine)

Ad ogni scarto

!

di = fi E( ) "10 associamo la sua frequenza relativa

!

f di( ) 400 sulle 400

rilevazioni, e riportiamo su una tabella gli scarti e le loro frequenze, nell’intervallo

!

"10,22[ ] . La frequenza massima dovrebbe averla lo scarto nullo.

La media aritmetica, la moda e la mediana degli scarti sono in tal caso uguali a zero.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

40

Detta σ la deviazione standard degli scarti, la maggior parte di essi è nell’intervallo [-σ,σ].

Che curva si delinea allora per le fluttuazioni statistiche, ossia per gli scarti? Una campana

di Gauss.

Lo stesso accade se valutiamo la frequenza dei valori di

!

fi E( ) da 0 a 32: il valore massimo

si ha per

!

fi E( ) = 10.

Se le ipotesi iniziali sono corrette e se il numero r di rilevazioni è sufficientemente alto e i campioni

di n famiglie con cinque figli sono scelti in modo casuale, la media m delle frequenze relative

!

fi E( ) n , ossia

!

m =1r

fi E( )n

i=1

r" , è circa uguale a p(E) = 5/16.

Ecco un possibile riassunto della nostra indagine: su 400 campioni di 32 famiglie con 5

figli, l’evento E = tre maschi e 2 femmine potrebbe avere il risultato seguente:

E/32 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 su 400 0 0 1 6 23 50 75 87 72 58 19 7 2 0 0

Il massimo della frequenza si ha proprio in corrispondenza a 10 su 32, che è anche la

moda, la media aritmetica e la mediana dei dati non nulli. La maggioranza dei dati si

addensa intorno alla media. Si ha m = 31,33% ≈ p(E).

CONSEGUENZE:

A) Spesso si può rovesciare il discorso: se non c’è a monte il calcolo teorico della

probabilità p(E) di un certo evento E, una indagine statistica basata sull’esame di un

numero r di campioni, ciascuno con n elementi, conduce a determinare la media

!

m =1r

fi E( )n

i=1

r" ed assumere questa come probabilità p(E) dell’evento E.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

41

B) In presenza del calcolo di p(E) sotto certe ipotesi, qualora la media

!

m =1r

fi E( )n

i=1

r" si

discosti significativamente da p(E) occorre ripensare la correttezza di quelle ipotesi.

Occorre però chiarire quel “significativamente”.

UNA CURIOSITÀ. La tabella mostrata poco fa non è frutto di una vera indagine su 400 campioni di 32

famiglie con 5 figli ciascuna, ma è stata ricavata con un procedimento ed una formula dovuti a Poisson, che

vedremo qui di seguito.

Il test di Poisson. Ha applicazioni naturalistiche e mediche, e si applica a dati che siano

numeri non negativi e non tutti nulli. In tal caso, la media aritmetica è m > 0 e possiamo

calcolare il rapporto v/m tra la varianza stimata e la media.

ESEMPIO 4.8. Eseguiamo una indagine su un roseto infestato dai "ragnetti rossi",

contando quanti ce ne sono su un campione di n foglie. Possiamo assimilare il conteggio su

ogni foglia ad un "esperimento". A questo punto è naturale usare il termine distribuzione a

proposito dei dati raccolti. Abbiamo alcune possibilità:

a) Su ogni foglia ci sono all'incirca lo stesso numero di parassiti. In tal caso la distribuzione

è detta uniforme, i dati coincidono (più o meno) con la loro media aritmetica m e

!

v " 0. In

questo caso, presa una foglia qualsiasi, si ha p ≈ 100% di probabilità di trovarvi m parassiti.

b) Se v/m >> 1, in modo rilevante, la distribuzione è detta aggregata o contagiosa: i dati si

addensano intorno ad uno o più valori.

c) Se infine v/m ≈ 1, la distribuzione è considerata casuale.

Nei primi due casi, si è portati ad esaminare meglio i motivi di queste distribuzioni: il caso

a) potrebbe suggerire una territorialità, che impone una distanza minima tra due individui;

il secondo, la presenza in certe zone di sostanze chimiche che attirano o allontanano i

parassiti.

Sia ora x il numero di parassiti su una foglia.

Se la distribuzione è casuale, cioè se v/m ≈ 1, la probabilità che su una foglia generica ci

siano h parassiti, cioè che si abbia x = h, è data dalla formula di Poisson:

!

p x = h( ) =mh "e#m

h!.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

42

Si osservi che

!

mh "e#m

h!h=0

$

% =mh

h!h=0

$

%&

'

( ( (

)

*

+ + + "e#m = em "e#m = 1 .

Ossia, la somma delle probabilità al variare di h∈N è uguale ad 1, come deve essere.

Si può poi porre

!

fh = p x = h( ) "n , dove n è il numero totale delle foglie: il numero

!

fh sarà il

numero atteso di foglie con h parassiti, ossia la frequenza attesa del dato h.

ESERCIZIO 4.9. Per una distribuzione di Poisson di media

!

m = 8, qual è la probabilità per

la variabile x di assumere il valore

!

h = 5? Se i dati sono 1000 in tutto, qual è il valore atteso

di dati uguali ad h?

Risposta:

!

p x = 5( ) =85 "e#8

5!=

4096 "e#8

15$ 0,0916, quindi su 1000 dati il valore atteso di

dati uguali a 5 è

!

f " 0,0916 #1000 = 91,6 " 92.

ESEMPIO 4.10. Nel caso di individui distribuiti su un'area continua si può suddividere la

zona in porzioni equivalenti fra loro e contare gli individui su ogni porzione. Si ottengono

tabelle assimilabili alle liste precedenti.

Lo stesso procedimento si usa anche per distribuzioni spaziali, da suddividere in

parallelogrammi con lo stesso volume.

Negli esempi della pagina seguente, con l’uso di un antico software si sono distribuiti 500

punti su un rettangolo suddiviso in 25 sottorettangoli uguali. Il numero dei punti di

ciascuno di essi è contato elettronicamente e, per comodità, i dati anziché in riga sono

disposti in matrici che riproducono le posizioni dei rettangolini corrispondenti.

• Nel primo di essi la distribuzione è casuale, cioè v/m ≈ 1.

• Il secondo esempio presenta una distribuzione uniforme, con v/m ≈ 0.

• Il terzo è un esempio di distribuzione aggregata, con v/m molto maggiore di 1.

Esempi come questi hanno importanza nel campo della ricerca medica ed in ambito

naturalistico.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

43

a) 500 dati distribuiti casualmente in 25 rettangoli uguali:

punti: 500 media: 20 varianza: 19,29 v/m: 0,9645

b) 500 dati distribuiti uniformemente:

punti: 500 media: 20 varianza: 3,54 v/m: 0,177

c) 500 dati distribuiti in modo aggregato:

punti: 500 media: 20 varianza: 573,33 v/m: 28,66

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

44

IL TEST

!

"2 DI PEARSON.

Si tratta di un test di largo uso per confrontare una serie di dati con una loro

interpretazione. Si usa per liste di dati, ma anche per tabelle (ossia matrici) di contingenza

ESEMPIO 4.11. Lanciamo un dado. Sappiamo che se non è truccato o irregolare, la

probabilità di uscita di ogni numero da 1 a 6 è 1/6.

Eseguiamo 600 lanci: ci attendiamo che ogni numero esca 100 volte. In realtà, i risultati

reali sono un po’ diversi.

Per ogni numero riportiamo la sua frequenza, la differenza rispetto al valore atteso elevata

al quadrato e divisa per il valore atteso 100. Sommiamo ogni colonna:

esito frequenza val. atteso scarto scarto^2 /val. att. 1 99 100 -1 1 0,01 2 113 100 13 169 1,69 3 84 100 -16 256 2,56 4 101 100 1 1 0,01 5 113 100 13 169 1,69 6 90 100 -10 100 1

Somma: 600 600 0 696 6,96

Il numero 696, uguale alla somma dei quadrati degli scarti dalla media, è la devianza, vista

a suo tempo. Il numero 6,96 è detto

!

"2.

Abbiamo eseguito 600 lanci: se conosciamo le frequenze dei primi cinque esiti, possiamo

dedurne il sesto, perciò solo cinque frequenze sono indipendenti: diremo che in questo

caso ci sono 5 gradi di libertà .

Il numero finale

!

"2 = 6,96 va ora confrontato con apposite tabelle, ottenute attraverso

integrali fuori della nostra portata.

L’ipotesi di partenza è che il dado sia regolare (detta ipotesi nulla), cioè che il risultato

dei 600 lanci rientri nelle fluttuazioni statistiche casuali.

Il test di Pearson dice che con 5 gradi di libertà in caso di dado regolare si ha

!

p "2 # 6,63$

% &

'

( ) * 0,25. Qui si ha

!

"2 = 6,96. Ci sono quindi forti dubbi che il dado sia regolare,

ma non possiamo escluderlo.

Per escludere la regolarità del dado, la soglia è 0,05, ossia il 5%: se la probabilità corrispondente al nostro

!

"2 e ai gradi di libertà fosse risultata minore, avremmo potuto concludere che il dado non è regolare.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

45

ESEMPIO 4.12. Se applichiamo il test di Pearson all’indagine sulle famiglie con cinque figli

di cui abbiamo parlato a suo tempo, su

!

400 * 32 = 12.800 famiglie esaminate ne abbiamo

trovate 4010 con 3 maschi e due femmine (cfr pag. 40).

famiglia frequenza val. atteso scarto scarto^2 /valore atteso E 4010 4000 10 100 0,025 non E 8790 8800 -10 100 0,011364 Somma: 12800 12800 0 200 0,036364

Qui abbiamo un solo grado di libertà. Dalle tabelle si ha:

p(

!

"2 ≤ 0,039) ≥ 0,95. Qui,

!

"2 ≈ 0,036. Perfetto: la piccola differenza dai valori attesi rientra

nella casualità e l’ipotesi nulla è confermata da questa campionatura: la probabilità che

l’ipotesi nulla sia vera è infatti superiore al 95%.

Per semplificare molto la teoria, se la probabilità corrispondente al valore trovato di

!

"2 è minore

del 5% l’ipotesi nulla è respinta. Se è superiore al 95% è confermata.

Il test

!

"2 di Pearson è influenzato sia dal numero di gradi di libertà, sia dal numero di

prove realmente effettuate. All’aumentare di queste ultime il valore di

!

"2 tende ad

aumentare, ma per contro, se l’ipotesi nulla è vera, si suppone che le frequenze si

avvicinino sempre più ai valori attesi calcolati teoricamente sulla base della Teoria della

Probabilità.

Se i valori attesi sono numeri minori di 50, occorre fare attenzione: occorrerebbe modificare un poco la

procedura introducendo coefficienti correttivi. Se i dati sono troppo pochi, il test non è applicabile.

ESERCIZIO 4.13. Lanciamo per 200 volte una moneta, ottenendo testa per 115 volte e

croce per 85 volte. L’ipotesi nulla è che la moneta sia regolare, quindi ogni faccia è attesa

per 100 volte. I dati sono però i seguenti:

faccia frequenza val. att. scarto scarto^2 / 100 testa 115 100 15 225 2,25 croce 85 100 -15 225 2,25 somme: 200 200 0 450 4,5

Anche qui c’è un solo grado di libertà. Dalle tabelle si ricava:

p(

!

"2 ≥ 3,84) ≤ 0,05 = 5%.

Qui si ha

!

"2 = 4,5. Alllora, la probabilità che la moneta sia regolare è inferiore al 5%.

L’ipotesi nulla è da respingere.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

46

TABELLE DI CONTINGENZA

Abbiamo visto finora il test di Pearson per stimare la casualità o la sistematicità delle

fluttuazioni delle frequenze di una lista di dati rispetto ai valori calcolati mediante la

Teoria della Probabilità. Si tratta in quel test di calcolare il valore di

!

"2, che dipende sia dal

valore degli scarti, sia dal numero dei gradi di libertà. Si tratta cioè di una funzione di due

variabili. Vediamo allora qualche nozione, che poi servirà anche per le tabelle di

contingenza.

Siano A e B due insiemi non vuoti; una funzione

!

f : A " B # R è un caso particolare di

funzione di due variabili,

!

z = f a, b( ) , con a∈A, b∈B.

Consideriamo il caso particolare di A e B insiemi finiti,

!

A = ai 1 " i " m{ } ,

!

B = bj 1 " j " n{ } .

Possiamo descrivere f mediante una matrice

!

Hf di tipo m×n, tale che nella casella di posto

(i,j) c’è

!

f ai, bj( ) .

Le operazioni aritmetiche tra due funzioni

!

f, g : A " B # R si traducono allora in operazioni

“casella per casella” o “dirette” tra le loro matrici

!

Hf e

!

Hg .

Se uno dei due insiemi è infinito, non si possono descrivere le funzioni tramite matrici, ma

occorre una formula che permetta di calcolarne i valori.

Tuttavia, talvolta i valori sono ottenuti solo attraverso calcolo numerico di integrali, ed

allora si riportano i valori di f per alcuni particolari valori delle due variabili, ottenendo

una tabella che, se necessario, può essere migliorata per interpolazione lineare, esattamente

come si fa per la funzione di Gauss (che dipende da ben tre variabili, µ, σ, x), o, appunto,

per la funzione di Pearson, che dipende da una variabile discreta ed una continua:

!

"2 = "2 gl, p( ) .

La prima è il numero dei gradi di libertà gl∈

!

N+.

La seconda è la probabilità p∈[0, 1].

Per ogni valore di gl, la funzione è decrescente:

!

p1 > p2 " #2 gl, p1( ) < #2 gl, p2( )

La tabella allegata contiene valori della funzione

!

"2 per gl da 1 a 45, e alcuni valori di p da

0,995 a 0,001.

Si usa di solito per risolvere l’equazione

!

k = "2 gl, p( ) nell’incognita p, conoscendo il numero

gl dei gradi di libertà e il valore k di

!

"2.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

47

G.L.\ P 0.995 0.990 0.975 0.950 0.900 0.75 0.50 0.25 0.10 0.05 0.025 0.01 0.005

1 0.39E-4 0.00016 0.00098 0.0039 0.0158 0.102 0.455 1.32 2.71 3.84 5.02 6.63 7.88 2 0.0100 0.0201 0.0506 0.103 0.211 0.575 1.39 2.77 4.61 5.99 7.38 9.21 10.6 3 0.0717 0.115 0.216 0.352 0.584 1.21 2.37 4.11 6.25 7.81 9.35 11.3 12.8 4 0.207 0.297 0.484 0.711 1.06 1.92 3.36 5.39 7.78 9.49 11.1 13.3 14.9 5 0.412 0.554 0.831 1.15 1.61 2.67 4.35 6.63 9.24 11.1 12.8 15.1 16.7 6 0.676 0.872 1.24 1.64 2.20 3.45 5.35 7.84 10.6 12.6 14.4 16.8 18.5 7 0.989 1.24 1.69 2.17 2.83 4.25 6.35 9.04 12.0 14.1 16.0 18.5 20.3 8 1.34 1.65 2.18 2.73 3.49 5.07 7.34 10.2 13.4 15.5 17.5 20.1 22.0 9 1.73 2.09 2.70 3.33 4.17 5.9 8.34 11.4 14.7 16.9 19.0 21.7 23.6 10 2.16 2.56 3.25 3.94 4.87 6.74 9.34 12.5 16.0 18.3 20.5 23.2 25.2 11 2.60 3.05 3.82 4.57 5.58 7.58 10.3 13.7 17.3 19.7 21.9 24.7 26.8 12 3.07 3.57 4.40 5.23 6.30 8.44 11.3 14.8 18.5 21.0 23.3 26.2 28.3 13 3.57 4.11 5.01 5.89 7.04 9.3 12.3 16.0 19.8 22.4 24.7 27.7 29.8 14 4.07 4.66 5.63 6.57 7.79 10.2 13.3 17.1 21.1 23.7 26.1 29.1 31.3 15 4.60 5.23 6.26 7.26 8.55 11.0 14.3 18.2 22.3 25.0 27.5 30.6 32.8 16 5.14 5.81 6.91 7.96 9.31 11.9 15.3 19.4 23.5 26.3 28.8 32.0 34.3 17 5.70 6.41 7.56 8.67 10.1 12.8 16.3 20.5 24.8 27.6 30.2 33.4 35.7 18 6.26 7.01 8.23 9.39 10.9 13.7 17.3 21.6 26.0 28.9 31.5 34.8 37.2 19 6.84 7.63 8.91 10.1 11.7 14.6 18.3 22.7 27.2 30.1 32.9 36.2 38.6 20 7.43 8.26 9.59 10.9 12.4 15.5 19.3 23.8 28.4 31.4 34.2 37.6 40.0 21 8.03 8.90 10.3 11.6 13.2 16.3 20.3 24.9 29.6 32.7 35.5 38.9 41.4 22 8.64 9.54 11.0 12.3 14.0 17.2 21.3 26.0 30.8 33.9 36.8 40.3 42.8 23 9.26 10.2 11.7 13.1 14.8 18.1 22.3 27.1 32.0 35.2 38.1 41.6 44.2 24 9.89 10.9 12.4 13.8 15.7 19.0 23.3 28.2 33.2 36.4 39.4 43.0 45.6 25 10.5 11.5 13.1 14.6 16.5 19.9 24.3 29.3 34.4 37.7 40.6 44.3 46.9 26 11.2 12.2 13.8 15.4 17.3 20.8 25.3 30.4 35.6 38.9 41.9 45.6 48.3 27 11.8 12.9 14.6 16.2 18.1 21.7 26.3 31.5 36.7 40.1 43.2 47.0 49.6 28 12.5 13.6 15.3 16.9 18.9 22.7 27.3 32.6 37.9 41.3 44.5 48.3 51.0 29 13.1 14.3 16.0 17.7 19.8 23.6 28.3 33.7 39.1 42.6 45.7 49.6 52.3 30 13.8 15.0 16.8 18.5 20.6 24.5 29.3 34.8 40.3 43.8 47.0 50.9 53.7 31 14.5 15.7 17.5 19.3 21.4 25.4 30.3 35.9 41.4 45.0 48.2 52.2 55.0 32 15.1 16.4 18.3 20.1 22.3 26.3 31.3 37.0 42.6 46.2 49.5 53.5 56.3 33 15.8 17.1 19.0 20.9 23.1 27.2 32.3 38.1 43.7 47.4 50.7 54.8 57.6 34 16.5 17.8 19.8 21.7 24.0 28.1 33.3 39.1 44.9 48.6 52.0 56.1 59.0 35 17.2 18.5 20.6 22.5 24.8 29.1 34.3 40.2 46.1 49.8 53.2 57.3 60.3 36 17.9 19.2 21.3 23.3 25.6 30.0 35.3 41.3 47.2 51.0 54.4 58.6 61.6 37 18.6 20.0 22.1 24.1 26.5 30.9 36.3 42.4 48.4 52.2 55.7 59.9 62.9 38 19.3 20.7 22.9 24.9 27.3 31.8 37.3 43.5 49.5 53.4 56.9 61.2 64.2 39 20.0 21.4 23.7 25.7 28.2 32.7 38.3 44.5 50.7 54.6 58.1 62.4 65.5 40 20.7 22.2 24.4 26.5 29.1 33.7 39.3 45.6 51.8 55.8 59.3 63.7 66.8 41 21.4 22.9 25.2 27.3 29.9 34.6 40.3 46.7 52.9 56.9 60.6 65.0 68.1 42 22.1 23.7 26.0 28.1 30.8 35.5 41.3 47.8 54.1 58.1 61.8 66.2 69.3 43 22.9 24.4 26.8 29.0 31.6 36.4 42.3 48.8 55.2 59.3 63.0 67.5 70.6 44 23.6 25.1 27.6 29.8 32.5 37.4 43.3 49.9 56.4 60.5 64.2 68.7 71.9 45 24.3 25.9 28.4 30.6 33.4 38.3 44.3 51.0 57.5 61.7 65.4 70.0 73.2

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

48

Veniamo ora alle tabelle di contingenza. Sono matrici

!

Hf associate a funzioni

!

f : A " B # R

tra due insiemi finiti A e B, contenenti di solito le frequenze

!

f ai, bj( ) di coppie

!

ai, bj( ) " A # B , ricavate sperimentalmente.

Questa tabella

!

Hf va poi confrontata con un’altra,

!

H0, dello stesso tipo m×n, ricavata da un

possibile modello ideale, che può derivare dal calcolo delle probabilità, ove possibile,

oppure da opportune ipotesi di lavoro (ipotesi nulla o ipotesi zero). Ecco il procedimento:

- Si determina la matrice

!

Hf

- Si pone

!

gl =

m "1 se n = 1n "1 se m = 1

m "1( ) # n "1( ) se m,n > 1

$

% &

' &

- Si calcola la matrice

!

H0 (che ha gli elementi ≠ 0) - Si calcola

!

Hf "H0

- Si eleva al quadrato ogni suo elemento:

!

Hf "H0( )2

- Si divide per

!

H0:

!

Hf "H0( )2 H0

- Si sommano gli elementi di quest’ultima matrice e si ottiene il numero

!

k = "2 gl, p( ) ,

con p incognito, da ricavare sulla tabella.

- Se p < 0,05, l’ipotesi nulla è da respingere.

ESEMPIO 4.14. Vogliamo verificare se ci sono differenze significative negli effetti di 3

antiparassitari su 80 rosai affetti dai ragnetti rossi. L’insieme A è costituito dai tre

antiparassitari, che chiameremo a, b, c. L’insieme B è costituito dalle due categorie di rosai,

sottoposti in tre gruppi ai tre prodotti: i migliorati (m) e i non migliorati (nm).

La matrice

!

Hf , di tipo 3×2, ricavata dagli esperimenti, sia:

!

m nm totalia 18 10 28b 20 12 32c 12 8 20

totali 50 30 80

" Hf =

18 1020 1212 8

#

$ %

&

' (

L’ipotesi nulla sia la seguente: i tre farmaci hanno circa gli stessi effetti sul miglioramento

dei rosai. Allora la probabilità di miglioramento sarà ipotizzabile in

!

p =5080

=58

= 0,625.

Quella di non miglioramento sarà

!

q = 1"p =38

= 0,475.

Nei tre casi, i valori attesi di migliorati o no si ottengono moltiplicando per p e per q il

totale dei rosai testati: per il farmaco a si ha p⋅28 = 35/2 = 17,5; q⋅28 = 21/2 = 10,5.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

49

E così via:

!

m nm totalia 17,5 10,5 28b 20 12 32c 12,5 7,5 20

totali 50 30 80

" H0 =

17,5 10,520 12

12,5 7,5

#

$ %

&

' ( (i valori attesi sono minori di 50, ma per

esercizio procediamo ugualmente).

!

Hf "H0 =

18 1020 1212 8

#

$ %

&

' ( "

17,5 10,520 12

12,5 7,5

#

$ %

&

' ( =

0,5 "0,50 0

0,5 "0,5

#

$ %

&

' ( ,

!

Hf "H0( )2=

0,5 "0,50 0

0,5 "0,5

#

$ %

&

' ( )

0,5 "0,50 0

0,5 "0,5

#

$ %

&

' ( =

0,25 0,250 0

0,25 0,25

#

$ %

&

' (

!

Hf "H0( )2: H0 =

0,25 0,250 0

0,25 0,25

#

$

% % %

&

'

( ( ( :

17,5 10,520 12

12,5 7,5

#

$

% % %

&

'

( ( (

=

0, 014 0, 0240, 000 0, 0000, 020 0, 033

#

$ %

&

' ( .

I gradi di libertà sono (3-1)⋅(2-1) = 2. La somma dei sei numeri della matrice finale è 0,091.

Pertanto:

!

"2 2, p( ) = 0, 091.

Nella seconda riga della tabella troviamo che 0,091 è compreso tra 0,0506 e 0,103, quindi

0,975 > p > 0,950.

G.L.\ P 0.995 0.990 0.975 0.950 0.900

1 … … … … … 2 0.0100 0.0201 0.0506 0.103 …

Se si vuole stimare meglio il valore di p si può usare l’interpolazione lineare: si calcola la retta passante per i

due punti (0.0506; 0.975 ) e (0.103; 0.950), mediante la solita formula:

!

y " 0, 9750, 950 " 0, 975

=x " 0, 0506

0,103" 0, 0506, che

dà, per x = 0,091, il valore di p = y ≈ 0,956.

Ma non è necessario: per respingere l’ipotesi nulla doveva risultare p ≤ 0,05. Qui

addirittura è quasi certo che i tre antiparassitari hanno effetti simili sui rosai (anche se,

ripeto, i valori attesi minori di 50 avrebbero richiesto un correttivo).

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

50

§ 5. IL CASO CONTINUO

Dobbiamo porci ora in un’ottica diversa: considerare un esperimento aleatorio che abbia

come esito una variabile x, che possa assumere tutti i valori da −∞ a +∞.

Ossia, Ω = R = ]−∞, +∞[.

Ciascun esito x abbia una densità di probabilità p(x) di uscire.

La probabilità di un evento E, che supponiamo sia un insieme di esiti x costituenti per

esempio un intervallo [a, b], sarà allora data da

!

p E( ) = p x( )dxa

b" .

La probabilità dell’evento certo deve essere 1, quindi deve essere

!

1 = p "( ) = p x( )dx-#

+#$ , e

questo è un integrale generalizzato. Ossia

!

limk"#

p x( )dx-k

k$ = 1.

Ci sono poi altre complicazioni, che avvicinano il calcolo delle probabilità continuo a quello

della misura di un’area sul piano.

Pertanto, non di tutti gli eventi è possibile calcolare la loro probabilità, così come non per

tutte le figure piane si può calcolare l’area.

In numerosi casi, che si ritrovano in quasi tutte le discipline scientifiche, la funzione che

descrive p(x) è una Gaussiana. Le funzioni gaussiane sono state presentate nel terzo

capitolo, come funzioni del tipo

!

y = ea "x2 +b"x+c, con

!

a < 0, per descrivere grafici con una

forma a campana.

Sia

!

x il suo punto di massimo assoluto. Poiché la curva è simmetrica rispetto ad

!

x , ed ha

due punti di flesso, denotiamo con

!

"x la distanza di questi due punti da

!

x . Ossia, le ascisse

dei flessi sono

!

x " #x e

!

x + "x .

Naturalmente, non è possibile calcolare tutti gli esiti possibili di un esperimento aleatorio,

soprattutto nel caso continuo; pertanto come visto nell’esempio delle famiglie, si eseguono

m campionature, per ciascuna si calcolano la media e la deviazione standard, e si calcolano

infine la media

!

x delle medie e come

!

"x si esegue la somma delle deviazioni standard

divisa per

!

m .

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

51

Dal punto di vista statistico,

!

x e

!

"x rappresentano rispettivamente la media aritmetica e la

deviazione standard dell’insieme dei valori assunti dalla variabile aleatoria x, ossia degli

esiti del nostro campionamento.

La funzione di Gauss più semplice è

!

y = e"x2. Il suo massimo si ha per

!

x = 0, i punti di

flesso si calcolano annullando la derivata seconda

!

" " y = 2 # 2x2 $1%

& '

(

) * #e$x2

, perciò

!

"x =12

.

Infine,

!

e"x2dx

-#

+#$ = % & 1,77245.

Ne segue che occorre adattare i coefficienti a, b, c in modo che sia una funzione di

probabilità con media

!

x e deviazione standard

!

" = "x , e l’area della parte di piano

compresa tra la curva e l’asse x sia 1.

Si ottiene: c

!

y =1

" # 2$#e%12#

x%x "

&

' ( (

)

* + +

2

c .

Una distribuzione di esiti x con una frequenza relativa (assunta come densità di

probabilità) che abbia questo andamento è detta distribuzione normale o gaussiana.

Si noti che l’evento

!

E = x x " # $ x $ x + #{ } ha probabilità:

!

p E( ) =1

" # 2$#e%12#

x%x "

&

' ( (

)

* + +

2

dxx -"

x +", - 0,682689

qualunque siano

!

x e σ. Invece, per l’intervallo

!

E = x x "2# $ x $ x + 2#{ } si ha

!

p E( ) " 0,95

Ecco tre grafici sovrapposti, con m =

!

x e σ differenti, per vedere come il variare dei due

parametri possa cambiare la distribuzione.

Per ottenere poi la frequenza di un campione di r esiti x con media m e scarto quadratico

medio σ occorre moltiplicare ogni p(x) per r.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

52

ESEMPIO 5.1. Per una distribuzione di dati con media

!

m = x = 10 e scarto quadratico

medio

!

" =610

# 1,89737 si ottiene la funzione gaussiana:

!

y =1

" # 2$#e%12#

x%x "

&

' ( (

)

* + +

2

=5

6 # $#e%

536

# x%10( )2,

e%

x%10( )2

7,2#

4,75599

Moltiplichiamo per 400 i valori di questa funzione e arrotondiamo agli interi:

x 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 p(x)*400 0 1 3 9 24 48 73 84 73 48 24 9 3 1 0

La tabella è simile a quella della pag. 40 della sezione precedente.

ESEMPIO 5.2. Una grandezza (o variabile aleatoria continua) x ha densità di probabilità

(o frequenza relativa)

!

y = p x( ) con distribuzione normale, ossia gaussiana, di media

!

x = 6 e

deviazione standard

!

"x = 1. Si scriva l’equazione della gaussiana normalizzata con questi

due parametri e se ne indichi il massimo. Si dica poi quale probabilità abbiamo di trovare

per x

a) un valore compreso tra 5 e 6;

b) un valore compreso tra 6 ed 8;

c) un valore minore di 5.

Risposta: La funzione è

!

y =1

" # 2$#e%12#

x%x "

&

' ( (

)

* + +

2

=12$

#e%12# x%6( )2

. Il massimo si ha per x = 6 e

vale

!

12"

# 0,16. Inoltre, ricordando che

!

p 5,7[ ]( ) " 0,6826 e

!

p 4,8[ ]( ) " 0,954 , e che la

curva è simmetrica rispetto ad x = 6, si ha:

a)

!

p 5,6[ ]( ) " 0,68262

= 0,3413

b)

!

p 6,8[ ]( ) " 0,9542

= 0,477

c)

!

p "#,5[ ]( ) =p R \ 5,7[ ]( )

2$

1" 0,68262

= 0,1587

NOTA: Nel misurare una caratteristica (per esempio il peso) di animali adulti della stessa specie, può

accadere che si trovi una curva delle frequenze non gaussiana: in particolare, essa può presentare due

massimi relativi diversi. Ciò può significare che c’è dimorfismo sessuale oppure ci sono due popolazioni

diverse, in ciascuna delle quali, se valutata separatamente, troveremmo una gaussiana. Non entriamo però

in questo argomento, che pure è di primaria importanza naturalistica.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

53

CAMPIONAMENTI

Se si ha a disposizione la totalità dei dati, si possono calcolare la media aritmetica e la

deviazione standard direttamente, come abbiamo visto in esempi ed esercizi.

Nella gran parte delle applicazioni della statistica però non si ha a disposizione la gamma

completa dei dati, o perché sono troppi per essere valutati, o perché è difficile procurarseli

per qualche impedimento.

ESEMPIO: su una enciclopedia naturalistica si legge una scheda relativa alla specie Gnu

azzurro, che popola numerosa le savane dell’Africa centrale e compie grandi migrazioni

stagionali. Si leggono dati quali il peso medio di un adulto, l’altezza al garrese, ecc. Poiché

nel solo parco del Serengeti ci sono (o c’erano negli anni ’70) un milione circa (?) di gnu,

come avranno fatto i naturalisti a indicare questi dati? Semplice: hanno catturato tutti gli

gnu, hanno controllato la loro data di nascita per sapere se erano adulti, li hanno pesati e

misurati uno per uno e poi li hanno rilasciati; dopodiché hanno calcolato le medie

aritmetiche e le deviazioni standard delle varie grandezze misurate …

Ovviamente non è così. Come hanno fatto? Come nell’esempio della famiglia con cinque

figli vista nel cap. 4: hanno scelto dei campioni. Però c’è una differenza: in quel caso c’era

già un calcolo di Teoria della Probabilità alle spalle, che anticipava il risultato. In questo

caso no. Allora è necessario limitarsi a scegliere dei campioni e, cosa non facile, fare scelte

in modo che siano rappresentative della popolazione intera.

La cosa che aiuta è che se la popolazione sotto esame è omogenea, le grandezze seguono la

distribuzione normale, o altrimenti detta gaussiana, in cui media aritmetica µ, moda e

mediana coincidono.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

54

Operiamo allora in modo di scegliere campioni casuali di equale numerosità, ossia con lo

stesso numero n di individui. Per ciascun campione misuriamo la grandezza che ci

interessa, per esempio il peso, di ogni individuo e calcoliamo la media m e la deviazione

standard del campione. Poi calcoliamo la media M delle medie. Che cosa otteniamo?

• Se avessimo un solo campione comprendente tutta la popolazione avremmo una sola

media M coincidente con la media µ della popolazione.

• Se avessimo tanti campioni, di un solo individuo ciascuno, quanti sono gli individui,

allora ogni media m coinciderebbe con l’unico dato e la media M delle medie sarebbe

uguale alla media µ della popolazione.

• Più in generale, se potessimo ripartire l’intera popolazione in k campioni di n individui

ciascuno, un semplice calcolo aritmetico mostra che la media M delle medie è uguale alla

media µ della popolazione.

In generale non è così, perché i campioni non sono a due a due disgiunti e non coinvolgono

l’intera popolazione, ma quasi: il teorema del limite centrale afferma infatti che:

Le medie dei campioni sono distribuite “normalmente” (ossia su una gaussiana)

con media M uguale alla media µ di popolazione.

Nei testi di Statistica si legge inoltre che la varianza delle medie è direttamente

proporzionale alla varianza di popolazione e inversamente proporzionale al numero delle

osservazioni con cui ogni media è stata costruita.

In altri termini, la maggior parte dei dati giace attorno alla media; se una popolazione ha

bassa varianza, il campionamento sarà costituito da osservazioni poco distanti l’una dalle

altre; viceversa nel caso opposto; analogamente, si ha bassa varianza se il numero di

osservazioni in ogni campione è sufficientemente elevato (e in tal caso, la varianza v, di

peso n-1, e la varianza

!

"2, di peso n, sostanzialmente coincidono).

Riassumendo: siano µ e σ la media e la deviazione standard della popolazione; n il

numero dei dati in ogni campione, M la media delle medie dei singoli campioni,

!

"M la

deviazione standard delle medie. Allora, se n è “grande”:

µ ≈ M,

!

" # "M $ n .

NOTE. a) La media delle varianze dei vari campioni e la varianza delle medie si possono ritenere

coincidenti.

b) Un ostacolo è l’applicare al caso discreto modelli continui, con ovvie necessità di approssimazioni.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

55

§6. ESERCIZI

Vediamo qui due liste di esercizi. La prima contiene alcuni esempi riassuntivi immediatamente svolti

di uso delle formule e delle metodologie viste nel corso. La seconda parte invece contiene esercizi

non svolti immediatamente, ma con le soluzioni allegate in fondo. L’argomento non sarà di solito a

carattere naturalistico, ma non importa.

6.1. ESEMPI RIASSUNTIVI

6.1.A) Nel mio condominio le letture dei contatori dell’acqua calda e fredda sono eseguite

una volta l’anno in ciascun appartamento dai capi-scala, in modo da poter calcolare per

ciascun condomino il suo consumo ed addebitargli in bilancio consuntivo il costo

corrispondente.

Per agevolare il lavoro dei capi-scala, per ogni condomino e per ogni contatore sono

calcolati il consumo medio µ e la deviazione standard σ degli ultimi sei anni.

Si fa l’ipotesi che ogni consumo individuale segua una distribuzione gaussiana di media µ e

scarto quadratico medio σ.

Detta L la lettura dell’anno precedente, si fornisce quindi al capo scala l’intervallo [L+µ-σ,

L+µ+σ].

Il valore atteso della lettura è L+µ, ma ci sono ovviamente almeno le fluttuazioni statistiche.

Se nulla è cambiato nel menage familiare (niente nascite, decessi, matrimoni, divorzi, figli

che se ne vanno, lavatrici più efficienti, perdite, lavastoviglie ecc.), c’è il 68% di probabilità

che la nuova lettura sia entro quell’intervallo.

Se ciò non accade, si controlla che il nuovo consumo sia entro l’intervallo [µ-2σ, µ+2σ]: in

assenza di novità, c’è il 95% di probabilità che sia così.

Se è al di fuori, si rilegge il contatore o si cercano informazioni per giustificare un dato così

lontano dalle attese. Ciò posto, ecco i dati dei consumi di acqua calda per la cucina di tre

illustri condomini dal 2003 al 2009:

nomi Cons. 2003

Cons. 2004

Cons. 2005

Cons. 2006

Cons. 2007

Cons. 2008 medie scarti

letture 2008

min. lettura

max. lettura

letture 2009

Cons. 2009

CESARE 9 7 9 5 3 5 6 2 16 20 24 21 5 POMPEO 18 16 15 19 13 15 16 2 55 69 73 67 12 CRASSO 9 10 10 12 12 7 10 2 52 60 64 82 30

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

56

Che cosa ci va nelle caselle bianche? Il consumo è “normale”, oppure è poco o molto fuori

norma? Vediamo:

Per Cesare si ha:

!

µ =9 + 7+ 9 + 5+ 3+ 5

6=

386

=193

" 6,3;

!

" =16

81+ 49 + 81+ 25+ 9 + 25( ) # 3819

= 45# 3819

=249

=23

6 $ 1, 6

Quindi:

µ-σ = 6,3-1,6 = 4,7; µ+σ = 6,3+1,6 = 7,9.

Poiché però i dati sono numeri interi, arrotondiamo tutto a zero cifre decimali: µ=6, σ=2,

quindi µ-σ = 4, µ+σ = 8.

La lettura 2008 era 16, quindi la lettura 2009 era attesa entro l’intervallo

!

20,24[ ] . La lettura 2009 in effetti fu 21 ed il consumo 5, entro i limiti, (nonostante un trend al

ribasso dei consumi negli ultimi quattro anni.)

Si procede analogamente con gli altri due condomini:

nomi Cons. 2003

Cons. 2004

Cons. 2005

Cons. 2006

Cons. 2007

Cons. 2008 medie scarti

letture 2008

min. lettura

max. lettura

letture 2009

Cons. 2009

CESARE 9 7 9 5 3 5 6 2 16 20 24 21 5 POMPEO 18 16 15 19 13 15 16 2 55 69 73 67 12 CRASSO 9 10 10 12 12 7 10 2 52 60 64 82 30

Si noti che Pompeo è leggermente più basso, ma rientra nell’intervallo [µ-2σ, µ+2σ] e

potrebbe ancora essere una fluttuazione statistica.

Invece Crasso è proprio fuori: qualcosa che non va c’è e merita una ulteriore indagine.

(In effetti, risultò che Crasso abitava quell’appartamento solo dal 2009. I dati dei sei anni

precedenti si riferivano alla famiglia che vi abitava prima di lui).

6.1.B) Vorremmo pesare con una certa accuratezza un oggetto. Una bilancia da cucina può

fornire una stima del peso, ma con un intervallo di 10 grammi: il risultato è compreso fra

100 e 110 grammi. Se assumiamo come peso dell’oggetto la media aritmetica, 105 grammi,

commettiamo un errore massimo di 5 grammi, pari a un po’ meno del 5%.

Abbiamo anche una bilancia a due bracci. Non abbiamo

dei pesi a disposizione, ma solo delle palline di un

qualche metallo, tutte uguali, ed una scatola per

contenerle. (La scatola è necessaria, altrimenti

ruzzolerebbero via).

Se potessimo valutare il peso di ogni pallina e quello del recipiente, potremmo usarli per

pesare l’oggetto. Come fare?

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

57

Siano m il peso di una pallina e q il peso della scatola.

Allora, x palline nella scatola pesano

!

y = m " x + q grammi. Possiamo fare alcune pesate sulla

bilancia da cucina, mettendo nella scatola numeri diversi di palline e ricavando ogni volta il

peso y arrotondato alla decina di grammi più prossima. Ecco la tabella ed il grafico:

!

x y20 9025 11030 13035 15040 160

Per trovare m e q applichiamo il metodo dei minimi quadrati (si veda il cap. III):

!

x = 30,

!

y = 128;

!

"x = 50 = 5 2 ,

!

"y = 656 = 4 41 ,

!

cxy = 180.

Allora:

!

m =cxy

"x2

=18050

= 3,5 è il peso di ogni pallina.

Infine,

!

q = y "m # x = 128 "3,5 #30 = 23 è il peso della scatola.

Si ha poi

!

r =cxy

"x # "y=

18050 #656

=9 8282

$ 0,994 , assai buono.

Posto su un piatto della bilancia a bracci l’oggetto da pesare e sull’altro la scatola con le

palline, si vede che 37 palline sono poche e 38 sono troppe. Perciò il peso dell’oggetto è

compreso tra

!

3,5 "37#23 = 106,5 e

!

3,5 "38 #23 = 110 grammi.

La media è di 108,25 grammi, che possiamo assumere come stima del peso dell’oggetto.

L’errore compiuto è al massimo 3,5:2 = 1,75 grammi, pari all’1,61%. Questa misura è più

accurata dell’altra.

6.1.C) Se si ha a disposizione la totalità dei dati si possono calcolare la media aritmetica e la

deviazione standard direttamente. Per quel che riguarda i consumi dell’acqua,

l’amministratore può farlo per l’intero insediamento: per l’acqua calda in cucina nel 2010

la somma dei consumi individuali fu

!

C = 1232 m3 ; divisa per 162 condomini diede la media

!

µ = 7, 6 m3, con deviazione standard

!

" = 6,1 m3.

Le scale sono 9, ciascuna con 18 appartamenti.

scale 1 2 3 4 5 6 7 8 9 Media: consumi 132 121 127 113 170 80 168 116 205 136,9 medie indiv. 7,3 6,7 7,1 6,3 9,4 4,4 9,3 6,4 11,4 7,6

Guardando la seconda riga, la dispersione appare notevole: basta valutare l’intervallo di

variazione d e la deviazione standard di quei dati (vedi cap. II).

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

58

Eseguito il calcolo per le due caselle blu, la media dei consumi per ogni scala è

!

136,9 m3,

mentre la media M delle medie individuali per scala è

!

7,6 m3, pari alla media individuale µ

dell’intero condominio.

Nel nostro caso questa coincidenza è ovvio dal punto di vista aritmetico. Infatti, abbiamo 9

campioni disgiunti di 18 individui, quindi detto

!

ci il consumo di una scala, si ha

!

mi = ci /18 , ed allora:

!

19" mii=1

9# =

19"

ci18

i=1

9# =

1162

" cii=1

9# =

C162

=1232162

= 7, 6

Ossia, la media M delle medie è uguale alla media generale µ (arrotondamenti a parte), in

accordo col teorema del limite centrale.

6.1.D) In una scatola ci sono molte palline di colori Bianco, Giallo, Rosso, Verde. Estraiamo

per 160 volte una pallina, controlliamo il colore e la reimmettiamo nella scatola. Otteniamo

la seguente tabella:

!

col. freq.B 42G 37R 47V 34

Può essere ragionevole pensare che nella scatola ci sia lo stesso numero di palline di

ciascun colore?

L’ipotesi nulla è che siano fluttuazioni statistiche. Perciò ogni colore ha ¼ di probabilità di

uscire. Il valore atteso è allora 160⋅1/4 = 40 per ciascun colore. La matrice degli scarti è

quindi

!

H "H0 = 2 "3 7 "6[ ] # H "H0( )2 : H0 =4

40940

4940

3640

$

% &

'

( ) .

Poiché qui gl = 4-1 = 3, ne segue

!

"2 3,p( ) =9840

= 2,45.

Dalla tabella si ottiene 2,37 < 2,45 < 4,11, quindi 0,5 > p > 0,25.

Poiché non è p < 0,05, l’ipotesi nulla non si può respingere.

Si noti però che qui i valori attesi sono minori di 50, quindi il valore di

!

"2 andrebbe corretto.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

59

6.1.E). Da un’urna che contiene palline Blu, Gialle e Blu estraiamo per 10 volte 20 palline,

poi reimmettiamo le palline nell’urna dopo averne contato i colori.

I II III IV V VI VII VIII IX X totale media Dev. std B 7 10 9 9 10 11 8 9 8 9 90 9 1,2 R 7 6 8 6 4 5 7 5 6 6 60 6 1,2 G 6 4 3 5 6 4 5 6 6 5 50 5 1,0

tot. 20 20 20 20 20 20 20 20 20 20 200 20

Riportiamo su un istogramma le frequenze di uscita dei vari colori:

3 4 5 6 7 8 9 10 11 totale moda B 0 0 0 0 1 2 4 2 1 10 9 R 0 1 2 4 2 1 0 0 0 10 6 GGG 111 222 333 444 000 000 000 000 000 111000 666

Notiamo che nonostante lo scarto nel caso del giallo sia il minore, è l’unico in cui la moda,

6, non uguagli la media 5. Del resto, il numero dei campioni è basso, solo 10.

Se assumiamo il rapporto media/20 come probabilità di ogni colore, e nell’urna ci sono 500

palline, il valore atteso di palline blu è 500⋅9/20 = 225, quello di palline rosse è

500⋅6/20 = 150 e quello di palline gialle è 500⋅5/20 = 125.

Se supponiamo che la tabella delle uscite sia una tabella di contingenza frutto solo di

fluttuazioni statistiche, possiamo confrontarla con quella in cui i termini di ogni riga sono

uguali alla rispettiva media. Il test di Pearson fornisce allora

!

"2 = 5,33. Poiché la matrice è

3×10, ci sono 18 gradi di libertà, quindi

!

5,33 = "2 18, p( ) < 6,26 # p > 0, 995. Ciò conferma

questa ipotesi nulla.

Se invece ipotizziamo che ci sia lo stesso numero di palline dei tre colori, allora nelle celle

di

!

H0 ci va la media dei 30 dati, cioè 200/30 ≈ 6,7. Il test dà allora

!

18, 01 = "2 18, p( ), valore

compreso tra 17,3 e 21,6, corrispondenti a 0,5 > p > 0,25 quindi p > 0,05, insufficiente a

respingere la nuova ipotesi nulla.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

60

Questo dà un’idea della difficoltà di interpretare in modo elementare i dati statistici. Si pensi al problema

della (presunta?) variazione del clima terrestre. Ecco un esempio:

6.1.F). In una località sono stati conteggiati i giorni di sole, di pioggia e di nebbia per un

decennio dal 1950 al 1960 e dal 2000 al 2010. I dati medi annui sono riportati nella

tabella seguente.

sole pioggia nebbia totali 50-60 160 120 85

00-10 180 110 75

totali

Si può affermare che il clima sia

cambiato, oppure le variazioni

possono considerarsi rientrare

nelle fluttuazioni statistiche?

Si tratta di una classica tabella di contingenza. Cominciamo col sommare per righe e

colonne, poi calcoliamo i rapporti tra i totali delle colonne ed il totale generale, ottenendo

per le tre colonne i valori di probabilità: 0,48 0,30 0,22. Moltiplichiamo questa terna per

i totali delle righe, 365, ed otteniamo la matrice

!

H0

!

Hf sole pioggia nebbia totale 1950-60 160 120 85 365

2000-10 190 100 75 365

totale 350 220 160 730

!

H0 sole pioggia nebbia totale 1950-60 175,00 110,00 80 365,00

2000-10 175,00 110,00 80 365,00 totale 350,00 220 160 730

Calcoliamo ora

!

Hf "H0( )2H0

e sommiamo: 1,29 0,91 0,31

!

"2 = 5,01

1,29 0,91 0,31

I gradi di libertà sono 2. La tabella ci dà:

probabilità 0,995 0,990 0,975 0,950 0,900 0,750 0,500 0,250 0,100 0,050 0,025 0,010 0,005

gr=2 0,01 0,0201 0,0506 0,103 0,211 0,575 1,39 2,77 4,61 5,99 7,38 9,21 10,6

Allora, l’ipotesi nulla non può essere respinta, perché la probabilità corrispondente a

!

"2 = 5,01 è compresa tra il 5% ed il 10%, quindi non inferiore alla soglia del 5%.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

61

6.2. ESERCIZI DI PROBABILITÀ E STATISTICA.

NOTA: gli esercizi seguenti sono da svolgere in preparazione dell'esame del modulo di Statistica, ma alcuni

sono pensati da svolgere con l'ausilio di strumenti di calcolo o di software superiori a quelli richiesti per la prova scritta.

1. Se in una specie animale le nascite di maschi e femmine hanno la stessa probabilità e se

ogni nascita non influenza le altre, qual è la probabilità che di otto figli, cinque siano

femmine e tre maschi? E quella che le femmine siano almeno cinque?

2. Qual è la probabilità di vincere giocando l'ambo 1,2{ } sulla ruota di Milano? E' diversa

dalla probabilità di vincere giocando l'ambo 31,49{ }?

3. Se si gioca un ambo su tutte e dieci le ruote del lotto, si vince se esce in almeno una di

esse. Qual è la probabilità di vincere? (Suggerimento: si calcoli prima la probabilità di

non vincere).

4. Un mazzo di carte piacentine da briscola è composto da quattro "semi" di 10 carte

ciascuna: asso, due, tre, quattro, cinque, sei, sette, fante, cavallo, re. I semi sono: denari,

coppe, spade e bastoni. Ad un giocatore sono date tre carte. Che probabilità c'è che

siano tre re? E che siano un re, un fante ed un asso? O che siano di tre semi diversi?

5. La densità di probabilità di una grandezza è una gaussiana di media µ = 6 e deviazione

standard ! = 1. Qual è la probabilità di trovare una grandezza di misura inferiore a 4?

6. In un pollaio ci sono 12 anatre, 15 galline faraone, 16 galline e 9 tacchini. Si traccino

diagrammi a colonne, a torta e a ideogrammi per illustrare questi dati.

7. Secondo la formula di Poisson, se la media delle misure di una grandezza è m = 9, che

probabilità c'è di trovare una misura uguale a 7?

8. Mediante alcuni esperimenti sono state ricavate le seguenti coppie di dati:

x !2 !1 0 1 2 3y 3 4 5 6,5 8 10,5

. Si provi dapprima a calcolarne il polinomio interpolatore,

(di 5° grado). Si trovi poi la retta di regressione ed il coefficiente di correlazione. Infine,

passando per un diagramma semilogaritmico, si trovi la regressione esponenziale

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

62

y = a !em!x ed il coefficiente di correlazione. Quale dei tre modelli sembra "migliore" per

rappresentare matematicamente i dati?

9. Mediante alcuni esperimenti sono state ricavate le seguenti coppie di dati:

x !2 !1 0 1 2 3y !5 !2 0 2 3 4

. Si trovi la retta di regressione ed il coefficiente di correlazione.

Seguendo poi il procedimento geometrico illustrato negli appunti, si provi a trovare

anche la regressione quadratica y = a !x2 + b ! x + c . Si riporti poi il tutto su un grafico

cartesiano.

10. A due gruppi di volontari malati di una stessa patologia sono stati somministrati un

farmaco ed un placebo (ossia uno pseudo-farmaco senza principio attivo). Il farmaco è

stato somministrato a 60 pazienti e ne sono migliorati 42. Il placebo invece è stato

somministrato a 54 pazienti e ne sono migliorati 20. Qual è la probabilità che l'effetto

sia lo stesso, ossia che il farmaco sia inutile?

11. Un conteggio di ragnatele in una vecchia ala di 10 aule di una scuola ha dato il risultato

seguente. La distribuzione è da considerarsi casuale?

!

aula 1 2 3 4 5 6 7 8 9 10ragnatele 78 18 64 24 30 70 59 10 15 22

.

12. Decidiamo di "investire" denaro giocando al lotto su un numero fisso (il 30) sulla ruota

di Genova. Il "budget" a disposizione è 50.000 euro. In caso di uscita del nostro numero

(a proposito, che probabilità ha?) la Sisal paga 11,2 volte l'importo che abbiamo giocato:

se puntiamo un euro, ne vinceremmo 11,20, quindi il guadagno netto è 10,20 euro.

Decidiamo però di non volere guadagnare, ma solo di non rimetterci, perciò

cominciamo con un euro e, se non esce per 11 volte, la dodicesima aumentiamo la

giocata in modo che in caso di vincita recuperiamo per intero la somma spesa fino a

quel momento (12 euro). E così ci comporteremo anche nelle giocate successive finché

non vinceremo o fino a che avremo denaro sufficiente. Se siamo sfortunati, dopo quante

giocate al massimo dovremo interrompere il gioco perché non abbiamo più denaro

sufficiente per la giocata successiva? E se volessimo guadagnare alla fine 10,2 �?

13. Si stabilisca la frequenza delle 21 lettere del nostro alfabeto nella poesia “San Martino”

di G. Carducci (1835-1907) (professore ordinario a Bologna e premio Nobel per la

lettereratura). (Suggerimento: si scriva il testo in Word e una per una si sostituiscano le

21 lettere con il simbolo =; automaticamente Word fornisce il numero di sostituzioni).

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

63

Risposte

1) Secondo la formula di Bernoulli, la probabilità di cinque femmine e tre maschi è

85

!

" # #

$

% & & '

12

!

" # #

$

% & &

5'

12

!

" # #

$

% & &

3=

83

!

" # #

$

% & & '

12

!

" # #

$

% & &

8=

8 '7 '63'2 '1 '256

=732

= 0,21875 ( 21,9% . La probabilità che

almeno cinque siano femmine, oltre al caso precedente, comprende anche sei, sette od

otto femmine, quindi, ricordando che

nk

!

" # #

$

% & & =

nn ' k

!

" # #

$

% & & , si ottiene:

1256

!83

"

# $ $

%

& ' ' +

82

"

# $ $

%

& ' ' +

81

"

# $ $

%

& ' ' +

80

"

# $ $

%

& ' '

"

#

$ $

%

&

' ' =

56 + 28 + 8 + 1256

=93

256( 36,3%

2) La probabilità di un ambo su una ruota si calcola prendendo come spazio campionario

l'insieme delle cinquine possibili, che sono

905

!

" # #

$

% & & e considerando come evento l'uscita di

una cinquina con i due numeri che abbiamo giocato: queste devono avere oltre ai nostri

due numeri, altri tre fra i 90-2 = 88 rimanenti, ossia ce ne sono

883

!

" # #

$

% & & . Pertanto la

probabilità di vincere giocando un qualunque ambo è:

883

!

" # #

$

% & &

905

!

" # #

$

% & & =

88 '87 '86 '5' 4 '3'2 '13 '2'1' 90 '89 '88 '87 '86

=5' 4

90 '89=

104005

( 0,25% .

Un approccio alternativo: il primo numero deve essere uno dei cinque numeri estratti sui 90

disponibili, quindi ha probabilità 5/90 di uscire; se esce, il secondo deve essere uno degli altri

quattro numeri estratti sui restanti 89, quindi ha probabilità 4/89. Pertanto, la probabilità è:

590

!489

=10

4005.

3) Calcoliamo la probabilità dell'evento complementare, ossia la non uscita del nostro ambo

su nessuna delle 10 ruote. Dall'esercizio precedente, su ogni ruota la probabilità di non

uscita è 1! 10

4005=

39954005

" 99,75% . Il risultato su una ruota non influenza quello sulle

altre, perciò la probabilità di perdere è pari a

39954005

!

" # #

$

% & &

10' 97,53% . Dunque, la

probabilità di vincere è 100 !97,53( )% " 2, 47% .

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

64

4) Dal testo appare chiaro che ogni carta estratta non viene rimessa nel mazzo. Ciò posto, la

probabilità che prima carta sia un re è 4/40 = 1/10; se la prima è un re, la probabilità

che lo sia anche la seconda è 3/39 = 1/13; se le prime due sono dei re, la probabilità

che lo sia anche la terza è 2/38 = 1/19. Dunque, la terna di tre re ha probabilità

1

10!

113

!119

=1

2470" 0, 04% .

(Un approccio alternativo: le terne possibili sono

403

!

" # #

$

% & & ; quelle formate da tre re sono

43

!

" # #

$

% & & =

41

!

" # #

$

% & & = 4; allora la probabilità di tre re è

4 40

3

!

" # #

$

% & & =

4 '640 '39 '38

=1

2470).

Ragionando come sopra, se l'ordine di estrazione è (re, fante, asso) il re ha probabilità

4/40, il fante 4/39 e l'asso 4/38, quindi

4 !4 !440 !39 !38

=4

3705" 0,1% .

Se invece l'ordine di estrazione non ha importanza, ma contano le tre carte che il

giocatore ha in mano, allora occorre moltiplicare per 3! = 6, ottenendo

4

3705!6 =

81235

" 0, 65% . (Un approccio alternativo: ci sono 43 = 64 terne ordinate

costituite ciascuna da un re, un fante ed un asso; le terne non ordinate di carte sono

403

!

" # #

$

% & & e

quindi abbiamo, come sopra, 64 40

3

!

" # #

$

% & & =

64 '640 '39 '38

=8

1235).

Nell'ultimo caso, la prima carta è indifferente (probabilità = 1), la seconda deve essere

una delle 30 su 39, di seme diverso dalla prima (30/39 = 10/13), e la terza una delle 20

su 38, di seme diverso dalle prime due (20/38 = 10/19); ne segue

1 !10

13!1019

=100247

" 40,5% .

(Un approccio alternat ivo: una terna con tre semi diversi, quindi uno escluso, ha 103

possibili scelte; poiché le scelte del seme escluso sono 4, ci sono 4000 terne possibili con tre

semi diversi. Ne segue 4000 40

3

!

" # #

$

% & & =

4000 '640 '39 '38

=100247

).

5) La funzione gaussiana di media µ = 6 e scarto quadratico medio σ = 1 ha equazione:

y =

12!

" e# 1

2x#6( )2 . E' noto che nell'intervallo µ !2", µ +2"[ ] = 4, 8[ ] è racchiuso circa il

95% dell'area tra la gaussiana e l'asse x, (più precisamente, il 95,45%) che in totale vale

1; pertanto, per simmetria, nell'intervallo !", 4] ] è racchiusa metà dell'area residua,

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

65

ossia 12

1 ! 0, 95( ) = 0,025 ; allora la probabilità dell'evento !", 4] ], ossia di trovare un

dato di misura minore di 4 è del 2,5%. (Più precisamente, la probabilità è p(E) ≈ 2,275%).

6) Per rappresentare 12 anatre, 15 faraone, 16 galline e 9 tacchini del pollaio mediante

istogrammi possiamo servirci di carta millimetrata o di un banale software da disegno o

Excel. Per un diagramma a torta occorre calcolare il totale del pollame, ossia 52, poi (se

si lavora in gradi) fare le 4 proporzioni: per le anatre, 12:52 = x:360, da cui x ! 83° ;

idem per gli altri tre tipi di animali da cortile (o ne bastano altri due?) ed infine col

goniometro o con software apposito tracciare un cerchio e i quattro angoli al centro

trovati. Oppure, con Excel si fa in automatico ed è calcolata la percentuale di ogni

categoria sul totale. Per gli ideogrammi, occorrerebbe trovare una figurina per ciascuno

dei quattro tipi di pollame e ripeterla tante volte quant'è il numero di capi. Potete

provare per divertimento!

7) La formula di Poisson, dice che la probabilità che una variabile aleatoria x di media m sia

uguale ad un valore h è

!

p x = h( ) =mh

h!"e#m. Allora,

!

p x = 7( ) =97

7!"e#9 $ 0,117.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

66

8) Il polinomio interpolatore della tabella

x !2 !1 0 1 2 3y 3 4 5 6,5 8 10,5

è del tipo

!

y = a5 " x5 + a4 " x4 + a3 " x3 + a2 " x2 + a1 " x + a0 . Si impone il passaggio di questa curva per

i sei punti

!

"2, 3( ), K , 3, 10.5( ), ottenendo un sistema lineare di sei equazioni nelle sei

incognite

!

a0,K, a5. Chi, come me, preferisce i calcoli in forma simbolica, al posto di 6,5

si scriva 13/2, e al posto di 10,5 si scriva 21/2.

!

"32a5 +16a4 "8a3 + 4a2 "2a1 + a0 = 3"a5 + a4 " a3 + a2 " a1 + a0 = 4

a0 = 5a5 + a4a3 + a2 + a1 + a0 = 13 2

32a5 +16a4 + 8a3 + 4a2 + 2a1 + a0 = 8243a5 + 81a4 + 27a3 + 9a2 + 3a1 + a0 = 21 2

#

$

% % %

&

% % %

!

" C =

#32 16 #8 4 #2 1 3#1 1 #1 1 #1 1 40 0 0 0 0 1 51 1 1 1 1 1 13 232 16 8 4 2 1 8

243 81 27 9 3 1 21 2

$

%

& & & & & & &

'

(

) ) ) ) ) ) )

Il sistema si risolve applicando alla matrice C l’algoritmo di Gauss-Jordan (conviene

prima scambiare di posto la prima e la quarta riga e poi portare la terza riga all’ultimo

posto)(1). Alla fine si ottiene il polinomio

!

y =148

x5 "124

x4 "5

48x3 +

724

x2 +43

x + 5.

La retta di regressione si ottiene invece come indicato nel cap. 3:

!

x = 1 2 = 0,5;

!

"x =196

#14

=1056

$ 1,7078 $ 1,7. Poi,

!

y = 37 6 " 6,17 e

!

"y =2306

# 2,5276 # 2,53.

Infine,

!

cxy =446

"3712

=174

= 4,25.

Allora la retta è:

!

m = cxy "x2

=174

#36

105=

5135

$ 1,457

q = y %m # x = 376

%5135

#12

=571105

$ 5,438

&

' ( (

) ( (

* y = 1,457x + 5,438.

Il coefficiente di correlazione è

!

r =cxy

"x # "y=

174

#6

105#

6230

$ 0,9845.

(1) Esiste però una formula di Lagrange per calcolarlo.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

67

Infine, per calcolare la regressione

esponenziale, facciamo uso di un diagramma

semilogaritmico, sostituendo ai dati y i loro

logaritmi:

!

x "2 "1 0 1 2 3y# = ln y( ) 1,10 1,38 1,61 1,87 2,08 2,35.

Allora

!

y " # 1,73,

!

"y# $ 0,5 e

!

cxy" # 0,72. Ne

segue

!

y" = 0,246x +1,61, con

!

r " 0,999.

Allora,

!

y = e1,61 "e0,246x # 5 "e0,246x .

I grafici sono eseguiti con Geogebra: in rosa il

polinomio interpolatore; in nero la retta e in

blu l’esponenziale. Quest’ultima approssima

meglio i dati rispetto alla retta.

9) Nella tabella

x !2 !1 0 1 2 3y !5 !2 0 2 3 4

i dati x sono gli stessi dell’esercizio precedente,

pertanto

!

x = 1 2 = 0,5;

!

"x =196

#14

=1056

$ 1,7078 $ 1,7. Poi,

!

y = 13" 0,33,

!

"y =586

#19

=863

$ 3,09 . Infine,

!

cxy =316

" 5,17. La retta di regressione ha quindi

!

m =316

"36

105=

6235

# 1,77,

!

q =13"

6235

#12

= "58

105$ "0,55, ed il coefficiente di correlazione è

!

r =316

"6

105"

386

# 0,979. Per trovare la parabola di regressione, poniamo:

!

X =

"2"10123

#

$

% % % % % % %

&

'

( ( ( ( ( ( (

,

!

T = X2 =

410149

"

#

$ $ $ $ $ $ $

%

&

' ' ' ' ' ' '

,

!

Y =

"5"20234

#

$

% % % % % % %

&

'

( ( ( ( ( ( (

,

!

U =

111111

"

#

$ $ $ $ $ $ $

%

&

' ' ' ' ' ' '

,

!

" Y = a #T + b # X + c #U.

Imponiamo ora che il vettore Y’-Y sia perpendicolare ai vettori T, X, U, ponendo = 0 il

loro prodotto scalare.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

68

Otteniamo il sistema:

!

T " # Y $ Y( ) = 0

X " # Y $ Y( ) = 0

U " # Y $ Y( ) = 0

%

& ' '

( ' '

)

T " # Y = T " YX " # Y = X " YU " # Y = U " Y

%

& '

( '

.

Sostituiamo

!

" Y = a #T + b # X + c #U:

!

T "T( ) #a + T " X( ) #b + T " U( ) #c = T " Y

X "T( ) #a + X " X( ) #b + X " U( ) #c = X " Y

U "T( ) #a + U " X( ) #b + U " U( ) #c = U " Y

$

% & &

' & &

.

Ora eseguiamo quei prodotti scalari:

!

115a + 27b +19c = 2827a +19b + 3c = 3219a + 3b + 6c = 2

"

# $

% $

&

a = '1 4b = 283 140c = 4 35

"

# $

% $

.

Pertanto, in forma approssimata abbiamo

la retta

!

y = 1,77x " 0,55 e la parabola

!

y = "0,25x2 + 2,02x + 0,114.

10) Dei due gruppi di volontari malati, col farmaco sono migliorati 42 e non migliorati 60-

42 = 18; col placebo sono migliorati 20 e non migliorati 54-20 = 34. Abbiamo allora la

seguente tabella di contingenza:

!

migliorati non m. totalifarmaco 42 18 60placebo 20 34 54totali 62 52 114

. Se il farmaco ha

circa lo stesso effetto del placebo, la probabilità di miglioramento è 62/114, mentre

quella di non miglioramento è 52/114. Allora, i numeri attesi nei due casi sono:

!

migliorati non m. totalifarmaco 32,63 27,37 60placebo 29,37 24,63 54totali 62 52 114

. La matrice delle differenze è

!

H "H0 =9,37 "9,37"9,37 9,37

#

$ %

&

' ( ; eleviamo al quadrato:

!

H "H0( )2 #87,80 87,8087,80 87,80

$

% &

'

( ) , poi dividiamo

per

!

H0:

!

H "H0( )2 : H0 #2,69 3,212,99 3,56

$

% &

'

( ) e poi sommiamo:

!

"2 = 12,45. C’è un solo grado di

libertà, perciò dalla prima riga della tavola troviamo che la probabilità di avere

!

"2 = 12,45 è fuori tabella, ossia minore dello 0,005. Allora, come del resto era intuibile,

l’ipotesi nulla è respinta ed il farmaco è efficace.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

69

11) Valutiamo la distribuzione col test di Poisson calcolando il rapporto v/m tra varianza e

media:

!

aula 1 2 3 4 5 6 7 8 9 10ragnatele 78 18 64 24 30 70 59 10 15 22

. Si ha:

!

m =1

10" 78 +18 + ...+ 22( ) = 39 ;

!

v =1

10 "1# 78 "38( )2 + 18 "38( )2 + K + 22"38( )2$

% & &

'

( ) ) =

59609

* 662.

Allora

!

vm

" 16,97 >> 1, e quindi la distribuzione è di tipo aggregato.

12) Questo non è un esercizio di Probabilità e neppure di Statistica, ma lo vediamo

ugualmente, perché qualche attinenza ce l’ha e come esempio di creazione di un

modello matematico per affrontare un problema. Per cominciare, osserviamo che la

probabilità di uscita di un numero è 5/90 = 1/18, ma la Sisal paga 11,2 volte l'importo

che abbiamo giocato. Ciò posto, poiché stabiliamo di uscirne alla pari, vediamo che cosa

succede: fino alla undicesima giocata la vincita è superiore alla somma spesa fino a quel

momento. Dalla dodicesima in poi dobbiamo aumentare man mano la quota. Infatti, la

spesa totale di 12 euro sarebbe superiore alla eventuale vincita di 11,2 euro. Sia x la

somma giocata alla dodicesima giocata: la spesa è 11+x, la vincita eventuale 11,2x,

quindi abbiamo l’equazione

!

11+ x = 11,2 " x # x =11

10,2$ 1,07843. Per ottenere una

formula generale, sia

!

sn, n " 11, la somma complessivamente giocata alla n-esima

puntata. Allora alla successiva, detta x la somma puntata, si ha

!

sn + x = 11,2 " x # x =sn

10,2, quindi:

!

sn+1 = sn +sn

10,2= sn " 1+

110,2

#

$ % %

&

' ( ( = sn "

11,210,2

) 1,098 " sn

Poiché

!

s11 = 11, allora

!

s11+k = 11 "1,098k . Supponiamo che il nostro numero non esca per

varie volte; a che punto finiremo i 50.000 euro? Risolviamo l’equazione

!

50000 = 11 "1,098k # 1,098k =50000

11$ 4545,45 # k =

ln 4545,45( )ln 1,098( )

$ 90.

Pertanto, se il numero non esce per 90+11 = 101 estrazioni, avremo speso circa 49614

euro, ossia quasi tutto, e non avremo abbastanza denaro per un’ulteriore giocata.

Per curiosità, se fossimo partiti con 115.000 �, li avremmo finiti dopo 110 giocate...

Si può generalizzare ipotizzando di voler vincere qualcosa di più di quanto speso, diciamo

!

m " sn + q , con m ≥ 1 e q ≥ 0. Sia

!

s1 la somma giocata alla prima puntata.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

70

Alla n+1-esima si ha l’equazione:

!

m " sn + q + x = 11,2 " x # x =m " sn + q

10,2,

!

" sn+1 = m # sn + q +m # sn + q

10,2= m # sn + q( ) #11,2

10,2" sn+1 = 1,098 # m # sn + q( ) .

Ipotizziamo ora

!

s1 = 1, m = 1, q = 10,2. Poniamo poi

!

r = 1,098. Allora

!

s2 = r " 1+ q( ) , poi:

!

s3 = r " s2 + q( ) = r " r " 1+ q( ) + q( ) = r2 + q " r " 1+ r( ) ,

!

s4 = r " s3 + q( ) = r " r2 + q " r " 1+ r( ) + q#

$ %

&

' ( = r3 + q " r " 1+ r + r2#

$ %

&

' ( … ,

!

sn+1 = rn + q " r " ri

i=0

n#1$ = rn + q " r " r

n #1r #1

= 11,2 "1,098n + 0,9955

L’equazione

!

11,2 "1,098x + 0,9955 = 50.000 ha per soluzione x = 89,89. Per voler vincere

appena 10,2� i 50.000� finiscono dopo solo 90 giocate.

Ne segue che il denaro finisce tanto più in fretta quanto più m o q sono grandi, ossia quanto più

siamo avidi …

13. Per stabilire la frequenza delle 21 lettere del nostro alfabeto nella poesia “San Martino”

di G. Carducci, 4 strofe di 4 versi ciascuna, seguiamo il suggerimento. Intanto vediamo il

testo della poesia:

La nebbia a gl’irti colli

piovigginando sale,

e sotto il maestrale

urla e biancheggia il mar;

ma per le vie del borgo

dal ribollir de’ tini

va l’aspro odor de i vini

l’anime a rallegrar.

Gira su’ ceppi accesi

lo spiedo scoppiettando:

sta il cacciator fischiando

sull’uscio a rimirar

tra le rossastre nubi

stormi d’uccelli neri,

com’esuli pensieri,

nel vespero migrar.

Ecco il risultato, escluso il titolo:

a b c d e f g h i l m n o p q r s t u v z 31 6 14 10 29 1 9 2 40 27 8 13 22 10 0 27 19 12 7 5 0

Ecco qualche elaborazione e qualche grafico:

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

71

Si contano 292

lettere (escluso

il titolo), delle

quali 129 sono

vocali, il 44%

del totale.

La moda è la

vocale “i”,

seguita dalla

“a” e dalla “e”.

vocale frequenza a 31 e 29 i 40 o 22 u 7

Le consonanti

più usate sono

la “l” e la “r”.

La “q” e la “z”

non ci sono.

NOTA: ci sono

anche ben 8

apostrofi.

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12

72

BIBLIOGRAFIA

[1]. G.C. Barozzi, C. Corradi, Matematica per le scienze economiche e statistiche, Il Mulino,

1977

[2]. M. Battelli, U. Moretti, Elementi di Statistica e di calcolo delle probabilità per scuole

superiori, Le Monnier, 1988

[3]. S. Cavicchi, Dispense ed esercizi di Statistica per Scienze Naturali

[4]. B.V. Gnedenko, Teoria della probabilità, Editori Riuniti, 1979

[5]. Open University, Probabilità e Statistica, EST Mondadori, 1975

[6]. V. Villani, Matematica per discipline biomediche, Mc Graw-Hill, 1991

Inoltre:

[7]. Archivio dati Commissione Amministrativa Insediamento CA2, Bologna.

[8]. Enciclopedia “Gli animali e la loro vita” vol. 1, Africa, regione etiopica, Istituto

Geografico De Agostini, Novara, 1970

[9]. Texas Instruments, Manuale d’uso della calcolatrice TI-58.