statistica elementare a cura del prof. giovanni raho informatica e statistica 2003 prof. giovanni...
TRANSCRIPT
STATISTICA ELEMENTARE
A CURA DEL PROF. GIOVANNI RAHO
•Informatica e statistica 2003 Prof. Giovanni Raho
•1
Applicazioni del foglio elettronico
La statistica
•Informatica e statistica 2003 Prof. Giovanni Raho
•2
Un insieme di procedure fondate sulla matematica che permettono di analizzare gli eventi e trarne Leggi di collegamento tra eventi Leggi di previsione Modelli in cui le relazioni siano precisate attraverso
metodi matematici.
Problema ed informazione
•Informatica e statistica 2003 Prof. Giovanni Raho
•3
Definire il problema Individuare gli eventi che intervengono nel problema. Caratterizzare gli eventi attraverso la definizione dei
concetti. Collegare i concetti per costruire une teoria. La teoria ben formata: relazioni non contraddittorie
tra concetti.
Gli strumenti di verifica
•Informatica e statistica 2003 Prof. Giovanni Raho
•4
Variabili e misure: I concetti sono definiti attraverso le variabili. Le variabili sono specificate attraverso le misure. Le misure sono di diverso tipo
Metriche Rapporti ed intervalli.
Ordinali Nominali
Uso delle misure
•Informatica e statistica 2003 Prof. Giovanni Raho
•5
Eseguire operazioni tra le misure Il termine operazioni va considerato in senso lato. Sono operazioni:
Unione Separazione Operazioni aritmetiche Operazioni razionali e irrazionali.
Operazioni con le misure
•Informatica e statistica 2003 Prof. Giovanni Raho
•6
Dipendono dal diverso tipo di misura Scale di Misura
Addizione UnioneSottrazione separazioneMoltiplicazione e divisione
Si introduce tra le misure un operatore che le trasformi in modo da poter esser adattate alle nostre esigenze.
Operazioni di sintesi
•Informatica e statistica 2003 Prof. Giovanni Raho
•7
Media aritmetica Va valutata con un opportuno parametro:
Deviazione standard (dev ST in Excel) La Deviazione standard misura l’attendibilità della media a.
Mediana (divide un gruppo ordinato in due parti)
Valutazione attraverso la differenza tra quartili (quattro parti)
Moda Valutazione valore minimo e massimo
Si vedano gli esempi applicativi col foglio elettronico.
Scale di misura e sintesi
•Informatica e statistica 2003 Prof. Giovanni Raho
•8
Scala metrica Media aritmetica, Deviazione Standard
Scala ordinale Mediana, quartili
Scala Nominale Conteggio delle frequenze Uso della MODA.
La percentuale
•Informatica e statistica 2003 Prof. Giovanni Raho
•9
Si tratta di una particolare misura usata per confrontare gruppi numericamente diversi.
Permette di cogliere le differenze con maggior immediatezza.
Analogia grafica: TORTA
75%75%
I grafici
Permettono un confronto immediato di gruppi numericamente diversi
A lato un grafico a colonne o istogramma.
0
10
20
30
40
50
60
70
80
90
1° Trim. 2° Trim. 3° Trim. 4° Trim.
EstOvestNord
•Informatica e statistica 2003 Prof. Giovanni Raho •10
40 volte20 volte
Vari tipi di grafici per vari usi
•Informatica e statistica 2003 Prof. Giovanni Raho
•11
Torta Rappresentazione di una variabile secondo le percentuali
Barre – Istogrammi Rappresentazione di due o più variabili secondo la frequenza dei
loro valori. (vedi esempio precedente diapositive)
Barre impilate Rappresentazione di due o più variabili secondo i valori di una
terza. Vedi nel libro di informatica analisi multivariata
STATISTICA DESCRITTIVA
•Informatica e statistica 2003 Prof. Giovanni Raho
•12
I procedimenti sin qui descritti fanno parte della statistica descrittiva.
Essa si occupa della presentazione di dati ed aiuta nella loro interpretazione.
… Spesso si rinuncia al dettaglio per avere una visione generale del fenomeno …
Grafici lineari
•Informatica e statistica 2003 Prof. Giovanni Raho
•13
Oltre ai grafici areali descritti in precedenza in cui le occorrenze (frequenze) dei valori di una variabile sono presentate da aree di rettangoli o di settori circolari
I grafici lineari rappresentano l’andamento di un fenomeno (spesso rispetto al tempo) Ricordare assi cartesiani
Grafici lineari e sviluppo nel tempo
•Informatica e statistica 2003 Prof. Giovanni Raho
•14
Variazione pendenza
Il grafico lineare
Il grafico lineare rappresenta l’andamento dei valori di una variabile.
Come tale può ricavare valori indirettamente e può introdurre alla previsione futura.
Anni rilevazione
Situazioni 1985 1986 1987 1988 1989 Media Fiducia=DSCampania 230 270 280 290 310 276 29,664794Veneto 240 190 180 160 130 180 40,620192Piemonte 180 190 200 210 245 205 25,000000Toscana 300 310 280 300 300 298 10,954451
Andamento del fenomenoValori Affidabilità
Campania 18 0,92Veneto -25 0,94Piemonte 15 0,9Toscana -1 0,02
y = 18x + 222
R2 = 0,9205
y = -25x + 255
R2 = 0,947y = 15x + 160
R2 = 0,9y = -x + 301
R2 = 0,0208
0
50
100
150
200
250
300
350
1985 1986 1987 1988 1989
Campania
Veneto
Piemonte
Toscana
Lineare (Campania)
Lineare (Veneto)
Lineare (Piemonte)
Lineare (Toscana)
•Informatica e statistica 2003 Prof. Giovanni Raho •15
Grafico lineare e linee di tendenza
•Informatica e statistica 2003 Prof. Giovanni Raho
•16
Anni rilevazione
Situazioni 1985 1986 1987 1988 1989 Media Fiducia=DSCampania 230 270 280 290 310 276 29,664794Veneto 240 190 180 160 130 180 40,620192Piemonte 180 190 200 210 245 205 25,000000Toscana 300 310 280 300 300 298 10,954451
Andamento del fenomenoValori Affidabilità
Campania 18 0,92Veneto -25 0,94Piemonte 15 0,9Toscana -1 0,02
y = 18x + 222
R2 = 0,9205
y = -25x + 255
R2 = 0,947y = 15x + 160
R2 = 0,9y = -x + 301
R2 = 0,0208
0
50
100
150
200
250
300
350
1985 1986 1987 1988 1989
Campania
Veneto
Piemonte
Toscana
Lineare (Campania)
Lineare (Veneto)
Lineare (Piemonte)
Lineare (Toscana)
Si noti il collega,emto tra l’anda,mento della retta ed il coeff. angolare
La linea di tendenza
•Informatica e statistica 2003 Prof. Giovanni Raho
•17
Se nello studio di un fenomeno ci si accorge che le variabili degli eventi successivi hanno misure con uno sviluppo regolare e
… se si può supporre che le cause non siano modificate nel tempo
… possiamo prolungare la linea che unisce i successivi momenti oltre le misure già effettuate.
La linea di tendenza
•Informatica e statistica 2003 Prof. Giovanni Raho
•18
IL prolungamento del fenomeno nel tempo è favorito da alcuni algoritmi matematici che tengono conto delle oscillazioni di una variabile intorno a valori medi.
La retta di regressione è l’esempio più noto di tale metodo di previsione.
Linee di tendenza
•Informatica e statistica 2003 Prof. Giovanni Raho
•19
Si possono costruire con metodi matematici più o meno complessi linee di forma diversa …
La cui forma è individuata dal grado dell’equazione rappresentativa
La scelta della linea di tendenza che si avvicina di più ai valori rilevati può essere fatta col parametro R2.
Linee di tendenza
•Informatica e statistica 2003 Prof. Giovanni Raho
•20
Nel caso di linea di tendenza lineare è possobile associare ad una successione di eventi il coefficiente angolare della retta come elemento di sintesi.
Esempio: y=5x+3 l’andamento del fenomeno è crescente
y = -6x + 3 l’andamento del fenomeno e decrescente
y = -10x + 3 il fenomeno decresce più rapidamente della
precedente
Linea di tendenza ed R2
•Informatica e statistica 2003 Prof. Giovanni Raho
•21
R2 varia da
0 nessuna aderenzaa
1 completa aderenza
ai valori rilevarti
L’andamento di una popolazione
•Informatica e statistica 2003 Prof. Giovanni Raho
•22
Grafico dell’andamento della popolazione linea di tendenza lineare
ossia di 1° grado.
0
5000
10000
15000
20000
25000
30000
35000
1861
1871
1881
1901
1911
1921
1931
1936
1951
1961
1971
1981
1991
1994
1995
1996
1997
1998
1999
•Informatica e statistica 2003 Prof. Giovanni Raho •23
RETTA detta anche retta di regressione
Andamento della popolazionetendenza di grado superiore al 1°
•Informatica e statistica 2003 Prof. Giovanni Raho
•24
1000012000140001600018000200002200024000260002800030000
1861
1871
1881
1901
1911
1921
1931
1936
1951
1961
1971
1981
1991
1994
1995
1996
1997
1998
1999
La statistica e la probabilità
•Informatica e statistica 2003 Prof. Giovanni Raho
•25
Esame delle differenze e della causalitàNell’analisi di un fenomeno si usa spesso
considerare contemporaneamente i valori di due o più variabili.
Il metodo più semplice per valutare le possibili relazioni tra variabili è …
L’uso ed il confrontodelle frequenze di un evento
•Informatica e statistica 2003 Prof. Giovanni Raho
•26
Opinione Frequenza
Favorevole 78
Contrario 59
Totale 137
Opinione Frequenza
Favorevole
120
Contrario 100
Totale 220
Grafico
•Informatica e statistica 2003 Prof. Giovanni Raho
•27
Riunendo le due tabelle si può utilizzare un grafico a colonne per valutare i due fenomeni.
Incrocio tra i valori di due o più variabili
etàanziani adulti giovani
Superiore 23 26 34Media 12 13 23Elementare 34 23 12
Istruzione
•Informatica e statistica 2003 Prof. Giovanni Raho •28
Lettura di una tabella
•Informatica e statistica 2003 Prof. Giovanni Raho
•29
etàanziani adulti giovani
Superiore 23 26 34Media 12 13 23Elementare 34 23 12
Istruzione
23 anzianihanno un’istruzionesuperiore 12 giovani hanno
un’istruzione elementare
Confronti tra frequenze in due variabili
•Informatica e statistica 2003 Prof. Giovanni Raho
•30
Scelta1*trim 2° trim 3* trim 4° trim
Est 10 28 90 20Ovest 30 38 35 30Nord 45 46 44 44
Valutazione ottenuta
0
10
20
30
40
50
60
70
80
90
1° Trim. 2° Trim. 3° Trim. 4° Trim.
Est
Ovest
Nord
•Informatica e statistica 2003 Prof. Giovanni Raho •31
Andamenti di valori di una o più variabili
Esercizio
Si costruisca con EXCEL il grafico
dei dati riprodotti in precedenza
Grafico a colonne
0
5
10
15
20
25
30
35
40
Anziani Adulti GIOVANI
Elementare
Media
Superiore
•Informatica e statistica 2003 Prof. Giovanni Raho •32
Grafico a colonne impilate
•Informatica e statistica 2003 Prof. Giovanni Raho
•33
Permette un’analisi all’interno di diverse categorie della distribuzione delle frequenze dei livelli di istruzione.
Grafico a colonne impilate
•Informatica e statistica 2003 Prof. Giovanni Raho
•34
0
10
20
30
40
50
60
70
80
90
100
Anziani Adulti GIOVANI
Superiore
Media
Elementare
Categorie
Analisi multivarata
•Informatica e statistica 2003 Prof. Giovanni Raho
•35
Si tratta di un’analisi dei valori di due variabili in cui interviene una terza variabile discriminante per valutare gruppi di caratteristiche diverse.
Es. Il livello di istruzione rispetto all’età,può essere diverso se si considerano gruppi il cui reddito familiare (terza variabile discriminante) sia diverso
Analisi multivariata
•Informatica e statistica 2003 Prof. Giovanni Raho
•36
etàanziani adulti giovani
Media 23 26 34Superiore 12 13 23inferiore 11 23 34
Istruzione
etàanziani adulti giovani
Media 32 43 18Superiore 8 10 23inferiore 25 20 12
Istruzione
Reddito alto
Reddito bassoIl diverso reddito introduce una variazione nellacomposizione dei gruppi
Analisi multivariata
•Informatica e statistica 2003 Prof. Giovanni Raho
•37
Si veda nel testoLezioni di Informatica …
Il paragrafo 7.7.5 pag. 131L’uso dei grafici per l’analisi multivariata.L’esercizio n. 2 a pag. 106: Le tabelle dell’analisi multivarata.
Metodi matematici
•Informatica e statistica 2003 Prof. Giovanni Raho
•38
Oltre ai metodi grafici EXCEL permette l’uso di metodi matematici quali: Calcolo del chi2
Valuta la indipendenza tra i valori di due variabili attraverso la valutazione delle occorrenze contemporanee dei valori di due variabili
Può essere calcolato spezzando la formula in vari passaggi
chi2
•Informatica e statistica 2003 Prof. Giovanni Raho
•39
Si applica da una tabella a due entrateAttraverso i totali di riga, colonna e
complessivi calcola le frequenze teoriche e le confronta con le frequenze osservate.
Risulta un parametro che va confrontato con parametri tabulati che permettono di valutare la probabilità di indipendenza tra due variabili.
Normalizzazione dei dati
Si possono trasformare i dati grezzi di una ricerca prendendo come unità di misura la deviazione standard e punto di origine la media aritmetica dei dati grezzi. Ciò risulta facile col foglio elettronico
utilizzando la procedura copia
•Informatica e statistica 2003 Prof. Giovanni Raho •40
Metodi matematici
•Informatica e statistica 2003 Prof. Giovanni Raho
•41
Oltre ai metodi grafici EXCEL permette l’uso di metodi matematici quali: Calcolo del coefficiente di Pearson Valuta la relazione tra due variabili attraverso la
valutazione delle occorrenze contemporanee dei valori delle due variabili.
Elaborazione dei dati
•Informatica e statistica 2003 Prof. Giovanni Raho
•42
Si veda anche le diapositive
“Elaborazione dei dati” nella parte introduttiva al programma S. P. S. S..( diapositive 5 – 11)