Sociologia generale e Statistica sociale (15)
Corso di Lingue, Letterature e Culture Straniere
Anno accademico 2019-2020
Prof. Michele Marzulli
Argomento del giorno
• I valori medi: cioè come passare dai datia un singolo indicatore
• Moda, media, mediana
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale2
I valori medi
• Abbiamo raccolto i dati, costruito una matrice, abbiamo le frequenze (distribuzione di freq. su k modalità).
• Ora è anche possibile individuare un valore unico che ci dia un’idea del comportamento di X su U e un ordine di grandezza.
• Cioè un «valore medio», una sintesi ulteriore.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale3
I valori medi
• È possibile costruire valori medi differenti, capaci di cogliere aspetti diversi del fenomeno che stiamo studiando (X).
• Questo perché altrimenti la sintesi rischia di essere troppo riduttiva.
• Moda, mediana e media.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale4
Media, moda, mediana
• Che cosa ha in comune il Campionato di calcio di Serie A, la curva di crescita di un neonato e un laureando di Lingue a Bergamo?
• I valori medi sono il primo dato statistico che certamente vi ha riguardato anche personalmente (non come l’andamento del PIL o il tasso di natalità negli anni ’70).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale5
La moda
• La moda o norma di una variabile statistica è la modalità a cui è associata la frequenza più elevata fra le k osservate del fenomeno di interesse.
• Cioè la modalità più osservata, con maggiore frequenza.
• La moda di X è indicata con x0 (x con 0).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale6
La moda
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale7
• La tabella presenta la frequenza (fi) della variabile xi (si è verificato quanto era stato previsto dall’oroscopo).• xi: si tratta di una scala qualitativa ordinale, utilizzata
nella rilevazione di opinioni/atteggiamenti (scala Likert).
La moda
• In linguaggio formalizzato: tra gli 80 (N) lettori di oroscopo (U), ci sono 5 modalità (k) di risposta.
• La risposta più frequente è definita moda.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale8
La moda
• La moda ci dice che, in sintesi, l’oroscopo si verifica «occasionalmente».
• Per meglio intendersi: nell’esempio, x0 è associato alla frequenza: 35/80 = 0,44 (freq. rel.) = 44% (freq. perc.).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale9
La moda
• È un valore medio di sintesi calcolabile per qualsiasi X (qualitativo o quantitativo, categoriale o ordinale, discreto o continuo).
– Quando si hanno fenomeni continui, con modalità che sono intervalli, x0 è indicato come intervallo modale, quello più denso.
• Può anche esistere più di una moda, per es. due mode (fenomeno bimodale).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale10
La moda: forma bimodale
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale11
I browser più diffusi in Europa, 2012.
La moda
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale12
0
5
10
15
20
25
30
35
40
Categoria 1
Oroscopo
Serie 1 Serie 2 Serie 3 Serie 4 Serie 5
La moda è anche facilmente individuabile.
Ma talvolta la v.s. è priva di moda…
Esercizio
• Dati grezzi, calcolare la moda.
• Età dei presenti: 19, 20, 21, 28, 22, 23, 27, 19, 21, 20, 25, 24, 20, 30, 22, 23, 45, 24, 21, 20 (N=20).
• xi: 19, 20, 21, 22, 23, 24, 25, 27, 28, 30, 45
• fi: 02, 04, 03, 02, 02, 02, 01, 01, 01, 01, 01
• %: x2=4/20= 0,2= 20%
• x0: 20
• La moda del fenomeno X (età) corrisponde alla modalità 20 (k), ma non è molto rappresentativa.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale13
La mediana
• Se il fenomeno studiato è quantitativo (o qualitativo ordinale) è possibile identificare la posizione rispetto all’ordine delle sue modalità k. Quante modalità sono > = < a…?
• Oltre la moda è quindi possibile effettuare una ulteriore sintesi, grazie alla modalità che occupa la posizione centrale.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale14
La mediana
• La mediana di X (x0.5) è la modalità che, nell'ordinamento, occupa la posizione centrale.
• Il 50% di unità statistiche presenta valori di X inferiori o uguali alla mediana; il 50% valori superiori o uguali.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale15
La mediana
• Per calcolare la mediana si scorre la colonna delle frequenze cumulate relative:
• La mediana (x0.5) si trova non appena si raggiunge (o eventualmente si supera) lo 0,5 (corrispondente al 50% di U).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale16
Esempio mediana (1)
1. 5 studenti di facoltà umanistica, classificati secondo l’attitudine (X) alla matematica (test attitudinale).
2. Le modalità associate alla variabile (attitudine) sono: scarsa, ottima, buona (k=3).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale17
Esempio mediana (2)
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale18
3. Le modalità della variabile possono essere ordinate (in ordine crescente).
4. Possiamo anche costruire una tabella delle risposte.
Esempio mediana (3)
• La modalità «buona» si trova in posizione centrale(cfr. Lez. 14, sul valore centrale).
• Questo valore è una sintesi efficace della variabile, perché dice che il 50% degli studenti intervistati ha una attitudine almeno buona alla matematica (≥ «buona»); e che il restante 50% ha una attitudine non superiore a buona (≤).
• Questa modalità è dunque la mediana di X.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale19
Mediana: definizione
• La mediana di X (x0.5) è la modalità che nell’ordinamento occupa la posizionecentrale.
– La mediana non si vede «a occhio», è meno semplice della moda (il valore maggiore), offre un’informazione più chiara.
• Il 50% di U manifesta modalità xi ≤ x0.5
• Il 50% di U manifesta modalità xi ≥ x0.5
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale20
La mediana
• Il calcolo della mediana è possibile e sensato solo se le modalità xi manifestano un ordine, quindi X deve essere almeno ordinale (non deve essere «categoriale»!).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale21
Esempio 2 (1)
• Livello di paura e livello di vergogna («misurati»).
– «a prima vista» in realtà è possibile (con numerosità così ridotte) individuare la mediana… ma non è consigliabile e, soprattutto, all’esame è richiesta la formalizzazione dell’intera procedura.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale22
Esempio 2 (2): livello di paura
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale23
Esempio 2 (3): livello di vergogna
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale24
Generalizzazioni della mediana
• La mediana di X permette di dividere U in duegruppi ugualmente numerosi (50-50).
• Quindi può permettere anche di dividere in più gruppi: quartili, decili, percentili.
• Cioè si può generalizzare.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale25
Quartili
• Possiamo dividere U in 4 gruppi con uguale numerosità, cioè in quarti (ogni gruppo ¼, 0,25; 25%).
• I quartili di X sono le tre modalità:
• x0.25 cioè il 25% di U (quartile inferiore)
• x0.5 cioè il 50% di U ( = mediana)
• x0.75 cioè il 75% di U (quartile superiore)
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale26
Quintili, decili, percentili
• Quintili: divido U in 5 parti uguali: 1/5, 0,20; 20%:
• x0.2 , x0.4 , x0.6 , x0.8
• Decili: divido U in 10 gruppi (1/10; 0,10; 10%):
• x0.1 , x0.2 , x0.3 , x0.4 , x0.5 , x0.6 , x0.7 , x0.8 , x0.9
• Percentili: divido U in 100 gruppi (1%):
• x0.01 , x0.02 … x0.1, … x0.25 … x0.5 … x0.75 … x0.99
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale27
Generalizzazioni delle mediane
• I percentili per valutare la crescita di un bambino:
• https://www.amicopediatra.it/come-fare-per/come-calcolare-i-percentili-di-crescita_sviluppo-fisico/
– I genitori pensano che la norma («normalità») corrisponda al 50° percentile, ma essa si colloca in un range dal 3° al 97°.
– Il 10° percentile (x0.1) dice che il 10% dei maschi pesa alla nascita almeno 2,9 kg.
– Letti nel tempo sono un ottimo indicatore di crescita.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale28
Sintesi in 5 numeri
• Per un fenomeno almeno ordinale (qualitativo ordinale o quantitativo) la v.s. può essere descritta da 5 numeri:
– Minimo: x1
– Primo quartile: x0.25
– Mediana (2° quartile): x0.5
– Terzo quartile: x0.75
– Massimo: xk
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale29
Esempio (5 numeri) (X=età)
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale30
• Minimo x1 = 18; massimo = 25; x0.25 = 20; x0.5 = 22; x0.75 = 23.
I blox-plot (1)
• La sintesi dei 5 numeri di solito è rappresentata graficamente con il blox-plot (o grafico a scatola).
• I 3 quartili (primo, secondo, terzo) costituiscono il box.
• Minimo e massimo costituiscono le braccia: x1 = xmin , xk = xmax
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale31
I blox-plot (2)
• Minimo x1 = 18; massimo = 25; x0.25 = 20; x0.5 = 22; x0.75 = 23.
• La rappresentazione dice che la distribuzione tende alla simmetria, con una lieve sovra-rappresentazione delle età maggiori.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale32
I blox-plot (3)
• Utilità della rappresentazione del dato tramite blox-plot.
– Esempio: un’indagine condotta sulle manager e amministratrici di azienda femmine (N=614) residenti in una piccola provincia balneare italiana (U).
– Fenomeno di interesse (X): guadagno lordo settimanale in migliaia €.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale33
I blox-plot (4)
• Rappresentazione tabellare classica, con dati di sintesi.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale34
I blox-plot (5)
• Gli stessi numeri di sintesi, attraverso i blox-pot:
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale35
Il valore anomalo (outlier)
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale36
Il valore anomalo (outlier)
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale37
La media
• La media aritmetica è un valore di sintesi che può essere utilizzato quando si hanno fenomeni quantitativi, in cui non solo le frequenze, ma anche le modalità sono numeri.
• Si può cioè operare con strumenti matematici su tutta la v.s. (xi , fi) [cfr. Lez. 14].
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale38
La media aritmetica
• In modo intuitivo: è la somma dei valori numerici divisa per il numero dei valori numerici considerati.
• Solo con fenomeni quantitativi, oppure qualitativi ordinali ma rilevati con scalaquantitativa (per es. i voti universitari).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale39
Le media (esempio)
• I voti ottenuti negli esami, espressi in trentesimi.
• Qual è la media dei voti?
• 30+29+27+30+28+30/6 = 174/6 = 29
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale40
Le media (esempio)
• Per essere più precisi: U= esami del I anno; N= 6; X= voto in 30’ (fenomeno qualitativo rilevato su una scala quantitativa); K= 4.
• Notazione: la media di X è ത𝐱 («x medio», x-bar, x-soprasegnato).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale41
La media aritmetica
• La sua formalizzazione è questa (media ponderata).
• Cioè moltiplicare tutte le k modalità osservate xi, per il numero di volte in cui è stato osservato (fi); sommare tutto; dividere per il numero di unità statistiche osservate (N).
• Se usiamo le frequenze relative (cioè divise per N), possiamo usare la seconda formula.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale42
Notazione
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale43
ҧ𝑥 =
𝑖=1
𝑘
𝑥𝑖 𝑝𝑖
Si legge: la media è la sommatoria, per i che va da 1 a k, di 𝑥𝑖 𝑝𝑖 (cioè della frequenza relativa).
La media ponderata
• La media ponderata è un tipo particolare di media, dato dalla somma dei prodotti di ogni numero per i rispettivi «pesi» / la somma dei pesi.
x₁ ∙ p₁ + x₂ ∙ p₂ + … + xn ∙ pnp₁ +p₂ + … + pn
• La semplice media aritmetica è una media in cui tutti i pesi sono = 1.
• Per es.? Il calcolo del voto di laurea.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale44
La media ponderata (es.)
• Il calcolo del voto di laurea: ogni voto ha un valore che deve però essere ponderato (pesato) in base a un criterio (n° CFU).
– Prendere 30/30 in un esame da 5 CFU è diverso da prendere 30/30 in un esame da 10 CFU.
• Bisogna quindi sommare i prodotti dei voti per i CFU e dividere per il numero dei CFUtotali (poi x110 e /30).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale45
Caratteristiche della media
• Tra i valori medi, la media aritmetica assume molte proprietà matematiche (per questo in base ad essa sono possibili molte operazioni aritmetiche) [Cfr. «proprietà formali», cap. 6.1].
• Una proprietà importante è quella di compensazionedelle differenze dei valori osservati rispetto al valore medio (cioè tra i diversi xi e ҧ𝑥 )
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale46
Scarti/deviazioni dalla media
• Scarti o deviazioni dalla media: (𝑥𝑖 - ҧ𝑥)
• Scarto ponderato, su tutte le frequenze: (𝑥𝑖 - ҧ𝑥) 𝑓𝑖
• Ma la media è sempre compresa (internalità) tra il valore minimo e il valore massimo. Quindi vi saranno k scarti negativi e postivi.
• Se lo scarto è positivo (𝑥𝑖 - ҧ𝑥) > 0 è sopra-media
(altrimenti è sotto-media: < 0 ).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale47
Scarti/deviazioni dalla media
• Quindi i valori sopra-media e sotto-media si compensano… cioè se sommiamo tutti i k scarti ponderati si ottiene sempre 0.
• Proprietà di annullamento degli scarti della media
aritmetica: 𝑖=1
𝑘𝑥 ሶ𝑙 − ҧ𝑥 𝑓𝑖 = 0
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale48
Scarti/deviazioni dalla media
• Scarto quadratico: eliminare il segno degli scarti
(𝑥 ሶ𝑙 − valore medio)2 𝑓𝑖
• Gli scarti quadratici ponderati con le frequenze e sommati tutti, forniscono una funzione di perdita: σ𝑖=1𝑘 𝑥 ሶ𝑖 − 𝑣𝑎𝑙𝑜𝑟𝑒 𝑚𝑒𝑑𝑖𝑜 2 𝑓𝑖
• La media aritmetica minimizza la somma degli scarti quadratici ponderati.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale49
Esercizio (5.8)
• Ci sono 45 bomboniere miste che contengono anche dei confetti pregiati (al cioccolato bianco). Il conteggio costruisce questa tabella:
• Sintetizzare ora la v.s. con moda,
mediana e media aritmetica.
• Confrontare e commentare i
risultati.
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale50
N°confetti ciocc. B.
Bomboniere
0 1
1 18
2 4
3 3
4 17
5 2
Esercizio (5.8)
• Costruiamo la tabella dei dati.
• Oltre alle modalità (xi) e alle
frequenze osservate (fi), calcoliamo
le frequenze relative (pi =fi /N) e
le frequenze relative cumulate (Фi).
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale51
xi fi pi Фi
0 1 0,02 0,02
1 18 0,40 0,42
2 4 0,09 0,51
3 3 0,07 0,58
4 17 0,38 0,96
5 2 0,04 1
45 1
Esercizio (5.8)
• Descrizione finale:
• v.s. (X) = numero confetti cioccolato bianco.
• Moda (x0) = 1
• Mediana (x0.5) = 2
• Media (തx) = 0,02 ∙ 0 + 0,40 ∙ 1 + 0,09 ∙ 2 + 0,07 ∙ 3 + 0,38 ∙ 4 + 0,04 ∙ 5 = 0+0,4+0,18+0,21+1,52+0,2 = 2,5
(oppure: 0+18+8+9+68+10/45=2,5)
a.a. 2019/2020Michele Marzulli - Sociologia e Statistica
sociale52