l'analisi bivariata (associazione e cograduazione) l'analisi bivariata... · sinottica...
Post on 17-Feb-2019
216 Views
Preview:
TRANSCRIPT
L'analisi bivariata
(associazione e cograduazione)
Prof. Stefano Nobile Corso di Metodologia della ricerca sociale
L’analisi bivariata
• L’analisi bivariata è un’analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche
• Studia il comportamento di due caratteri considerati congiuntamente
• Misura il grado di associazione tra due caratteri qualitativi, quantitativi e misti
• Fornisce indicazioni riguardo al legame esistente tra coppie di variabili
• Il tipo di associazione dipende dalla natura dei caratteri
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 2
L’analisi bivariata: combinazioni tra
variabili di diversa natura
Variabile indipendente
Nominale Cardinale
Variabile dipendente
Nominale Tabelle di contingenza
*evento raro
Cardinale Analisi della varianza
Regressione e correlazione
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 3
Due problemi opposti
• Una delle due variabili varia poco o niente perché è di fatto una costante
Distribuzioni sbilanciate
• Le due variabili covariano perché sono collegate concettualmente dallo stesso rapporto di indicazione con un concetto più generale
Relazioni troppo strette
tra variabili
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 4
Le tabelle di contingenza
Y1 Y2 Y3 Y4 … Yh
X1 f11 f12 f13 f14 f1h f1*
X2 f21 f22 f23 f24 f2h f2*
X3 f31 f32 f33 f34 f3h f3*
X4 f41 f42 f43 f44 f4h f4*
…
Xh fh1 fh2 fh3 fh4 FHH fh*
f*1 f*2 f*3 f*4 f*h f**
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 5
I criteri per la costruzione di
una tabella di contingenza
• riportare solo le % che servono PARSIMONIA
• riportare sempre i totali di riga e di colonna (in % o in valore assoluto) TOTALI
• se riporto solo le % è meglio riportare anche i totali (N) sui quali è calcolata la % - sotto un numero ragionevole di unità N non ha senso calcolare le percentuali.
BASI DELLE %
• sono previsti arrotondamenti e riporto di 1 o al massimo 2 cifre decimali CIFRE DECIMALI
• le tavole devono essere sempre intestate INTESTAZIONE
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 6
La relazione tra due variabili
• Se ci si basa esclusivamente sulla matrice dei dati, non è possibile stabilire
se, date due variabili X ed Y, X influenza Y (unidrezionalità) o viceversa o si
influenzano a vicenda (bidirezionalità) e se, stabilito che si influenzano a
vicenda, X influenza Y tanto quanto Y influenza X (asimmetria) o se X e Y si
influenzano reciprocamente allo stesso modo (simmetria).
• Sono le conoscenze del ricercatore circa la natura delle due proprietà a
stabilire: – La simmetria / asimmetria della relazione;
– L’Unidirezionalità / Bidirezionalità della relazione.
• Possono verificarsi tre situazioni: – Unidirezionalità
– Bidirezionalità simmetrica
– Bidirezionalità asimmetrica
• Esistono tecniche di analisi che, preventivamente, consentono di stabilire la
direzione della relazione, ma nessuna di queste consente di stabilire la
simmetria/asimmetria.
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 7
Influenza tra due variabili
Relazione unidirezionale
• Una relazione si dice unidirezionale se, date due variabili A e B, è possibile ipotizzare che A influenzi B senza che A ne sia influenzata. La prima variabile sarà detta indipendente la seconda valibile sarà detta dipendente. In questo caso, quindi la relazione ha un’unica direzione.
Relazione bi-direzionale asimmetrica
• Una relazione si dice bidirezionale asimmetrica se, date due variabili A e B, si ipotizza che ci sia un’influenza reciproca e che A influenza B con una forza minore con cui B influenza A (o viceversa). In questo caso, quindi la relazione ha una doppia direzione.
Relazione bi-direzionale simmetrica
• Una relazione si dice bidirezionale simmetrica se, date due variabili A e B, si ipotizza che ci sia un’influenza reciproca e che A influenza B con la stessa forza con cui B influenza A (o viceversa). Anche in questo caso, quindi, la relazione ha una doppia direzione
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 8
Origine sociale e risultati scolastici
Successi scolastici e aspettative di
istruzione ulteriore Sensibilità civica e
partecipazione
Le percentuali
• Si percentualizza per colonna quando è possibile individuare una variabile indipendente
• Si percentualizza per riga se si vogliono esplorare anche le percentuali di riga trattando la variabile di riga come una specifica classe
• Si percentualizza sul totale quando si vuole vedere l’ammontare percentuale delle singole combinazioni (riga+colonna, che diventa una classificazione)
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 9
Direzione delle percentuali
18-34 35-54 Oltre 54 Totale
Praticanti 24,4 27,6 41,5 28,9 Saltuari 29,1 28,0 20,1 27,0 Non praticanti 46,5 44,4 38,4 44,1 Totale 100,0 100,0 100,0 100,0 (N) (914) (1134) (438) (2486)
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 10
La percentualizzazione per colonna risponde a questa domanda: «l'età degli intervistati influenza il loro grado di pratica religiosa?». Si tratta di una domanda esplicativa (si considera l’età come causa della pratica religiosa).
Direzione delle percentuali
18-34 35-54 Oltre 54 Totale N
Praticanti 31,1 43,6 25,3 100,0 (718) Saltuari 39,6 47,3 13,1 100,0 (671) Non praticanti 38,7 46,0 15,3 100,0 (1097) Totale 36,8 45,6 17,6 100,0 (2486)
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 11
La percentualizzazione per riga risponde a questa domanda: «il gruppo dei praticanti è mediamente più giovane o più anziano rispetto ai non praticanti e ai saltuari?» Non è una domanda esplicativa. Non intendiamo sapere se essere praticante o meno abbia effetti sull'età dell'intervistato, lo scopo è meramente descrittivo.
Rappresentazioni grafiche
di una relazione bivariata
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 12
Rappresentazioni grafiche
di una relazione bivariata
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 13
Indipendenza statistica
B1 B2 B3 B4 Tot
A1 6 6 6 7 25
A2 6 6 7 6 25
A3 6 7 6 6 25
A4 7 6 6 6 25
Tot 25 25 25 25 100
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 14
Associazione statistica
B1 B2 B3 B4 Tot
A1 25 0 0 0 25
A2 0 25 0 0 25
A3 0 0 25 0 25
A4 0 0 0 25 25
Tot 25 25 25 25 100
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 15
Associazione statistica
• Associazione tra due variabili categoriali
Concordanza
• Associazione tra due variabili ordinali Cograduazione
• Associazione tra due variabili cardinali o quasi cardinali
Correlazione
• Associazione tra variabili cardinali e ordinali
Covariazione
Controvariazione
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 16
Mar
rad
i, 1
99
7
Associazione diretta e
inversa
Associazione diretta
•Coefficienti di segno positivo
Associazione inversa
•Coefficienti di segno negativo
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 17
Vale per le variabili nominali?
Accertare la fondatezza di una
relazione causale tra variabili
• Coefficienti di significatività statistica
Esistenza della relazione
• Coefficienti di associazione statistica
Forza della relazione
• Analisi di opportune relazioni grafiche
Forma della relazione
• Analisi multivariata Genuinità della
relazione
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 18
Esistenza d
ella relazion
e
Il test del χ quadrato
• L’indice chi-quadrato χ2 misura la distanza della distribuzione di frequenza osservata dalla distribuzione di frequenza attesa che si avrebbe in caso di indipendenza
• Tale distanza è funzione delle differenze tra le frequenze osservate e quelle teoriche.
• All’aumentare degli scarti in valore assoluto fra le frequenze osservate e quelle teoriche il χ2 aumenta. L’indice è nullo quando le frequenze osservate sono uguali a quelle attese e sono in un caso di indipendenza
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 19
Il test del χ quadrato
• χ2 = 𝑓𝑜 −𝑓𝑒 2
𝑓𝑒
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 20
Il test del χ quadrato
• Il valore di chi2 aumenta all’aumentare della
numerosità del campione n.
• Per avere una misura di distanza che non
dipenda da n viene introdotto φ2 (phi quadro)
• φ2 =χ2/n
• φ2 = 0 in caso di indipendenza
• φ2 ≤ min [(r - 1); (c - 1)] dove r e c
rappresentano il numero di modalità di X e Y
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 21
La forza della relazione: il Q
di Yule
• Il Q di Yule è una misura statistica che
fornisce un’indicazione sulla forza
dell’associazione tra due variabili
categoriali dicotomiche. Si calcola così:
• Q=𝑎𝑑−𝑏𝑐
𝑎𝑑+𝑏𝑐
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 22
Xa Xb
Ya A B
Yb C D
Misure di associazione tra due variabili
ordinali: il gamma di Goodman e Kruskal
• Le variabili ordinali contengono l’ordine delle modalità delle variabili. Per questo motivo possono esistere due tipi di relazione:
• Cograduazione (relazione diretta) tra X e Y quando le modalità di ordine elevato di X si associano più frequentemente a modalità di ordine elevato di Y, e viceversa.
• Contrograduazione (relazione inversa) tra X e Y quando le modalità di ordine elevato di X si associano più frequentemente a modalità di ordine basso di Y
• L’Indice gamma di Goodman e Kruskal:
γ =𝐶 −𝐷
𝐶+𝐷
• dove C e D rappresentano il numero di coppie concordanti e discordanti nei dati.
- 1 ≤ γ≤ +1
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 23
Misure di associazione tra due
variabili ordinali: il tau di Kendall
• Tau-b=𝑃−𝑄
𝐷𝑟𝐷𝑐
• P = Somma delle coppie cograduate; Q =
somma delle coppie contrograduate
• Tau-c=𝑞(𝑃−𝑄)
𝑁2(𝑞 −1)
• Dove q=min(R,C)
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 24
La forza della relazione: il φ,
il D di Somers e il tau
• In alternativa, si usa il φ:
Φ = 𝑎𝑏 −𝑐𝑑
𝑎+𝑏 𝑐+𝑑 𝑎+𝑐 (𝑏+𝑑)
• Oppure di il D di Somers:
d = 𝑎𝑏 −𝑐𝑑
𝑎𝑑+𝑏𝑐+1
2(𝑎𝑑+𝑏𝑐)
• Sebbene quello che funziona meglio, in circostanze di questo tipo, sembra essere il τ (tau) :
τ = 4 (𝑎𝑑 −𝑏𝑐)
𝑁2
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 25
Sinottica dei coefficienti per tabelle di contingenza fra
due dicotomie (Marradi, 1997: 44)
Coppie di marginali Q φ Dsim τ Dxy
Entrambe equilibrate Bene Bene Bene Bene bene
Una equilibrata e una no
Sovrastima Bene Bene Bene
Sovrastima se è semivuota una riga; bene se è semivuota una colonna
Entr
amb
e eq
uili
bra
te e
Nessuna cella (semi)vuota
Bene Accettabile Accettabile Accettabile Accettabile
Una cella (semi)vuota Sovrastima moltissimo
Sovrastima molto
Sovrastima molto
Sovrastima molto
Sovrastima molto
Una diagonale (semi)vuota
Bene Bene Bene Può sottostimare molto
Bene
Tre celle (semi)vuote Sovrastima moltissimo
Sovrastima molto
Sovrastima molto
Accettabile Sovrastima
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 26
Il paradosso di Simpson
• Si vuole sperimentare l’effetto sulle vendite di un certo prodotto di una campagna pubblicitaria;
• Da un sondaggio effettuato, è noto che i contenuti del messaggio pubblicitario sono stati considerati “sgradevoli” da una certa quota delle persone intervistate (il messaggio era, o appariva, “politicamente scorretto”).
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 27
Il paradosso di Simpson
La sperimentazione ha dato i seguenti risultati:
% di acquisto con pubblicità: 50%
% di acquisto senza pubblicità: 40%
Quindi sembra che – nonostante la sgradevolezza del messaggio – la campagna abbia comunque avuto un certo successo.
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 28
Hanno acquistato Non hanno acquistato
Totale
Con pubblicità 200 200 400
Senza pubblicità 160 240 400
Totale 360 440 800
Il paradosso di Simpson
Ora andiamo a vedere che cosa accade se separiamo il nostro campione in due parti: rispettivamente, in maschi e femmine:
% di acquisto con pubblicità: 60%
% di acquisto senza pubblicità: 70%
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 29
Maschi Hanno
acquistato Non hanno acquistato
Totale
Con pubblicità 180 120 300
Senza pubblicità 70 30 100
Totale 250 150 400
Il paradosso di Simpson
Ecco quanto accade tra le femmine:
% di acquisto con pubblicità: 20%
% di acquisto senza pubblicità: 30%
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 30
Femmine Hanno
acquistato Non hanno acquistato
Totale
Con pubblicità 20 80 100
Senza pubblicità 90 210 300
Totale 110 290 400
Il paradosso di Simpson
• A sorpresa, quindi, gli stessi dati – una volta considerati separatamente per maschi e femmine, danno risultati completamente opposti a quelli visti per il campione complessivo;
• Questo fenomeno è dovuto alla scelta – evidentemente disonesta – del “protocollo” sperimentale: durante la sperimentazione, i maschi sono stati sottoposti al messaggio pubblicitario in misura molto maggiore rispetto alle femmine (300 maschi vs 100 femmine);
• E questo perché ai disonesti sperimentatori era noto che, per i maschi, il messaggio pubblicitario era risultato essere molto meno sgradevole che per le femmine.
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 31
Il rapporto di probabilità e
gli odds ratio
• Una misura di associazione molto importante è il rapporto tra Odds (Odds Ratio), in alcuni testi chiamato anche “rapporto crociato”.
• Dato un certo insieme di individui, suddiviso dicotomicamente in due parti: coloro che sono ammalati, (o hanno una certa condizione, A) e coloro che non sono ammalati (NA), si dice ODDS, o rapporto di probabilità, il rapporto tra la probabilità di essere ammalati (o di avere una certa condizione, A) e la probabilità dell’evento complementare, cioè di non essere ammalati (NA, o di NON avere una certa condizione, A).
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 32
Il rapporto di probabilità
• Odds = P(A)/P(NA) = 𝑃(𝐴)
1 −𝑃(𝐴)
• Poiché, con semplici passaggi, si ha:
• odds = 𝑃(𝐴)
𝑃(𝑁𝐴) =
𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖
𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑎 𝑟𝑖𝑠𝑐ℎ𝑖𝑜
𝑛𝑜𝑛 𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖
𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑎 𝑟𝑖𝑠𝑐ℎ𝑖𝑜
= 𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖
𝑛𝑜𝑛 𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖
• Risulta evidente che per calcolare l’odds non è necessario conoscere la consistenza numerica della popolazione a rischio, ma è sufficiente sapere quanti Sono ammalati e quanti no.
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 33
Gli odds ratio
• Se vogliamo confrontare ciò che accade a un
insieme di individui (es. gli ESPOSTI a un
certo fattore Di Rischio) con ciò che accade a
un altro insieme di individui (es. i NON
ESPOSTI), possiamo fare il rapporto tra i due
ODDS (Odds Ratio):
• OR = 𝑂𝑑𝑑𝑠 (𝐸𝑠𝑝𝑜𝑠𝑡𝑖)
𝑂𝑑𝑑𝑠 (𝑁𝑜𝑛 𝑒𝑠𝑝𝑜𝑠𝑡𝑖) =
𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖
𝑛𝑜𝑛 𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖𝑒𝑠𝑝𝑜𝑠𝑡𝑖
𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖
𝑛𝑜𝑛 𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖𝑛𝑜𝑛 𝑒𝑠𝑝𝑜𝑠𝑡𝑖
Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 34
top related