l'analisi bivariata (associazione e cograduazione) l'analisi bivariata... · sinottica...

34
L'analisi bivariata (associazione e cograduazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale

Upload: dangtruc

Post on 17-Feb-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

L'analisi bivariata

(associazione e cograduazione)

Prof. Stefano Nobile Corso di Metodologia della ricerca sociale

L’analisi bivariata

• L’analisi bivariata è un’analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche

• Studia il comportamento di due caratteri considerati congiuntamente

• Misura il grado di associazione tra due caratteri qualitativi, quantitativi e misti

• Fornisce indicazioni riguardo al legame esistente tra coppie di variabili

• Il tipo di associazione dipende dalla natura dei caratteri

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 2

L’analisi bivariata: combinazioni tra

variabili di diversa natura

Variabile indipendente

Nominale Cardinale

Variabile dipendente

Nominale Tabelle di contingenza

*evento raro

Cardinale Analisi della varianza

Regressione e correlazione

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 3

Due problemi opposti

• Una delle due variabili varia poco o niente perché è di fatto una costante

Distribuzioni sbilanciate

• Le due variabili covariano perché sono collegate concettualmente dallo stesso rapporto di indicazione con un concetto più generale

Relazioni troppo strette

tra variabili

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 4

Le tabelle di contingenza

Y1 Y2 Y3 Y4 … Yh

X1 f11 f12 f13 f14 f1h f1*

X2 f21 f22 f23 f24 f2h f2*

X3 f31 f32 f33 f34 f3h f3*

X4 f41 f42 f43 f44 f4h f4*

Xh fh1 fh2 fh3 fh4 FHH fh*

f*1 f*2 f*3 f*4 f*h f**

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 5

I criteri per la costruzione di

una tabella di contingenza

• riportare solo le % che servono PARSIMONIA

• riportare sempre i totali di riga e di colonna (in % o in valore assoluto) TOTALI

• se riporto solo le % è meglio riportare anche i totali (N) sui quali è calcolata la % - sotto un numero ragionevole di unità N non ha senso calcolare le percentuali.

BASI DELLE %

• sono previsti arrotondamenti e riporto di 1 o al massimo 2 cifre decimali CIFRE DECIMALI

• le tavole devono essere sempre intestate INTESTAZIONE

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 6

La relazione tra due variabili

• Se ci si basa esclusivamente sulla matrice dei dati, non è possibile stabilire

se, date due variabili X ed Y, X influenza Y (unidrezionalità) o viceversa o si

influenzano a vicenda (bidirezionalità) e se, stabilito che si influenzano a

vicenda, X influenza Y tanto quanto Y influenza X (asimmetria) o se X e Y si

influenzano reciprocamente allo stesso modo (simmetria).

• Sono le conoscenze del ricercatore circa la natura delle due proprietà a

stabilire: – La simmetria / asimmetria della relazione;

– L’Unidirezionalità / Bidirezionalità della relazione.

• Possono verificarsi tre situazioni: – Unidirezionalità

– Bidirezionalità simmetrica

– Bidirezionalità asimmetrica

• Esistono tecniche di analisi che, preventivamente, consentono di stabilire la

direzione della relazione, ma nessuna di queste consente di stabilire la

simmetria/asimmetria.

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 7

Influenza tra due variabili

Relazione unidirezionale

• Una relazione si dice unidirezionale se, date due variabili A e B, è possibile ipotizzare che A influenzi B senza che A ne sia influenzata. La prima variabile sarà detta indipendente la seconda valibile sarà detta dipendente. In questo caso, quindi la relazione ha un’unica direzione.

Relazione bi-direzionale asimmetrica

• Una relazione si dice bidirezionale asimmetrica se, date due variabili A e B, si ipotizza che ci sia un’influenza reciproca e che A influenza B con una forza minore con cui B influenza A (o viceversa). In questo caso, quindi la relazione ha una doppia direzione.

Relazione bi-direzionale simmetrica

• Una relazione si dice bidirezionale simmetrica se, date due variabili A e B, si ipotizza che ci sia un’influenza reciproca e che A influenza B con la stessa forza con cui B influenza A (o viceversa). Anche in questo caso, quindi, la relazione ha una doppia direzione

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 8

Origine sociale e risultati scolastici

Successi scolastici e aspettative di

istruzione ulteriore Sensibilità civica e

partecipazione

Le percentuali

• Si percentualizza per colonna quando è possibile individuare una variabile indipendente

• Si percentualizza per riga se si vogliono esplorare anche le percentuali di riga trattando la variabile di riga come una specifica classe

• Si percentualizza sul totale quando si vuole vedere l’ammontare percentuale delle singole combinazioni (riga+colonna, che diventa una classificazione)

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 9

Direzione delle percentuali

18-34 35-54 Oltre 54 Totale

Praticanti 24,4 27,6 41,5 28,9 Saltuari 29,1 28,0 20,1 27,0 Non praticanti 46,5 44,4 38,4 44,1 Totale 100,0 100,0 100,0 100,0 (N) (914) (1134) (438) (2486)

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 10

La percentualizzazione per colonna risponde a questa domanda: «l'età degli intervistati influenza il loro grado di pratica religiosa?». Si tratta di una domanda esplicativa (si considera l’età come causa della pratica religiosa).

Direzione delle percentuali

18-34 35-54 Oltre 54 Totale N

Praticanti 31,1 43,6 25,3 100,0 (718) Saltuari 39,6 47,3 13,1 100,0 (671) Non praticanti 38,7 46,0 15,3 100,0 (1097) Totale 36,8 45,6 17,6 100,0 (2486)

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 11

La percentualizzazione per riga risponde a questa domanda: «il gruppo dei praticanti è mediamente più giovane o più anziano rispetto ai non praticanti e ai saltuari?» Non è una domanda esplicativa. Non intendiamo sapere se essere praticante o meno abbia effetti sull'età dell'intervistato, lo scopo è meramente descrittivo.

Rappresentazioni grafiche

di una relazione bivariata

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 12

Rappresentazioni grafiche

di una relazione bivariata

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 13

Indipendenza statistica

B1 B2 B3 B4 Tot

A1 6 6 6 7 25

A2 6 6 7 6 25

A3 6 7 6 6 25

A4 7 6 6 6 25

Tot 25 25 25 25 100

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 14

Associazione statistica

B1 B2 B3 B4 Tot

A1 25 0 0 0 25

A2 0 25 0 0 25

A3 0 0 25 0 25

A4 0 0 0 25 25

Tot 25 25 25 25 100

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 15

Associazione statistica

• Associazione tra due variabili categoriali

Concordanza

• Associazione tra due variabili ordinali Cograduazione

• Associazione tra due variabili cardinali o quasi cardinali

Correlazione

• Associazione tra variabili cardinali e ordinali

Covariazione

Controvariazione

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 16

Mar

rad

i, 1

99

7

Associazione diretta e

inversa

Associazione diretta

•Coefficienti di segno positivo

Associazione inversa

•Coefficienti di segno negativo

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 17

Vale per le variabili nominali?

Accertare la fondatezza di una

relazione causale tra variabili

• Coefficienti di significatività statistica

Esistenza della relazione

• Coefficienti di associazione statistica

Forza della relazione

• Analisi di opportune relazioni grafiche

Forma della relazione

• Analisi multivariata Genuinità della

relazione

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 18

Esistenza d

ella relazion

e

Il test del χ quadrato

• L’indice chi-quadrato χ2 misura la distanza della distribuzione di frequenza osservata dalla distribuzione di frequenza attesa che si avrebbe in caso di indipendenza

• Tale distanza è funzione delle differenze tra le frequenze osservate e quelle teoriche.

• All’aumentare degli scarti in valore assoluto fra le frequenze osservate e quelle teoriche il χ2 aumenta. L’indice è nullo quando le frequenze osservate sono uguali a quelle attese e sono in un caso di indipendenza

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 19

Il test del χ quadrato

• χ2 = 𝑓𝑜 −𝑓𝑒 2

𝑓𝑒

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 20

Il test del χ quadrato

• Il valore di chi2 aumenta all’aumentare della

numerosità del campione n.

• Per avere una misura di distanza che non

dipenda da n viene introdotto φ2 (phi quadro)

• φ2 =χ2/n

• φ2 = 0 in caso di indipendenza

• φ2 ≤ min [(r - 1); (c - 1)] dove r e c

rappresentano il numero di modalità di X e Y

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 21

La forza della relazione: il Q

di Yule

• Il Q di Yule è una misura statistica che

fornisce un’indicazione sulla forza

dell’associazione tra due variabili

categoriali dicotomiche. Si calcola così:

• Q=𝑎𝑑−𝑏𝑐

𝑎𝑑+𝑏𝑐

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 22

Xa Xb

Ya A B

Yb C D

Misure di associazione tra due variabili

ordinali: il gamma di Goodman e Kruskal

• Le variabili ordinali contengono l’ordine delle modalità delle variabili. Per questo motivo possono esistere due tipi di relazione:

• Cograduazione (relazione diretta) tra X e Y quando le modalità di ordine elevato di X si associano più frequentemente a modalità di ordine elevato di Y, e viceversa.

• Contrograduazione (relazione inversa) tra X e Y quando le modalità di ordine elevato di X si associano più frequentemente a modalità di ordine basso di Y

• L’Indice gamma di Goodman e Kruskal:

γ =𝐶 −𝐷

𝐶+𝐷

• dove C e D rappresentano il numero di coppie concordanti e discordanti nei dati.

- 1 ≤ γ≤ +1

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 23

Misure di associazione tra due

variabili ordinali: il tau di Kendall

• Tau-b=𝑃−𝑄

𝐷𝑟𝐷𝑐

• P = Somma delle coppie cograduate; Q =

somma delle coppie contrograduate

• Tau-c=𝑞(𝑃−𝑄)

𝑁2(𝑞 −1)

• Dove q=min(R,C)

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 24

La forza della relazione: il φ,

il D di Somers e il tau

• In alternativa, si usa il φ:

Φ = 𝑎𝑏 −𝑐𝑑

𝑎+𝑏 𝑐+𝑑 𝑎+𝑐 (𝑏+𝑑)

• Oppure di il D di Somers:

d = 𝑎𝑏 −𝑐𝑑

𝑎𝑑+𝑏𝑐+1

2(𝑎𝑑+𝑏𝑐)

• Sebbene quello che funziona meglio, in circostanze di questo tipo, sembra essere il τ (tau) :

τ = 4 (𝑎𝑑 −𝑏𝑐)

𝑁2

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 25

Sinottica dei coefficienti per tabelle di contingenza fra

due dicotomie (Marradi, 1997: 44)

Coppie di marginali Q φ Dsim τ Dxy

Entrambe equilibrate Bene Bene Bene Bene bene

Una equilibrata e una no

Sovrastima Bene Bene Bene

Sovrastima se è semivuota una riga; bene se è semivuota una colonna

Entr

amb

e eq

uili

bra

te e

Nessuna cella (semi)vuota

Bene Accettabile Accettabile Accettabile Accettabile

Una cella (semi)vuota Sovrastima moltissimo

Sovrastima molto

Sovrastima molto

Sovrastima molto

Sovrastima molto

Una diagonale (semi)vuota

Bene Bene Bene Può sottostimare molto

Bene

Tre celle (semi)vuote Sovrastima moltissimo

Sovrastima molto

Sovrastima molto

Accettabile Sovrastima

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 26

Il paradosso di Simpson

• Si vuole sperimentare l’effetto sulle vendite di un certo prodotto di una campagna pubblicitaria;

• Da un sondaggio effettuato, è noto che i contenuti del messaggio pubblicitario sono stati considerati “sgradevoli” da una certa quota delle persone intervistate (il messaggio era, o appariva, “politicamente scorretto”).

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 27

Il paradosso di Simpson

La sperimentazione ha dato i seguenti risultati:

% di acquisto con pubblicità: 50%

% di acquisto senza pubblicità: 40%

Quindi sembra che – nonostante la sgradevolezza del messaggio – la campagna abbia comunque avuto un certo successo.

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 28

Hanno acquistato Non hanno acquistato

Totale

Con pubblicità 200 200 400

Senza pubblicità 160 240 400

Totale 360 440 800

Il paradosso di Simpson

Ora andiamo a vedere che cosa accade se separiamo il nostro campione in due parti: rispettivamente, in maschi e femmine:

% di acquisto con pubblicità: 60%

% di acquisto senza pubblicità: 70%

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 29

Maschi Hanno

acquistato Non hanno acquistato

Totale

Con pubblicità 180 120 300

Senza pubblicità 70 30 100

Totale 250 150 400

Il paradosso di Simpson

Ecco quanto accade tra le femmine:

% di acquisto con pubblicità: 20%

% di acquisto senza pubblicità: 30%

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 30

Femmine Hanno

acquistato Non hanno acquistato

Totale

Con pubblicità 20 80 100

Senza pubblicità 90 210 300

Totale 110 290 400

Il paradosso di Simpson

• A sorpresa, quindi, gli stessi dati – una volta considerati separatamente per maschi e femmine, danno risultati completamente opposti a quelli visti per il campione complessivo;

• Questo fenomeno è dovuto alla scelta – evidentemente disonesta – del “protocollo” sperimentale: durante la sperimentazione, i maschi sono stati sottoposti al messaggio pubblicitario in misura molto maggiore rispetto alle femmine (300 maschi vs 100 femmine);

• E questo perché ai disonesti sperimentatori era noto che, per i maschi, il messaggio pubblicitario era risultato essere molto meno sgradevole che per le femmine.

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 31

Il rapporto di probabilità e

gli odds ratio

• Una misura di associazione molto importante è il rapporto tra Odds (Odds Ratio), in alcuni testi chiamato anche “rapporto crociato”.

• Dato un certo insieme di individui, suddiviso dicotomicamente in due parti: coloro che sono ammalati, (o hanno una certa condizione, A) e coloro che non sono ammalati (NA), si dice ODDS, o rapporto di probabilità, il rapporto tra la probabilità di essere ammalati (o di avere una certa condizione, A) e la probabilità dell’evento complementare, cioè di non essere ammalati (NA, o di NON avere una certa condizione, A).

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 32

Il rapporto di probabilità

• Odds = P(A)/P(NA) = 𝑃(𝐴)

1 −𝑃(𝐴)

• Poiché, con semplici passaggi, si ha:

• odds = 𝑃(𝐴)

𝑃(𝑁𝐴) =

𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖

𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑎 𝑟𝑖𝑠𝑐ℎ𝑖𝑜

𝑛𝑜𝑛 𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖

𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑎 𝑟𝑖𝑠𝑐ℎ𝑖𝑜

= 𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖

𝑛𝑜𝑛 𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖

• Risulta evidente che per calcolare l’odds non è necessario conoscere la consistenza numerica della popolazione a rischio, ma è sufficiente sapere quanti Sono ammalati e quanti no.

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 33

Gli odds ratio

• Se vogliamo confrontare ciò che accade a un

insieme di individui (es. gli ESPOSTI a un

certo fattore Di Rischio) con ciò che accade a

un altro insieme di individui (es. i NON

ESPOSTI), possiamo fare il rapporto tra i due

ODDS (Odds Ratio):

• OR = 𝑂𝑑𝑑𝑠 (𝐸𝑠𝑝𝑜𝑠𝑡𝑖)

𝑂𝑑𝑑𝑠 (𝑁𝑜𝑛 𝑒𝑠𝑝𝑜𝑠𝑡𝑖) =

𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖

𝑛𝑜𝑛 𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖𝑒𝑠𝑝𝑜𝑠𝑡𝑖

𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖

𝑛𝑜𝑛 𝑎𝑚𝑚𝑎𝑙𝑎𝑡𝑖𝑛𝑜𝑛 𝑒𝑠𝑝𝑜𝑠𝑡𝑖

Prof. Stefano Nobile L'analisi bivariata (associazione e cograduazione) 34