new xx - le relazioni fra variabili · 2020. 5. 9. · mrc / xx - relazioni fra variabili 5 uso...
TRANSCRIPT
1
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 1
XX XX -- LE RELAZIONI FRA LE RELAZIONI FRA
VARIABILIVARIABILI
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 2
I I -- ASPETTI DA CONSIDERARE ASPETTI DA CONSIDERARE
NELLNELL’’ANALISI DELLE RELAZIONI ANALISI DELLE RELAZIONI
FRA VARIABILIFRA VARIABILI
NB Questa analisi caratterizza il METODO
DELL’ASSOCIAZIONE (o “delle co-variazioni”) =
gran parte del metodo che abbiamo fin qui illustrato
2
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 3
1) INTENSITA’ dell’associazione = quanto ≥
2 variabili sono associate fra loro (quanto
co-variano);
2) SEGNO = associazione diretta o inversa;
3) DIREZIONE: influenza reciproca o una
variabile influisce sull’altra (o sulle altre)
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 4
1) INTENSITA’ DELL’ASSOCIAZIONE
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
SC
OL
AR
IZZ
AZ
ION
E
Bassa
Le 2 variabili X e Y
(uso internet e
scolarizzazione) co-
variano = al variare
di X varia anche Y
INTENSITA’ TOTALE = non vi sono eccezioni alla
associazione
3
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 5
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
SC
OL
AR
IZZ
AZ
ION
E
Bassa
INDIPENDENZA TOTALE = l’associazione è
inesistente
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 6
Anche la piena indipendenza può essere interessante dal punto di vista semantico: es. non vi è alcuna differenza fra donne e uomini nella partecipazione elettorale (� parità di genere).
1005050Femmine
1005050Maschi
Tot. %Voto noVoto sì
4
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 7
tradizione storico-culturale di una società o
di sue parti + autonomia individuale + altre cause (anche imponderabili)
(Quasi) sempre nelle scienze umane non
si riscontrano né intensità totale né
indipendenza totale.
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 8
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
SC
OL
AR
IZZ
AZ
ION
E
Bassa
Associazione
intensa (vi è una
sola eccezione)
ma non totale, bensì
tendenziale
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
SC
OL
AR
IZZ
AZ
ION
E
Bassa
5
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 9
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
S
CO
LA
RIZ
ZA
ZIO
NE
Bassa
ASSOCIAZIONE meno intensa di quella
nell’esempio precedente (qui 2 eccezioni)
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
S
CO
LA
RIZ
ZA
ZIO
NE
Bassa
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
S
CO
LA
RIZ
ZA
ZIO
NE
Bassa
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 10
ASSOCIAZIONE “riduzione proporzionale dell’errore” (p.r.e.) = Conoscendo i valori di una
variabile, abbiamo un certo vantaggio nella capacità di predire i valori
dell’altra. Più strettamente sono associate, maggiore sarà il nostro vantaggio,
cioè sarà meno probabile l’errore di predizione.
INDIPENDENZA
Nessuna “riduzione proporzionale dell’errore” nel predire i valori di una
variabile conoscendo i valori dell’altra.
Fra completa indipendenza e piena associazione si danno molti gradi intermedi. Il grado di associazione è l’intensità della relazione.
In conclusione:
6
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 11
RELAZIONE FRA 2 VARIABILI
associazione indipendenza
Covariazione(var. cardinali e
ordinali)
Concordanza(var. categoriali)
Correlazione(var. cardinali)
Cograduazione(var. ordinali)
Per ogni tipo di relazione
è possibile calcolare
specifici coefficienti
statistici che quantificano
l’intensità
dell’associazione
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 12
2) IL SEGNO DELL’ASSOCIAZIONE
• RELAZIONE POSITIVA = se la variabile X ha valori alti, li ha anche la variabile Y; se X ha valori bassi, li ha anche Y
• SEGNO convenzionale: �
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
SC
OL
AR
IZZ
AZ
ION
E
Bassa
7
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 13
L’associazione è tendenzialmente positiva
(= ci sono eccezioni)
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
SC
OL
AR
IZZ
AZ
ION
E
Bassa
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 14
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
SC
OL
AR
IZZ
AZ
ION
E
Bassa
RELAZIONE NEGATIVA = X ha valori alti � Y ha valori
bassi; X ha valori bassi � Y ha valori alti;
SEGNO convenzionale: -
8
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 15
USO QUOTIDIANO DI INTERNET
3 ore o più Meno di 3 ore
Alta
S
CO
LA
RIZ
ZA
ZIO
NE
Bassa
L’associazione è tendenzialmente negativa
(= ci sono eccezioni)
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 16
NB. Per parlare di valori alti/bassi
occorrono variabili con categorie
ordinate o cardinali (= vi è un ordine fra le loro categorie) � le
variabili categoriali sono escluse
dall’individuazione del segno
9
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 17
3) LA DIREZIONE
IL CONCETTO DI DIREZIONE
PRESUPPONE L’INFLUENZA DI UNA O
PIU’ VARIABILI (“indipendente/i”) SU
UN’ALTRA (o su altre).
X(var. indipendente)
Y(var. dipendente)
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 18
Relazione unidirezionale
Età
Qualunque
altra
variabile
delle scienze
sociali
10
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 19
Relazione bi-direzionale simmetrica
(= influenza reciproca di uguale
intensità)
Talvolta l’influenza può essere reciproca e di diversa o
uguale intensità
Opinioni
politiche di
un coniuge
Opinioni
politiche
dell'altro
coniuge
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 20
Relazione bidirezionale asimmetrica(influenza reciproca ma di diversa intensità)
Capitale
culturaleOccupazione
11
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 21
La tabella dimostra un’intensa
associazione
ma non quale è la
direzione della relazione.
COMPORTAMENTO ELETTORALE E TG PREFERITO (%)
VOTO ULTIME ELEZIONI
Partito A Partito B tot
TgW 80 20 100
TgZ 20 80 100
TG
preferito
Gran parte di chi guarda il TgW vota per il partito A; gran parte di chi
guarda il TgZ vota per il partito B
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 22
Per stabilirlo occorre ricorrere a informazioni esterne alla matrice (=
al di fuori del metodo dell’associazione).
Alcune informazioni sono corroborate dal buon senso.
Altre volte le informazioni sono insufficienti � è il ricercatore a
ipotizzare una direzione.
Età
Qualunque
altra
variabile
delle scienze
sociali
12
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 23
il metodo dell’associazione
CONSENTE di:
�Rilevare se esiste associazione fra 2 o più variabili;
�Quantificare l’intensità di questa eventuale associazione;
�Individuarne il segno (MA SOLO in variabili ordinali e cardinali)
NON CONSENTE di:Individuare la direzione. Può ipotizzarlaipotizzarla il ricercatore. I test statistici assumono (NON controllano, non confermano né disconfermano) tale ipotesi e stimano l’intensità e il segno dell’influenza di una/più variabile/i sull’altra/e.
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 24
RICAPITOLANDO:
LE RELAZIONI FRA VARIABILI
nel metodo dell’associazione
var. ordinali e cardinali
ASSOCIAZIONEfra variabile X e
var. Y
NO
SI'
INTENSITA'
SEGNO
POSITIVOValori alti di X e di
Y;oppure
NEGATIVOValori alti di X e bassi di
Yo viceversa
DIREZIONE
BIDIREZIONALE
UNIDIREZIONALE
SIMMETRICA
ASIMMETRICA
Quasi sempre IPOTESI
13
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 25
II. MODELLI BIVARIATI E II. MODELLI BIVARIATI E
TRIVARIATITRIVARIATI
Modelli = rappresentazioni grafiche di ipotesi su relazioni
fra due o più variabili
Esempio: relazione fra variabile X e variabile Y
X Y
= equivalente grafico dell’asserto “si
ipotizza che fra X e Y la relazione
sia unidirezionale”.
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 26
⇒ IN MATEMATICA (scienza non empirica) è possibile un modello bivariato perfetto. Y = f(X) i valori di Y dipendono esclusivamente da X.
⇒ IN FISICA E IN BIOLOGIA (scienze empiriche) i modelli bivariati non sono perfetti. Yi = f(Xi) + ei In astratto i valori di Y dipendono esclusivamente da
X. Ma nei casi concreti (i) Y subisce una serie di perturbazioni accidentali (e, “errore stocastico”) imprevedibile nel singolo caso ma con distribuzione prevedibile nel complesso dei casi
⇒ NELLE SCIENZE UMANE il modello Yi = f(Xi) + ei è troppo riduttivo perché non agiscono solo perturbazioni accidentali (e), ma anche altre relazioni che influiscono sulle 2 variabili considerate.
Limiti dei modelli bivariati:
14
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 27
•La semplificazione del modello bivariato è un necessario
punto di partenza � i modelli multivariati si fondano su
relazioni bivariate e sono scomponibili in esse;
•Esplorare relazioni più complesse (tri-/multi-variate) èmolto complicato, soprattutto con variabili categoriali.
POTENZIALITA’ DEI MODELLI BIVARIATI:
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 28
Talvolta i modelli bivariati non solo sono riduttivi, ma producono distorsioni.
Numero di cicogne
Numero bambini
nati
RELAZIONI SPURIE = relazioni apparenti,
profondamente diverse dalle relazioni esistenti nella realtà
15
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 29
Numero di cicogne
Numero bambini
nati
numero di
cicogne
Numero
bambini
nati
Numero di
abitazioni
Relazione apparente
Relazione reale
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 30
Relazione apparente
Relazione reale
NUMERO DI
AUTOBOTTI
INVIATE
DANNI
DELL'INCENDIO
DIMENSIONE INCENDIO
NUMERO DI
AUTOBOTTI
INVIATE
DANNI
DELL'INCENDIO
16
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 31
LA SPECIFICAZIONE DEI MODELLI
(= selezione delle variabili da analizzare)
• NB.
• Una variabile non è indip / interv / dip per natura, ma è definita tale
dal ricercatore quando specifica un modello
=
= =
CLASSE
SOCIALE
DI ORIGINE
SCOLARIZZAZIONE
CLASSE
SOCIALE
D'ARRIVO
VAR.
INDIPENDENTE
VAR.
INTERVENIENTE
VAR.
DIPENDENTE
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 32
A
B
C
D
E
F
A
B
C
D
E
F
In questo modello la
var. A è indipendente
In questo diverso
modello la stessa var. A
è dipendente
A
B
C
D
E
F
In questo modello la
var. A è indipendente
A
B
C
D
E
F
17
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 33
• Le variabili incluse in un modello sono una piccola parte di quelle abitualmente incluse in matrice;
• Le variabili incluse in matrice (e le relative proprietà) sono una piccola parte delle proprietàattribuibili all’unità di analisi;
• Introdurre anche una sola nuova variabile in un modello già specificato di solito cambia i risultati che riguardano la relazione fra variabili (coefficienti statistici, etc.).
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 34
• E’ opportuno specificare più modelli �
selezionare il migliore o mantenere più
modelli � più punti di vista dello stesso
fenomeno.
PREFERENZE
POLITICHE
occupazione
classe
sociale
livello
d'istruzione
valori
religiosi
grado di
conservatorismo
grado
d'identificazione
di classe
18
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 35
FORME DI RAPPRESENTAZIONE DI RELAZIONI FRA VARIABILI
Due variabili categoriali o con categorie ordinate
STRUTTURA DI UNA TABELLA DI CONTINGENZA
a b c a+b+c
d e f d+e+f
a+d b+e c+f a+b+c+d+e+f
Totali marginali di colonna
Totali
marginali di
riga
Totale generale (N)
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 36
ORIENTAMENTI SUL GOVERNO ATTUALE (.v.a.)
Pro-Governo Anti-Governo tot
Maschi 224 121 345
Femmine 189 232 421
tot. 414 352 766
a b c a+b+c
d e f d+e+f
a+d b+e c+f a+b+c+d+e+f
19
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 37
Alta autonomia semantica � osservare cella per cella;
Per cogliere le associazioni
% di riga � confrontare per colonna
% di colonna � confrontare per riga
Nel ns. esempio le donne sono più critiche verso il Governo
ORIENTAMENTI SUL GOVERNO ATTUALE (.v.a.)
Pro-Governo Anti-Governo tot
Maschi 224 121 345
Femmine 189 232 421
tot. 414 352 766
ORIENTAMENTI SUL GOVERNO ATTUALE (% riga)
Pro-Governo Anti-Governo tot
Maschi 65 35 100
Femmine 45 55 100
tot. 54 46 100
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 38
Istogramma di
composizione ORIENTAMENTI SUL GOVERNO ATTUALE (%)
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Maschi Femmine
Anti-Governo
Pro-Governo
20
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 39
Una variabile categoriale (o ordinale) e una variabile
cardinale
Boxplo
t
(o “d
iagra
mm
a
a sca
tola
)
2 variabili: comportamento (categoriale o ordinale) per età (cardinale).
Per ogni categoria della variabile categoriale o ordinale (comportamento),
si analizza la variabile cardinale (età).
Cardinale: bassa autonomia semantica � considerare prioritariamente le
medie (= il segmento evidenziato dentro ogni “scatola”)
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 40
Una variabile categoriale (o ordinale) e una variabile
cardinale
� Ogni “scatola” contiene il 50% dei casi; � Il segmento dentro la scatola esprime la media; � Più la scatola è schiacciata, più è bassa la dispersione intorno alla
media; � La “coda” in basso arriva fino all’età minima; la “coda” in alto fino
all’età massima; � Fra la scatola e la fine di ciascuna “coda” vi è il 25% dei casi.
21
Paolo Montesperelli
2019-2020
MRC / XX - Relazioni fra variabili 41
Due variabili cardinaliIncidenza povertà e tasso di disoccupazione per regione – Anno 2005
Sic
Cam
Cal
Pug
Bas
Sar
Mol
AbrIta
VdAUmbLig
TosMar
Pie
Ven
FVG
LomEro
LazTAA
R2 = 0,88
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0
tasso di disoccupazione
diffu
sio
ne p
overt
à
Fonte: Elaborazioni dati Istat
r = 0,93
Diagra
mm
a
a disp
ersio
ne
r = coeff. di correlazione: varia da 0 (indipendenza) a ±
1 (max associazione positiva o negativa)