tquars – a.a. 2010/11 tecniche quantitative per l’analisi nella ricerca sociale

22
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.5 Connettere

Upload: courtney-foreman

Post on 03-Jan-2016

27 views

Category:

Documents


0 download

DESCRIPTION

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. Lezione B.5 Connettere. In questa lezione. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale

Giuseppe A. Micheli

Lezione B.5

Connettere

Page 2: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

In questa lezione..

In questa lezione useremo un primo approccio per studiare l’associazione di due variabili statistiche: la teoria della connessione. Per far ciò, a partire da alcuni esempi:

Familiarizzeremo con i concetti di indipendenza stocastica e di perfetta dipendenza funzionale.

Introdurremo alcune proprietà operative delle frequenze congiunte in caso di perfetta indipendenza.

Faremo la conoscenza di una misura importante di connessione, che chiameremo “Chi quadro di Pearson”. Impareremo a misurarla con una procedura operativa più rapida, e a ‘normalizzarla’, rapportandola al suo massimo.

Esamineremo alcuni paradossi e alcune stranezze della connessione, applicata a miscugli di popolazione. E questa sarà la prima finestra che apriremo (e lasceremo per ora socchiusa) verso l’analisi statistica di tre variabili.

Page 3: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Un esempio: matrimonio e scolarità

luilei

Elem Infer Super

Elem 195 50 22 267

Infer 37 151 82 270

Super 11 95 270 376

243 296 374 913superinferelem

0

0,15

0,3

0,45

0,6

superinferelem0

0,15

0,3

0,45

0,6

Questa volta partiamo da un esempio concreto. La tabella riporta un incrocio rica-vato dalla matrice dati della Survey della regione Lombardia, su 913 lombardi.

Ci sono tanti modi per leggere questa tabella e non tutti fruttuosi. Possiamo cominciare a confrontare le distribuzioni di frequenza mar-ginali. Ma non ne viene granché (fatelo anche voi). La % con bassa scolarizzazione è mag-giore tra le donne (29,2% contro 26,6%) ma quella ad alta scolarizzazione è praticamente identica (41,2% contro 41,0%). Insomma, se ci limitiamo all’analisi univariata, la pari op-portunità sembra cosa raggiunta.

Lei

Lui

Page 4: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Endogamia come assenza di indipendenza

luilei

Elem Infer Super

Elem 213 55 24 292

Infer 41 165 90 296

Super 12 104 296 412

266 324 410 1000

Ma cose meno ovvie emergono leggendo la tabella in altri modi. Proviamo per e-sempio a soffermarci sulle frequenze congiunte (numerosità congiunte diviso nu-merosità totale) situate sulla diagonale principale della matrice.

La somma delle frequenze sulla diagonale principale è pari al 67,4%. Significa che due lombardi su tre sono sposati con persona del proprio livello di istruzione.

Si dice, in linguaggio forbito, che l’endogamia è forte. La scolarità perseguita (e dietro di essa lo status sociale) condiziona pesantemente la scelta del coniuge.

Traduciamo tutto ciò nel linguaggio appreso. Ciò significa che non c’è indipendenza tra scolarità del Lui e del Lei. E che le distribuzioni di frequenza della scolarità di Lei varieranno notevolmente al variare della scolarità di Lui. Verifichiamolo.

La diagonale principale di una matrice è quella dalla sinistra in alto alla destra in basso: esiste solo se la tabella ha numero uguale

di righe e colonne

Page 5: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Distribuzioni vincolate come fondali di scena

luilei

Elem Infer Super

Elem 73,0 18,7 8,3 100

Infer 13,7 55,9 30,4 100

Super 2,9 25,3 71,8 100

26,6 32,4 41,0 100

Che si calcolino le frequenze di Lei vincolate a Lui o viceversa il risultato non cambia

Se lui ha ‘super’

luilei

Elem Infer Super

Elem 80,3 16,9 5,9 29,2

Infer 15,2 51,0 21,9 29,6

Super 4,5 32,1 72,2 41,2

100 100 100 100

superinferelem0

0,2

0,4

0,6

0,8

superinferelem0

0,2

0,4

0,6

0,8

superinferelem0

0,2

0,4

0,6

0,8

Se lui ha ‘infer’

Se lui ha ‘elem’

Freq (istruzione di lui|istruzione di lei)

Freq (istruzione di lei|istruzione di lui)

Freq (istruzione di lei|istruzione di lui)

Pensiamo ai diagrammi delle distribuzioni vincolate come a fondali di palcoscenico posti a diverse profondità. Ora la rappre-sentazione grafica ha tre dimensioni: la variabile ‘condizionante’ (lungo la profon-dità), quella condizionata (per larghezza) e le frequenze vincolate (in verticale).

Page 6: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Distribuzioni vincolate in una società ‘libera’

Come sarebbe la nostra tabella in un’ipotetica società in cui tutte le Lei avessero la stessa chance di sposare un Lui istruito, indipendentemente dalla scolarità di Lei?

Traduciamo la domanda nei termini tecnici che abbiamo appreso. La distribuzione di frequenza del livello di istruzione di lei non deve cambiare al variare del livello di istruzione di lui. Cioè tutte le distribuzione di frequenza vincolate (Lei|Lui) sa-rebbero uguali tra loro, quindi uguali a quella della popolazione in generale.

lei lui Elem Infer Super

Elem 29,2 29,2 29,2 29,2

Infer 29,6 29,6 29,6 29,6

Super 41,2 41,2 41,2 41,2

N=243 N=296 N=374 N=913

Freq (istruzione di lei|istruzione di lui)

In questa tabella le distribuzioni vincola-te sono tutte identiche alla distribuzione marginale. Non è difficile risalire alla distribuzione congiunta corrispondente. Infatti, dato che fj|i = nji/ni allora

Per qualunque j fj|1 = fj|2 = .. = fj|i = .. = fj|r = fj

e per qualunque j e i fj|i = fj

Per es. la numerosità ‘teorica’ in una società libera di Lei con licenza elementare e Lui con diploma superiore è 0,292

x 374 = 109,2 (non è intera perché ‘teorica’)

nji = fj|i x ni

Page 7: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

La tabella ‘teorica’ di indipendenza stocastica

lei lui Elem Infer Super

Elem 71,1 86,5 109,4 267

Infer 71,8 87,6 110,6 270

Super 100,1 121,9 154,0 376

243 296 374 913

Questa è la tabella del caso ‘teorico’ di ‘società libera’ in cui ogni donna è indipen-dente nelle sue scelte del partner (secondo la scolarità): essa possiede 3 proprietà

La prima cosa da osservare è che la di-stribuzione congiunta costruita per co-lonna rispetta anche le somme per ri-ga, pari proprio alle numerosità margi-nali.

La seconda considerazione emerge se andiamo a calcolare le frequenze vin-colate per colonna, cioè le frequenze di livello di istruzione di lui, vincolate al livello di istruzione di lei. Anche queste distribuzioni sono uguali tra loro e identiche alla marginale.

lei lui Elem Infer Super

Elem 26,6 32,4 41,0 N=267

Infer 26,6 32,4 41,0 N=270

Super 26,6 32,4 41,0 N=376

26,6 32,4 41,0 N=913

Vale questa definizione generale: “C’è indipendenza stocastica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano

al variare delle modalità condizionanti di X, cioè se fj|i = fj per ogni i,j

Page 8: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Esempio: una pietra miliare della epidemiologia

H E Alto Medio Basso

Lamb 720 180 0 900

Mixed 120 0 180 300

Vauxh 160 120 520 800

1000 300 700 2000

Partiamo con dati inventati, ma che descrivono un famoso caso di storia della scien-za. Per trovare una spiegazione alla diffusione del colera John Snow analizza 2000 quartieri (walls) di Londra, secondo il grado di Esposizione all’epidemia di colera del 1854 (Alto, Medio,Nullo) e la società H di erogazione idrica (Lambeth, Misto, Vauxh).

La tabella delle numerosità congiunte o delle frequenze relative non dice niente di chiaro. Calcoliamo allora le frequenze vincolate frequenze vincolate per riga: cerchiamo cioè di spiegare il per riga: cerchiamo cioè di spiegare il variare della distribuzione di frequenza variare della distribuzione di frequenza dell’esposizione al colera (E) in funzio-dell’esposizione al colera (E) in funzio-ne del tipo di acqua erogatane del tipo di acqua erogata.

H E Alto Medio Basso

Lamb 0,80 0,20 0 900

Mixed 0,40 0 0,60 300

Vauxh 0,20 0,15 0,65 800

0,50 0,15 0,35 2000

Ora vediamo che il colera colpisce pesantemente l’80% dei quartieri serviti dalla Lambeth & Co., solo il 20% di quelli serviti dalla Vauxhall, e una via di mezzo per i quartieri serviti da entrambe le società.

Se le frequenze vincolate variano tra i Se le frequenze vincolate variano tra i diversi sottogruppi, si può sospettare diversi sottogruppi, si può sospettare che esista una relazione tra H e E.che esista una relazione tra H e E.

Page 9: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

La tabella ‘teorica’ di indipendenza stocastica

Se E non dipendesse per niente da H ci dovremmo aspettare che le distribuzioni vin-colate per riga (per grado di esposizione al colera) non varino per niente al variare della società di erogazione, e siano quindi tutte uguali alla distribuzione marginale:

Questa è la tabella delle frequenze vincolate che si avrebbe se ci fosse indipendenza tra H e E. Da questa..

Torniamo alla definizione generale: “C’è indipendenza stocastica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano

al variare delle modalità condizionanti di X, cioè se fj|i = fj per ogni i,j

H E Alto Medio Basso

Lamb 0,50 0,15 0,35 900

Mixed 0,50 0,15 0,35 300

Vauxh 0,50 0,15 0,35 800

0,50 0,15 0,35 2000

H E Alto Medio Basso

Lamb 450 135 315 900

Mixed 150 45 105 300

Vauxh 400 120 280 800

1000 300 700 2000

0,50 x 900 = _____

450

Si risale (moltiplicando le frequenza vincola-te per le corrispondenti numerosità margi-nali) alla Tabella teorica di Indipendenza.

Page 10: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Fattorizzazione delle frequenze

Attenzione: la proprietà di indipendenza stocastica (o statistica) è simmetrica: la indipendenza di Y da X implica cioè quella di X da Y.

Ma se noi formuliamo le frequenze relative come rapporti tra numerosità, la defini-zione generale ”fj|i=fj per ogni i,j” diventa ”nji/ni=nj/N” da cui si trae:

nji =(nj x ni)/N o dividendo entrambe le parti per N: fji =fj

x fi

Condizione necessaria e sufficiente perché ci sia indipendenza stocastica tra X e Y è che le numerosità congiunte nji

siano fattorizzabili (scomponibili in fattori) nel prodotto – diviso per N – delle corrispondenti numerosità marginali, ossia che le frequenze congiunte

siano fattorizzabili nel prodotto delle corrispondenti frequenze marginali

Ricordate: “Condizione Necessaria e Sufficiente” vuol dire che: a) se c’è indipendenza stocastica le frequenze sono fattorizzabili, ma insieme b) se le

frequenze sono fattorizzabili c’è indipendenza stocastica.

Page 11: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Un esempio: tavole di mobilità sociale padri-figli

Pa Fi Basso Medio Alto njio

Basso 644 462 42 1148

Medio 413 848 94 1355

Alto 13 68 47 128

1070 1378 183 2631

Pa Fi Basso Medio Alto

Basso 56,1 40,2 3,7 100

Medio 30,5 62,6 6,9 100

Alto 10,2 53,1 36,7 100

40,7 52,4 6,9 2631

Freq (status figlio/status padre)

Prendiamo la tavola della mobilità intergenerazionale (padri-figli) stimata per le persone occupate in Italia nel 1985 (Sylos Labini, numerosità in milioni).

La somma delle frequenze relative sulla dia-gonale principale (644+848+47=1539) dà la misura di un cambiamento massiccio ma non radicale: 1539 su 2631 (58,5%) sono stabili (stayers), il restante 41,5% cambia status.

Se poi confrontiamo le distribuzioni marginali, troviamo che la popolazione di basso status è scesa dal 43,6 al 40,7%, quella di alto status è salita dal 4,9 al 6,9%.

Ma le frequenze vincolate sono ancora più esplicite nel mostrare che non c’è ‘perfetta mobilità sociale’: se il papà era in basso nella scala sociale la frequenza di appartenere alla élite è solo del 3,7%, contro il 36,7% se il papà era già ‘high status’.

Page 12: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

American way of life

Pa Fi Basso Medio Alto njie

Basso 467 601 80 1148

Medio 551 710 94 1355

Alto 52 67 9 128

1070 1378 183 2631

Ma come sarebbe fatta la tavola, compatibile con le distribuzioni marginali italiane, di perfetta mobilità sociale? La tavola di indipendenza stocastica in cui la frequenza per un figlio di appartenere allo status i non dipende dalla status del padre?

In questa tabella ogni numerosità teorica è calcolata ‘fattorizzando’ le frequenze: nji

e =(nj

xni)/N

Per esempio 80=(1148x183)/2631

ecc. 67=(1378x128)/2631

Ma quanto è la distanza tra la tabella effettivamente osservata (numerosità congiunte nji

o dove o sta per osservato) e

quella teorica di indipendenza (nume-rosità congiunte nji

e dove e=expected)?

Numerosità teoriche di ind.stocastica

Basta calcolare la tabella delle differenze tra le nji

o e le njie ! Chiamiamo ‘contin-

genze’ le differenze cji = njio - nji

e.

Pa Fi Basso Medio Alto cji

Basso +177 -139 -38 0

Medio -138 +138 0 0

Alto -39 +1 +38 0

0 0 0 0

Tavola delle contingenze cji=njio-

njie

Page 13: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Contingenze & contingenze quadratiche

Pa Fi Basso Medio Alto cji

Basso +177 -139 -38 0

Medio -138 +138 0 0

Alto -39 +1 +38 0

0 0 0 0

Tavola delle contingenze cji=njio-

njie

Ogni singola contingenza ci racconta del-lo scostamento tra una frequenza osser-vata e quella teorica di perfetta indipen-denza. Per esempio qui si nota la coinci-denza tra nmedio,alto

o e nmedio,altoe, ma altre

contingenze sono assai più elevate.

Se noi vogliamo misurare globalmente il grado di scostamento della distribuzione congiunta da quella teorica di indipendenza è necessario fare una sintesi delle sin-gole contingenze: occorre calcolarne una qualche ‘media’.

Ma c’è un problema. La tavola osservata e quella teorica hanno le stesse distribu-zioni marginali. Perciò la tavola delle contingenze ha somme (per riga, per colonna, in totale) pari a zero. Occorre quindi fare la media non delle contingenze semplici, ma di una qualche trasformazione 0. Come il valore assoluto o i quadrati. E poi farne la somma. E’ una procedura familiare, vero?

Già che ci siamo, ricordiamo anche che la varianza ci dava problema perché somma quantità quadratiche ed è di un ordine superiore ai dati osservati. Avevamo cercato quindi di ricondurla allo stesso ordine di grandezza dei dati (facendone la radice).

Page 14: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Misurare la connessione

Pa Fi Basso Medio Alto njie

Basso 467 601 80 1148

Medio 551 710 94 1355

Alto 52 67 9 128

1070 1378 183 2631

Pa Fi Basso Medio Alto cji

Basso +177 -139 -38 0

Medio -138 +138 0 0

Alto -39 +1 +38 0

0 0 0 0

Tavola contingenze cji=njio-nji

e

Tavola numerosità osservate nji

o

Tavola numerosità teoriche nji

e

Tavola dei rapporti cji2/nji

e

Pa Fi Basso Medio Alto

Basso 67,086 32,148 18,050

Medio 34,563 26,822 0

Alto 29,250 0,015 160,444

Pa Fi Basso Medio Alto njio

Basso 644 462 42 1148

Medio 413 848 94 1355

Alto 13 68 47 128

1070 1378 183 2631

Qui sono riepilogate le tavole di calcolo. Ma perché per riportare all’ordine di grandezza dei dati la somma la dividiamo per nji

e e non per njio? Tanti i

motivi: ma provate voi a fare rapporti con uno zero al denominatore!

Page 15: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

L’indice chi quadrato di Pearson

sr

jieij

eij

oij

n

nn,

,

22 )(

La somma dei rapporti (cji

2/njie) è una buona misura del

grado di connessione tra due variabili. La indichiamo con la lettera greca (si legge ‘chi’) seguita dal segno del quadrato. Una misura proposta da Karl Pearson, studioso di fine ‘800, con queste caratteristiche:

2 è somma di tanti rapporti in cui i numeratori sono quadrati (quindi sem-pre 0) e i denominatori sono prodotti di frequenze marginali (quindi sempre >0: un prodotto è zero solo se uno dei fattori è zero, ma se una frequenza marginale fosse zero non ci sarebbe quella riga o colonna nella tabella!);

2 è zero se e solo se tutte le differenze al numeratore sono zero cioè se e solo se (nji

o-njie)=0 per ogni i,j; cioè in caso di indipendenza stocastica;

2 cresce, allontanandosi da zero, al crescere della distanza della distribu-zione congiunta osservata da quella di perfetta indipendenza;

2 ha un massimo? E a che situazione corrisponde? Risponderemo presto.

Intanto limitiamoci a calcolare questa misura nell’esempio della mobilità sociale. Risulta 2 = (67,086+32,148+18,050+34,563+…+160,444)= 368,378

Page 16: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Agli antipodi: la perfetta dipendenza funzionale

Chi quadrato misura lo scostamento dal caso di perfetta indipendenza stocastica. Ma fino a quanto ci si può scostare? Esiste un tetto non superabile? E si può dare un significato a questa situazione limite agli antipodi della indipendenza stocastica?

Per rispondere inventiamoci un’altra tavola di mobilità sociale, questa volta fittizia, intragenerazionale (non padri-figli) tra tre settori di vita: città, periferia, campagna.

t t+1 Rur Per Urb

Rur 25 5 0 30

Per 5 25 10 40

Urb 0 10 20 30

30 40 30 100

Tavola di società castuale (2=200)

t t+1 Rur Per Urb

Rur 9 12 9 30

Per 12 16 12 40

Urb 9 12 9 30

30 40 30 100

Tavola di perfetta indipendenza (2=0)

t t+1 Rur Per Urb

Rur 30 0 0 30

Per 0 40 0 40

Urb 0 0 30 30

30 40 30 100

t t+1 Rur Per Urb

Rur 0 0 30 30

Per 0 40 0 40

Urb 30 0 0 30

30 40 30 100

Tavola di mobilità osservata (2=73,8)

Tavola di società à la Pol Pot (2=200)

Page 17: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Perfetta dipendenza funzionale

Diamo allora una definizione formale del concetto di dipendenza funzionale:

«Una variabile Y dipende funzionalmente da X se a ogni modalità «Una variabile Y dipende funzionalmente da X se a ogni modalità osservata di X corrisponde una e una sola modalità osservata di Y»osservata di X corrisponde una e una sola modalità osservata di Y»

Attenti alle proprietà della dipendenza funzionale:

La dipendenza funzionale non implica che ci sia una relazione quantitativa ‘monotòna’ tra le due variabili (in cui al crescere di una cresca o non diminuisca l’altra). Si pensi a una società in cui tra t e (t+1) quelli che stanno in A passino in B, quelli che stanno in B passino a C, quelli che stanno in C passino ad A.

La dipendenza funzionale non implica nep-pure che le variabili coinvolte siano quanti-tative!! E questo vale in generale per 2 e per la ‘teoria della connessione’.

StressStatus

High Middle

Low

High - - >0

Middle >0 - -

Low - >0 -

In questo esempio i ceti medi (‘in mezzo al guado) hanno il massimo livello di stress, i ceti bassi hanno

una gradazione intermedia di stress, i ceti alti stanno

relativamente bene..

Dunque. La tabella osservata mostra un grado di connessione pari a 2=73,8. La situazione di riferimento di indipendenza ha ovviamente 2=0. Ma quelle, opposte, in cui lo stato al tempo (t+1) ‘dipende’ in modo rigido dallo stato al tempo t, danno entrambe 2=200 (la stessa cifra: eppure sono situazioni davvero diverse!).

Page 18: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Ancora sulla perfetta dipendenza funzionale

Se e solo se la tavola delle numerosità congiunte (tabella di contingenza) è quadrata (r=s) la dipendenza funzionale è biunivoca (cioè la dipendenza fun-zionale di Y da X implica anche la dipendenza funzionale di X da Y e vicever-sa). Solo in questa caso dunque la connessione è un concetto simmetrico.

X Y A B C

D - - >0

F >0 >0 -

Se s>r (più colonne che righe) ci può essere perfetta dipendenza funzionale di X da Y ma non viceversa (ad almeno una modalità di X corrisponderà più di una modalità di Y).

Se r>s (più righe che colonne) ci può essere perfetta dipendenza funzionale di Y da X ma non viceversa (ad almeno una modalità di Y corrisponderà più di una modalità di X).

X Y A B

D >0 -

E - >0

F - >0

X Y 1 2 4

1 - >0 -

2 - - >0

3 >0 - -

Infine, se entrambe le v.s. coinvolte sono quantitative discrete, alla tabella di massima connessione si può asso-ciare una relazione funzionale (non necessariamente monotona) del tipo Y=f(x) e una del tipo X=g(y).

0

1

2

3

4

0 1 2 3

Page 19: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Normalizzare chi quadrato

1),min(2max srN

Si può dimostrare (credeteci sulla parola) che l’indice 2 ha un massimo pari al minore tra il numero di righe e il numero di colonne, meno 1 e moltiplicato per N:

E’ abbastanza intuitivo che il valo-re massimo, corrispondente alla situazione di massima connes-sione, si può realizzare solo nel caso in cui la tabella della distri-buzione congiunta sia quadrata (r=s). Ma anche con questo ‘lieve difetto’, il valore massimo ci con-sente di normalizzare l’indice:

11),min(

1)/(

/0,

2

2max

22

srN

nnnNji

jiij

Nell’esempio di mobilità intergenera-zionale r=s=3, N=2631 e 2=368,378.Quindi 2

max=2631(3-1) e 2*=0,07

Nell’esempio di endogamia matrimonia-le r=s=3, N=913 e 2=544,1.

Quindi 2max=913(3-1) e 2*=0,298

Nella tavola (fittizia) di mobilità socialeosservata r=s=3, N=100 e 2=73,8.Quindi 2

max=100(3-1) e 2*=0,369

Ma nelle simulazioni di mobilità socialedi una società per caste e di una società

à la Pol Pot 2=200 e quindi 2*=1!!

Page 20: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

L’imprevedibilità dei miscugliRicordate il concetto di miscuglio, cioè di una popolazione costituita da unità provenienti da gruppi (subpopolazioni, strati) eterogenei tra loro, dotati di distribuzioni di frequenza divergenti? Avevamo fatto conoscenza coi miscugli nell’analisi univariata, e avevamo concluso che occorreva stare prudenti..

Anche nella connessione tra due caratteri qualitativi la natura di miscuglio di una popolazione può produrre effetti sorprendenti. E’ infatti vero che:

In un miscuglio si può osservare perfetta indipendenza stocastica tra due caratteri X e Y, anche se nelle subpopolazioni si possono osservare relazioni di dipendenza funzio-nale anche perfetta.

Viceversa, in un miscuglio si può osservare una relazione tra X e Y in una certa direzione, mentre nelle subpopolazioni la relazione funzionale esiste ma di segno diverso.

A 35 anni, tra le ragazze chi lavora è meno

frequente che abbia un figlio di chi non lavora; tra i ragazzi è invece

l’opposto. Ma se pigliamo ragazzi e ragazze insieme che

tipo di relazione funzionale potremo trovare tra attività

lavorativa e stato civile?

Page 21: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Quando l’eterogeneità nasconde una relazione

Per esempio, vediamo se esiste associazione tra un indicatore P di performance in carriera (a=alta, b=bassa) e l’appartenenza etnica E (n=nero, s=ispanico, w=bianco) in due isolati W1 (periferico) e W2 (city) di una città americana.

17

8

6

3

9

0

6

3

alta

8

8

0

0

bassa

Bianco

Ispanico

Nero

E/P

W1: isolato periferico

22

4

12

6

4

4

0

0

alta

18

0

12

6

bassa

Bianco

Ispanico

Nero

E/P

W1: isolato nella city

39

12

18

9

13

4

6

3

alta

26

8

12

6

bassa

Bianco

Ispanico

Nero

E/P

W1+W2: miscuglio

Nell’isolato periferico c’è perfetta dipendenza fun-zionale: i bianchi sono marginali e ‘falliscono’.

In centro invece i bianchi hanno buone performan-ces. Le minoranze etniche (anche se numerose!) as-sai meno.

Nel miscuglio ogni per-cezione di un ‘minority status effect’ si dissol-ve: c’è perfetta indi-pendenza stocastica!!

Page 22: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Il paradosso di Simpson

Un secondo effetto sorprendente consiste nel rovesciamento della direzione della connessione individuata. Può sembrare un guaio meno radicale del precedente, ma può avere conseguenze consistenti. Supponiamo che due ospedali sperimenti-no l’efficacia terapeutica (E=sì o no) di due molecole (F=A,B) nel curare la Sars. Solo, i due ospedali abbiano somministrato i due farmaci in misura differente.

25

8

17

17

6

11

no

8 (32%)

2 (25%)

6(35%)

FB

FA

F/E

Clinica 1 Pool delle cliniche Clinica 2

50

25

25

22

10

12

no

28 (56%)

15 (60%)

13 (52%)

FB

FA

F/E

25

17

8

5

4

1

no

20 (80%)

13 (76%)

7 (87%)

FB

FA

F/E

In entrambe le cliniche il farmaco A ottiene risultati migliori. Ma (attenti alla diver-sa distribuzione dei farmaci) nel miscuglio ha risultati più favorevoli il farmaco B. Così la scelta del farmaco più efficace dipende dalla scelta del livello di analisi:

Se si sceglie il farmaco più efficace nella maggioranza di cliniche, sarà A.

Se si sceglie il farmaco più efficace sul pool delle cliniche, esso sarà B!