tquars – a.a. 2010/11 tecniche quantitative per l’analisi nella ricerca sociale
DESCRIPTION
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. Lezione B.5 Connettere. In questa lezione. - PowerPoint PPT PresentationTRANSCRIPT
TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
Lezione B.5
Connettere
In questa lezione..
In questa lezione useremo un primo approccio per studiare l’associazione di due variabili statistiche: la teoria della connessione. Per far ciò, a partire da alcuni esempi:
Familiarizzeremo con i concetti di indipendenza stocastica e di perfetta dipendenza funzionale.
Introdurremo alcune proprietà operative delle frequenze congiunte in caso di perfetta indipendenza.
Faremo la conoscenza di una misura importante di connessione, che chiameremo “Chi quadro di Pearson”. Impareremo a misurarla con una procedura operativa più rapida, e a ‘normalizzarla’, rapportandola al suo massimo.
Esamineremo alcuni paradossi e alcune stranezze della connessione, applicata a miscugli di popolazione. E questa sarà la prima finestra che apriremo (e lasceremo per ora socchiusa) verso l’analisi statistica di tre variabili.
Un esempio: matrimonio e scolarità
luilei
Elem Infer Super
Elem 195 50 22 267
Infer 37 151 82 270
Super 11 95 270 376
243 296 374 913superinferelem
0
0,15
0,3
0,45
0,6
superinferelem0
0,15
0,3
0,45
0,6
Questa volta partiamo da un esempio concreto. La tabella riporta un incrocio rica-vato dalla matrice dati della Survey della regione Lombardia, su 913 lombardi.
Ci sono tanti modi per leggere questa tabella e non tutti fruttuosi. Possiamo cominciare a confrontare le distribuzioni di frequenza mar-ginali. Ma non ne viene granché (fatelo anche voi). La % con bassa scolarizzazione è mag-giore tra le donne (29,2% contro 26,6%) ma quella ad alta scolarizzazione è praticamente identica (41,2% contro 41,0%). Insomma, se ci limitiamo all’analisi univariata, la pari op-portunità sembra cosa raggiunta.
Lei
Lui
Endogamia come assenza di indipendenza
luilei
Elem Infer Super
Elem 213 55 24 292
Infer 41 165 90 296
Super 12 104 296 412
266 324 410 1000
Ma cose meno ovvie emergono leggendo la tabella in altri modi. Proviamo per e-sempio a soffermarci sulle frequenze congiunte (numerosità congiunte diviso nu-merosità totale) situate sulla diagonale principale della matrice.
La somma delle frequenze sulla diagonale principale è pari al 67,4%. Significa che due lombardi su tre sono sposati con persona del proprio livello di istruzione.
Si dice, in linguaggio forbito, che l’endogamia è forte. La scolarità perseguita (e dietro di essa lo status sociale) condiziona pesantemente la scelta del coniuge.
Traduciamo tutto ciò nel linguaggio appreso. Ciò significa che non c’è indipendenza tra scolarità del Lui e del Lei. E che le distribuzioni di frequenza della scolarità di Lei varieranno notevolmente al variare della scolarità di Lui. Verifichiamolo.
La diagonale principale di una matrice è quella dalla sinistra in alto alla destra in basso: esiste solo se la tabella ha numero uguale
di righe e colonne
Distribuzioni vincolate come fondali di scena
luilei
Elem Infer Super
Elem 73,0 18,7 8,3 100
Infer 13,7 55,9 30,4 100
Super 2,9 25,3 71,8 100
26,6 32,4 41,0 100
Che si calcolino le frequenze di Lei vincolate a Lui o viceversa il risultato non cambia
Se lui ha ‘super’
luilei
Elem Infer Super
Elem 80,3 16,9 5,9 29,2
Infer 15,2 51,0 21,9 29,6
Super 4,5 32,1 72,2 41,2
100 100 100 100
superinferelem0
0,2
0,4
0,6
0,8
superinferelem0
0,2
0,4
0,6
0,8
superinferelem0
0,2
0,4
0,6
0,8
Se lui ha ‘infer’
Se lui ha ‘elem’
Freq (istruzione di lui|istruzione di lei)
Freq (istruzione di lei|istruzione di lui)
Freq (istruzione di lei|istruzione di lui)
Pensiamo ai diagrammi delle distribuzioni vincolate come a fondali di palcoscenico posti a diverse profondità. Ora la rappre-sentazione grafica ha tre dimensioni: la variabile ‘condizionante’ (lungo la profon-dità), quella condizionata (per larghezza) e le frequenze vincolate (in verticale).
Distribuzioni vincolate in una società ‘libera’
Come sarebbe la nostra tabella in un’ipotetica società in cui tutte le Lei avessero la stessa chance di sposare un Lui istruito, indipendentemente dalla scolarità di Lei?
Traduciamo la domanda nei termini tecnici che abbiamo appreso. La distribuzione di frequenza del livello di istruzione di lei non deve cambiare al variare del livello di istruzione di lui. Cioè tutte le distribuzione di frequenza vincolate (Lei|Lui) sa-rebbero uguali tra loro, quindi uguali a quella della popolazione in generale.
lei lui Elem Infer Super
Elem 29,2 29,2 29,2 29,2
Infer 29,6 29,6 29,6 29,6
Super 41,2 41,2 41,2 41,2
N=243 N=296 N=374 N=913
Freq (istruzione di lei|istruzione di lui)
In questa tabella le distribuzioni vincola-te sono tutte identiche alla distribuzione marginale. Non è difficile risalire alla distribuzione congiunta corrispondente. Infatti, dato che fj|i = nji/ni allora
Per qualunque j fj|1 = fj|2 = .. = fj|i = .. = fj|r = fj
e per qualunque j e i fj|i = fj
Per es. la numerosità ‘teorica’ in una società libera di Lei con licenza elementare e Lui con diploma superiore è 0,292
x 374 = 109,2 (non è intera perché ‘teorica’)
nji = fj|i x ni
La tabella ‘teorica’ di indipendenza stocastica
lei lui Elem Infer Super
Elem 71,1 86,5 109,4 267
Infer 71,8 87,6 110,6 270
Super 100,1 121,9 154,0 376
243 296 374 913
Questa è la tabella del caso ‘teorico’ di ‘società libera’ in cui ogni donna è indipen-dente nelle sue scelte del partner (secondo la scolarità): essa possiede 3 proprietà
La prima cosa da osservare è che la di-stribuzione congiunta costruita per co-lonna rispetta anche le somme per ri-ga, pari proprio alle numerosità margi-nali.
La seconda considerazione emerge se andiamo a calcolare le frequenze vin-colate per colonna, cioè le frequenze di livello di istruzione di lui, vincolate al livello di istruzione di lei. Anche queste distribuzioni sono uguali tra loro e identiche alla marginale.
lei lui Elem Infer Super
Elem 26,6 32,4 41,0 N=267
Infer 26,6 32,4 41,0 N=270
Super 26,6 32,4 41,0 N=376
26,6 32,4 41,0 N=913
Vale questa definizione generale: “C’è indipendenza stocastica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano
al variare delle modalità condizionanti di X, cioè se fj|i = fj per ogni i,j
Esempio: una pietra miliare della epidemiologia
H E Alto Medio Basso
Lamb 720 180 0 900
Mixed 120 0 180 300
Vauxh 160 120 520 800
1000 300 700 2000
Partiamo con dati inventati, ma che descrivono un famoso caso di storia della scien-za. Per trovare una spiegazione alla diffusione del colera John Snow analizza 2000 quartieri (walls) di Londra, secondo il grado di Esposizione all’epidemia di colera del 1854 (Alto, Medio,Nullo) e la società H di erogazione idrica (Lambeth, Misto, Vauxh).
La tabella delle numerosità congiunte o delle frequenze relative non dice niente di chiaro. Calcoliamo allora le frequenze vincolate frequenze vincolate per riga: cerchiamo cioè di spiegare il per riga: cerchiamo cioè di spiegare il variare della distribuzione di frequenza variare della distribuzione di frequenza dell’esposizione al colera (E) in funzio-dell’esposizione al colera (E) in funzio-ne del tipo di acqua erogatane del tipo di acqua erogata.
H E Alto Medio Basso
Lamb 0,80 0,20 0 900
Mixed 0,40 0 0,60 300
Vauxh 0,20 0,15 0,65 800
0,50 0,15 0,35 2000
Ora vediamo che il colera colpisce pesantemente l’80% dei quartieri serviti dalla Lambeth & Co., solo il 20% di quelli serviti dalla Vauxhall, e una via di mezzo per i quartieri serviti da entrambe le società.
Se le frequenze vincolate variano tra i Se le frequenze vincolate variano tra i diversi sottogruppi, si può sospettare diversi sottogruppi, si può sospettare che esista una relazione tra H e E.che esista una relazione tra H e E.
La tabella ‘teorica’ di indipendenza stocastica
Se E non dipendesse per niente da H ci dovremmo aspettare che le distribuzioni vin-colate per riga (per grado di esposizione al colera) non varino per niente al variare della società di erogazione, e siano quindi tutte uguali alla distribuzione marginale:
Questa è la tabella delle frequenze vincolate che si avrebbe se ci fosse indipendenza tra H e E. Da questa..
Torniamo alla definizione generale: “C’è indipendenza stocastica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano
al variare delle modalità condizionanti di X, cioè se fj|i = fj per ogni i,j
H E Alto Medio Basso
Lamb 0,50 0,15 0,35 900
Mixed 0,50 0,15 0,35 300
Vauxh 0,50 0,15 0,35 800
0,50 0,15 0,35 2000
H E Alto Medio Basso
Lamb 450 135 315 900
Mixed 150 45 105 300
Vauxh 400 120 280 800
1000 300 700 2000
0,50 x 900 = _____
450
Si risale (moltiplicando le frequenza vincola-te per le corrispondenti numerosità margi-nali) alla Tabella teorica di Indipendenza.
Fattorizzazione delle frequenze
Attenzione: la proprietà di indipendenza stocastica (o statistica) è simmetrica: la indipendenza di Y da X implica cioè quella di X da Y.
Ma se noi formuliamo le frequenze relative come rapporti tra numerosità, la defini-zione generale ”fj|i=fj per ogni i,j” diventa ”nji/ni=nj/N” da cui si trae:
nji =(nj x ni)/N o dividendo entrambe le parti per N: fji =fj
x fi
Condizione necessaria e sufficiente perché ci sia indipendenza stocastica tra X e Y è che le numerosità congiunte nji
siano fattorizzabili (scomponibili in fattori) nel prodotto – diviso per N – delle corrispondenti numerosità marginali, ossia che le frequenze congiunte
siano fattorizzabili nel prodotto delle corrispondenti frequenze marginali
Ricordate: “Condizione Necessaria e Sufficiente” vuol dire che: a) se c’è indipendenza stocastica le frequenze sono fattorizzabili, ma insieme b) se le
frequenze sono fattorizzabili c’è indipendenza stocastica.
Un esempio: tavole di mobilità sociale padri-figli
Pa Fi Basso Medio Alto njio
Basso 644 462 42 1148
Medio 413 848 94 1355
Alto 13 68 47 128
1070 1378 183 2631
Pa Fi Basso Medio Alto
Basso 56,1 40,2 3,7 100
Medio 30,5 62,6 6,9 100
Alto 10,2 53,1 36,7 100
40,7 52,4 6,9 2631
Freq (status figlio/status padre)
Prendiamo la tavola della mobilità intergenerazionale (padri-figli) stimata per le persone occupate in Italia nel 1985 (Sylos Labini, numerosità in milioni).
La somma delle frequenze relative sulla dia-gonale principale (644+848+47=1539) dà la misura di un cambiamento massiccio ma non radicale: 1539 su 2631 (58,5%) sono stabili (stayers), il restante 41,5% cambia status.
Se poi confrontiamo le distribuzioni marginali, troviamo che la popolazione di basso status è scesa dal 43,6 al 40,7%, quella di alto status è salita dal 4,9 al 6,9%.
Ma le frequenze vincolate sono ancora più esplicite nel mostrare che non c’è ‘perfetta mobilità sociale’: se il papà era in basso nella scala sociale la frequenza di appartenere alla élite è solo del 3,7%, contro il 36,7% se il papà era già ‘high status’.
American way of life
Pa Fi Basso Medio Alto njie
Basso 467 601 80 1148
Medio 551 710 94 1355
Alto 52 67 9 128
1070 1378 183 2631
Ma come sarebbe fatta la tavola, compatibile con le distribuzioni marginali italiane, di perfetta mobilità sociale? La tavola di indipendenza stocastica in cui la frequenza per un figlio di appartenere allo status i non dipende dalla status del padre?
In questa tabella ogni numerosità teorica è calcolata ‘fattorizzando’ le frequenze: nji
e =(nj
xni)/N
Per esempio 80=(1148x183)/2631
ecc. 67=(1378x128)/2631
Ma quanto è la distanza tra la tabella effettivamente osservata (numerosità congiunte nji
o dove o sta per osservato) e
quella teorica di indipendenza (nume-rosità congiunte nji
e dove e=expected)?
Numerosità teoriche di ind.stocastica
Basta calcolare la tabella delle differenze tra le nji
o e le njie ! Chiamiamo ‘contin-
genze’ le differenze cji = njio - nji
e.
Pa Fi Basso Medio Alto cji
Basso +177 -139 -38 0
Medio -138 +138 0 0
Alto -39 +1 +38 0
0 0 0 0
Tavola delle contingenze cji=njio-
njie
Contingenze & contingenze quadratiche
Pa Fi Basso Medio Alto cji
Basso +177 -139 -38 0
Medio -138 +138 0 0
Alto -39 +1 +38 0
0 0 0 0
Tavola delle contingenze cji=njio-
njie
Ogni singola contingenza ci racconta del-lo scostamento tra una frequenza osser-vata e quella teorica di perfetta indipen-denza. Per esempio qui si nota la coinci-denza tra nmedio,alto
o e nmedio,altoe, ma altre
contingenze sono assai più elevate.
Se noi vogliamo misurare globalmente il grado di scostamento della distribuzione congiunta da quella teorica di indipendenza è necessario fare una sintesi delle sin-gole contingenze: occorre calcolarne una qualche ‘media’.
Ma c’è un problema. La tavola osservata e quella teorica hanno le stesse distribu-zioni marginali. Perciò la tavola delle contingenze ha somme (per riga, per colonna, in totale) pari a zero. Occorre quindi fare la media non delle contingenze semplici, ma di una qualche trasformazione 0. Come il valore assoluto o i quadrati. E poi farne la somma. E’ una procedura familiare, vero?
Già che ci siamo, ricordiamo anche che la varianza ci dava problema perché somma quantità quadratiche ed è di un ordine superiore ai dati osservati. Avevamo cercato quindi di ricondurla allo stesso ordine di grandezza dei dati (facendone la radice).
Misurare la connessione
Pa Fi Basso Medio Alto njie
Basso 467 601 80 1148
Medio 551 710 94 1355
Alto 52 67 9 128
1070 1378 183 2631
Pa Fi Basso Medio Alto cji
Basso +177 -139 -38 0
Medio -138 +138 0 0
Alto -39 +1 +38 0
0 0 0 0
Tavola contingenze cji=njio-nji
e
Tavola numerosità osservate nji
o
Tavola numerosità teoriche nji
e
Tavola dei rapporti cji2/nji
e
Pa Fi Basso Medio Alto
Basso 67,086 32,148 18,050
Medio 34,563 26,822 0
Alto 29,250 0,015 160,444
Pa Fi Basso Medio Alto njio
Basso 644 462 42 1148
Medio 413 848 94 1355
Alto 13 68 47 128
1070 1378 183 2631
Qui sono riepilogate le tavole di calcolo. Ma perché per riportare all’ordine di grandezza dei dati la somma la dividiamo per nji
e e non per njio? Tanti i
motivi: ma provate voi a fare rapporti con uno zero al denominatore!
L’indice chi quadrato di Pearson
sr
jieij
eij
oij
n
nn,
,
22 )(
La somma dei rapporti (cji
2/njie) è una buona misura del
grado di connessione tra due variabili. La indichiamo con la lettera greca (si legge ‘chi’) seguita dal segno del quadrato. Una misura proposta da Karl Pearson, studioso di fine ‘800, con queste caratteristiche:
2 è somma di tanti rapporti in cui i numeratori sono quadrati (quindi sem-pre 0) e i denominatori sono prodotti di frequenze marginali (quindi sempre >0: un prodotto è zero solo se uno dei fattori è zero, ma se una frequenza marginale fosse zero non ci sarebbe quella riga o colonna nella tabella!);
2 è zero se e solo se tutte le differenze al numeratore sono zero cioè se e solo se (nji
o-njie)=0 per ogni i,j; cioè in caso di indipendenza stocastica;
2 cresce, allontanandosi da zero, al crescere della distanza della distribu-zione congiunta osservata da quella di perfetta indipendenza;
2 ha un massimo? E a che situazione corrisponde? Risponderemo presto.
Intanto limitiamoci a calcolare questa misura nell’esempio della mobilità sociale. Risulta 2 = (67,086+32,148+18,050+34,563+…+160,444)= 368,378
Agli antipodi: la perfetta dipendenza funzionale
Chi quadrato misura lo scostamento dal caso di perfetta indipendenza stocastica. Ma fino a quanto ci si può scostare? Esiste un tetto non superabile? E si può dare un significato a questa situazione limite agli antipodi della indipendenza stocastica?
Per rispondere inventiamoci un’altra tavola di mobilità sociale, questa volta fittizia, intragenerazionale (non padri-figli) tra tre settori di vita: città, periferia, campagna.
t t+1 Rur Per Urb
Rur 25 5 0 30
Per 5 25 10 40
Urb 0 10 20 30
30 40 30 100
Tavola di società castuale (2=200)
t t+1 Rur Per Urb
Rur 9 12 9 30
Per 12 16 12 40
Urb 9 12 9 30
30 40 30 100
Tavola di perfetta indipendenza (2=0)
t t+1 Rur Per Urb
Rur 30 0 0 30
Per 0 40 0 40
Urb 0 0 30 30
30 40 30 100
t t+1 Rur Per Urb
Rur 0 0 30 30
Per 0 40 0 40
Urb 30 0 0 30
30 40 30 100
Tavola di mobilità osservata (2=73,8)
Tavola di società à la Pol Pot (2=200)
Perfetta dipendenza funzionale
Diamo allora una definizione formale del concetto di dipendenza funzionale:
«Una variabile Y dipende funzionalmente da X se a ogni modalità «Una variabile Y dipende funzionalmente da X se a ogni modalità osservata di X corrisponde una e una sola modalità osservata di Y»osservata di X corrisponde una e una sola modalità osservata di Y»
Attenti alle proprietà della dipendenza funzionale:
La dipendenza funzionale non implica che ci sia una relazione quantitativa ‘monotòna’ tra le due variabili (in cui al crescere di una cresca o non diminuisca l’altra). Si pensi a una società in cui tra t e (t+1) quelli che stanno in A passino in B, quelli che stanno in B passino a C, quelli che stanno in C passino ad A.
La dipendenza funzionale non implica nep-pure che le variabili coinvolte siano quanti-tative!! E questo vale in generale per 2 e per la ‘teoria della connessione’.
StressStatus
High Middle
Low
High - - >0
Middle >0 - -
Low - >0 -
In questo esempio i ceti medi (‘in mezzo al guado) hanno il massimo livello di stress, i ceti bassi hanno
una gradazione intermedia di stress, i ceti alti stanno
relativamente bene..
Dunque. La tabella osservata mostra un grado di connessione pari a 2=73,8. La situazione di riferimento di indipendenza ha ovviamente 2=0. Ma quelle, opposte, in cui lo stato al tempo (t+1) ‘dipende’ in modo rigido dallo stato al tempo t, danno entrambe 2=200 (la stessa cifra: eppure sono situazioni davvero diverse!).
Ancora sulla perfetta dipendenza funzionale
Se e solo se la tavola delle numerosità congiunte (tabella di contingenza) è quadrata (r=s) la dipendenza funzionale è biunivoca (cioè la dipendenza fun-zionale di Y da X implica anche la dipendenza funzionale di X da Y e vicever-sa). Solo in questa caso dunque la connessione è un concetto simmetrico.
X Y A B C
D - - >0
F >0 >0 -
Se s>r (più colonne che righe) ci può essere perfetta dipendenza funzionale di X da Y ma non viceversa (ad almeno una modalità di X corrisponderà più di una modalità di Y).
Se r>s (più righe che colonne) ci può essere perfetta dipendenza funzionale di Y da X ma non viceversa (ad almeno una modalità di Y corrisponderà più di una modalità di X).
X Y A B
D >0 -
E - >0
F - >0
X Y 1 2 4
1 - >0 -
2 - - >0
3 >0 - -
Infine, se entrambe le v.s. coinvolte sono quantitative discrete, alla tabella di massima connessione si può asso-ciare una relazione funzionale (non necessariamente monotona) del tipo Y=f(x) e una del tipo X=g(y).
0
1
2
3
4
0 1 2 3
Normalizzare chi quadrato
1),min(2max srN
Si può dimostrare (credeteci sulla parola) che l’indice 2 ha un massimo pari al minore tra il numero di righe e il numero di colonne, meno 1 e moltiplicato per N:
E’ abbastanza intuitivo che il valo-re massimo, corrispondente alla situazione di massima connes-sione, si può realizzare solo nel caso in cui la tabella della distri-buzione congiunta sia quadrata (r=s). Ma anche con questo ‘lieve difetto’, il valore massimo ci con-sente di normalizzare l’indice:
11),min(
1)/(
/0,
2
2max
22
srN
nnnNji
jiij
Nell’esempio di mobilità intergenera-zionale r=s=3, N=2631 e 2=368,378.Quindi 2
max=2631(3-1) e 2*=0,07
Nell’esempio di endogamia matrimonia-le r=s=3, N=913 e 2=544,1.
Quindi 2max=913(3-1) e 2*=0,298
Nella tavola (fittizia) di mobilità socialeosservata r=s=3, N=100 e 2=73,8.Quindi 2
max=100(3-1) e 2*=0,369
Ma nelle simulazioni di mobilità socialedi una società per caste e di una società
à la Pol Pot 2=200 e quindi 2*=1!!
L’imprevedibilità dei miscugliRicordate il concetto di miscuglio, cioè di una popolazione costituita da unità provenienti da gruppi (subpopolazioni, strati) eterogenei tra loro, dotati di distribuzioni di frequenza divergenti? Avevamo fatto conoscenza coi miscugli nell’analisi univariata, e avevamo concluso che occorreva stare prudenti..
Anche nella connessione tra due caratteri qualitativi la natura di miscuglio di una popolazione può produrre effetti sorprendenti. E’ infatti vero che:
In un miscuglio si può osservare perfetta indipendenza stocastica tra due caratteri X e Y, anche se nelle subpopolazioni si possono osservare relazioni di dipendenza funzio-nale anche perfetta.
Viceversa, in un miscuglio si può osservare una relazione tra X e Y in una certa direzione, mentre nelle subpopolazioni la relazione funzionale esiste ma di segno diverso.
A 35 anni, tra le ragazze chi lavora è meno
frequente che abbia un figlio di chi non lavora; tra i ragazzi è invece
l’opposto. Ma se pigliamo ragazzi e ragazze insieme che
tipo di relazione funzionale potremo trovare tra attività
lavorativa e stato civile?
Quando l’eterogeneità nasconde una relazione
Per esempio, vediamo se esiste associazione tra un indicatore P di performance in carriera (a=alta, b=bassa) e l’appartenenza etnica E (n=nero, s=ispanico, w=bianco) in due isolati W1 (periferico) e W2 (city) di una città americana.
17
8
6
3
9
0
6
3
alta
8
8
0
0
bassa
Bianco
Ispanico
Nero
E/P
W1: isolato periferico
22
4
12
6
4
4
0
0
alta
18
0
12
6
bassa
Bianco
Ispanico
Nero
E/P
W1: isolato nella city
39
12
18
9
13
4
6
3
alta
26
8
12
6
bassa
Bianco
Ispanico
Nero
E/P
W1+W2: miscuglio
Nell’isolato periferico c’è perfetta dipendenza fun-zionale: i bianchi sono marginali e ‘falliscono’.
In centro invece i bianchi hanno buone performan-ces. Le minoranze etniche (anche se numerose!) as-sai meno.
Nel miscuglio ogni per-cezione di un ‘minority status effect’ si dissol-ve: c’è perfetta indi-pendenza stocastica!!
Il paradosso di Simpson
Un secondo effetto sorprendente consiste nel rovesciamento della direzione della connessione individuata. Può sembrare un guaio meno radicale del precedente, ma può avere conseguenze consistenti. Supponiamo che due ospedali sperimenti-no l’efficacia terapeutica (E=sì o no) di due molecole (F=A,B) nel curare la Sars. Solo, i due ospedali abbiano somministrato i due farmaci in misura differente.
25
8
17
17
6
11
no
8 (32%)
2 (25%)
6(35%)
sì
FB
FA
F/E
Clinica 1 Pool delle cliniche Clinica 2
50
25
25
22
10
12
no
28 (56%)
15 (60%)
13 (52%)
sì
FB
FA
F/E
25
17
8
5
4
1
no
20 (80%)
13 (76%)
7 (87%)
sì
FB
FA
F/E
In entrambe le cliniche il farmaco A ottiene risultati migliori. Ma (attenti alla diver-sa distribuzione dei farmaci) nel miscuglio ha risultati più favorevoli il farmaco B. Così la scelta del farmaco più efficace dipende dalla scelta del livello di analisi:
Se si sceglie il farmaco più efficace nella maggioranza di cliniche, sarà A.
Se si sceglie il farmaco più efficace sul pool delle cliniche, esso sarà B!