curso de estadística no-paramétrica - sesión 4: análisis ...€¦ ·...
TRANSCRIPT
Curso de Estadística no-paramétricaSesión 4: Análisis de datos categóricos
Facundo Muñoz
Grup d’Estadística espacial i Temporal Departament d’Estadísticaen Epidemiologia i Medi Ambient i Investigació Operativa
Universitat de València
Junio 2013
Homogeneidad e independencia Medidas de Asociación
EjemploGrupos sanguíneos en regiones de Escocia
Ejemplo 2.- Mitchell et al. (1976) estudiaron la distribución de los grupossanguíneos en varias regiones de Sur-Oeste de Escocia (Annals of HumanBiology), obteniendo:
Eskdale Annandale Nithsdale TotalA 33 54 98 185B 6 14 35 55O 56 52 115 223AB 5 5 5 15Total 100 125 253 478
¿Se distribuyen los grupos sanguíneos de igual manera en las diferentesregiones?
2 / 26
Homogeneidad e independencia Medidas de Asociación
AbstracciónContraste de Homogeneidad
En k grupos de individuos (subpoblaciones) se observa unacaracterística X que puede tomar r valores distintos (categorías)¿Los porcentajes de las r categorías son los mismos en las ksubpoblaciones? ¿La variable X se distribuye idénticamente en las ksubpoblaciones?Tabla de contingencia:
Subp. 1 Subp. 2 . . . Subp. k TotalCateg. 1 O11 O12 . . . O1k O1+
Variable Categ. 2 O21 O22 . . . O2k O2+X . . . . . . . . . . . . . . . . . .
Categ. r Or1 Or2 . . . Ork Or+Total O+1 O+2 . . . O+k N = O++
dondeOij número de observaciones de la categoría i de la variable X quepertenecen a la subpoblación j .Oi+ número de observaciones de la categoría i de la variable X .O+j número de observaciones de la subpoblación j .
3 / 26
Homogeneidad e independencia Medidas de Asociación
Contraste de Homogeneidad
Objetivo: contrastar si la variable X se distribuye igual en las ksubpoblaciones.Si la hipótesis H0 fuera cierta, podemos estimar las probabilidades deesta distribución a partir de los datos observados:
pi+ = P(X = i) = Oi+N
Por lo tanto, el número esperado de observaciones en la celda (i , j),bajo la hipótesis de homogeneidad, y dado que la muestra de lasubpoblación j es de tamaño O+j , es
Eij = p̂i+O+j =Oi+O+j
NPara comparar las frecuencias observadas con las frecuenciasesperadas podemos utilizar el estadístico de contraste:
χ2s =∑
ij
(Oij − Eij)2
Eij∼ χ2((r − 1)(k − 1))
4 / 26
Homogeneidad e independencia Medidas de Asociación
Contraste de HomogeneidadImplementación
SPSSLa variable debe ser Nominal, con una codificación numéricaSi no es así, utilizar Transformar:Recodificación automática
Analizar:Estadísticos descriptivos:Tablas decontingencia... + Statistics:Chi-square
EjercicioRepresentar visualmente los datos mediante un diagrama de barrasagrupado Gráficos:Generador de gráficos...
Comprobar las homogeneidad de la distribución de los grupossanguíneos por regiones de Escocia con el banco de datosgrupos-escocia.csv
5 / 26
Homogeneidad e independencia Medidas de Asociación
EjemploPendiente del terreno y capa freática
Ejemplo 3.- Para analizar la relación de la pendiente del terreno con lacapa freática, se tomaron datos de 1445 localizaciones en una zona al sury al este de Cambridge. Los datos recogidos corresponden al ángulo de lapendiente del terreno, clasificado en llana, suave y empinada, y a la alturade la capa freática, según sea alta, media o baja. Estos datos se resumenen la tabla:
Pendiente terrenoLlana Suave Empinada Total
Altura Alta 737 231 37 1005Capa Media 110 202 96 441
Freática Baja 14 8 10 32Total 861 441 143 1445
¿Es independiente la altura de la capa freática de la pendiente del terreno?
6 / 26
Homogeneidad e independencia Medidas de Asociación
AbstracciónContraste de Independencia
Sean ahora X e Y dos variables aleatorias de las que tenemos unamuestra aleatoria de tamaño N.Al igual que en los contrastes de homogeneidad, las observaciones seclasifican en forma de tabla de frecuencias observadas (Oij). Enconcreto, clasificamos la muestra aleatoria según las r categorías dela variable categórica X y las k categorías de la variable categórica Y .
Variable YCateg. 1 Categ. 2 . . . Categ. k Total
Categ. 1 O11 O12 . . . O1k O1+Variable Categ. 2 O21 O22 . . . O2k O2+
X . . . . . . . . . . . . . . . . . .Categ. r Or1 Or2 . . . Ork Or+
Total O+1 O+2 . . . O+k N = O++
dondeOij número de observaciones de la categoría i de la variable X quepertenecen a la categoría j de la variable Y .Oi+ número de observaciones de la categoría i de la variable X .O+j número de observaciones de la categoría j de la variable Y . 7 / 26
Homogeneidad e independencia Medidas de Asociación
Contraste de Independencia
Si la hipótesis H0 de independencia fuera cierta:pi |j = P(X = i |Y = j) = P(X = i) = pi+
Como además pi |j = P(X = i |Y = j) = P(X=i ,Y=j)P(Y=j) =
pijp+j
Tenemos que: pij = P(X = i ,Y = j) = P(X = i)P(Y = j) = pi+p+jEstas probabilidades podemos estimarlas a partir de los datos, por loque el número esperado de casos en la celda (i , j), bajo la hipótesisde independencia es:
Eij = Np̂ij = Np̂i+p̂+j = N Oi+N
O+jN =
Oi+O+jN
Para comparar las frecuencias observadas con las frecuenciasesperadas podemos utilizar el estadístico de contraste:
χ2s =∑
ij
(Oij − Eij)2
Eij∼ χ2((r − 1)(k − 1))
8 / 26
Homogeneidad e independencia Medidas de Asociación
Test de la razón de verosimilitud
El estudio de la independencia o de la homogeneidad se realizamediante el Estadístico χ2
χ2 =∑
celdas
(Oi − Ei)2
Ei
Alternativamente se puede realizar mediante el Estadístico de la razónde verosimilitud
G2 = 2∑
celdasOi log
(OiEi
)Bajo la hipótesis nula de independencia, también sigue unadistribución Ji-cuadrado con ν = (r − 1)(k − 1) grados de libertad.Basado en la teoría de máxima verosimilitud y, para muestras detamaño grande, da resultados bastante parecidos al test χ2.Sin embargo, es más potente con muestras pequeñas.
SPSSSale por defecto en los resultados cuando se pide un χ2 9 / 26
Homogeneidad e independencia Medidas de Asociación
Contraste de IndependenciaImplementación
SPSSIdéntica!
EjercicioComprobar la independencia de la pendiente del terreno y la altura dela capa freática con el banco de datospendiente-capafreatica.csv
Notar que estos datos no corresponden a casos individuales, sino queestán agrupados por combinaciones de las categorías. En este caso sedebe ponderar los casos Datos:ponderar casos.Representar visualmente los datos mediante un diagrama de barrasagrupado (opción de la ventana de Tablas de contingencia)
10 / 26
Homogeneidad e independencia Medidas de Asociación
Contrastes de Homogeneidad e IndependenciaAspectos en común y diferencias
Los problemas de homogeneidad e independencia básicamente sediferencian en el tipo de muestreo que ha generado los datos, aunqueen general, podemos pensar que el problema es similar: estudiar siexiste alguna relación/asociación entre los niveles de las variablesconsideradas.Ambos problemas comparten el hecho de que tenemos conteos ofrecuencias de clasificación observadas en una tabla de contingencia.Observar que en las tablas de contingencia no se suele distinguir entrevariable respuesta y explicativas, aunque veremos ahora que dichadistinción puede ser de utilidad a la hora de modelar e interpretar.Observar también que el estadístico de contraste es el mismo enambas situaciones ya que las frecuencias esperadas bajo las doshipótesis son las mismas.
11 / 26
Homogeneidad e independencia Medidas de Asociación
Condiciones de aplicabilidad del Test Chi-cuadrado
CondicionesLas frecuencias esperadas en cada celda deben ser suficientementegrandes (al menos 5), ya que el test se basa en una aproximaciónLa muestra o submuestras deben ser aleatoriasEn el caso del contraste de Homogeneidad, las submuestras deben serindependientes
Alternativas para tablas 2× 2El Estadístico χ2 produce valores artificialmente bajos en tablas 2× 2,aumentando la probabilidad del Error tipo I. En este caso, conviene utilizaralguna de las siguientes alternativas.
Test exacto de FisherCorrección de Yates (o corrección por continuidad)
Estas medidas alternativas son proporcionadas automáticamente por SPSScuando la tabla de contingencia es de orden 2× 2 12 / 26
Homogeneidad e independencia Medidas de Asociación
EjemploActitud de enfermeros y enfermeras
En un pequeño centro de salud se realiza una encuesta para evaluar laactitud de los enfermeros y las enfermeras hacia los pacientes. Finalmente,se reduce la valoración a una actitud positiva o negativa.
Actitud - +
Sexo
Mujer 5 1Hombre 1 4
Ejercicio¿Hay diferencias significativas en la actitud según el sexo?(enfermeros-enfermeras.csv)La tabla es 2× 2 y los valores esperados son todos menores que 5. ElEstadístico χ2 no es válido.
13 / 26
Homogeneidad e independencia Medidas de Asociación
Resumen análisis de datos categóricos
Cuando disponemos de una o dos variables categóricas nos podemosencontrar básicamente ante tres situaciones:
Una variable observada categórica (no necesariamente dicotómica) dela que queremos estudiar si los conteos observados en cada una desus categorías cumplen unas determinadas proporciones: Contrastede bondad de ajuste.Una variable observada categórica (no necesariamente dicotómica) dela que queremos estudiar si se comporta igual en variassubpoblaciones (o muestras): Contraste de homogeneidad.Dos variables observadas de las que queremos analizar si estánrelacionadas o son independientes. Es decir, una muestra aleatoria dedos variables categóricas (no necesariamente dicotómicas): Contrastede Independencia
14 / 26
Homogeneidad e independencia Medidas de Asociación
Medidas de asociación de variables categóricasEjemplo
Si se les pidiera adivinar el grado de solvencia de un cierto paíseuropeo (en una escala de calificación tipo AAA, AA, etc.), ¿cuálsería su estimación?La moda: el grado más común, es el que tiene más chancesAhora, si sabemos que el país está situado en el norte de Europa¿Cambiarían la estimación? (independencia)En los análisis cuantitativos suele interesar predecir el valor de unavariable (dependiente) a partir del conocimiento de una o variascovariablesLa medida de asociación entre las variables es el grado en que lainformación adicional permite mejorar la predicción
15 / 26
Homogeneidad e independencia Medidas de Asociación
Medidas de asociación de variables categóricasPuntos a destacar
Cuantifican el grado de asociación entre dos variables categóricasTambién pueden utilizarse para valorar la independencia, aunquesuelen utilizarse después de establecer la significatividad de laasociaciónHay muchas medidas diferentes, cada una más o menos sensible adeterminado tipo específico de asociaciónNo hay una medida que sea la mejor para todas las situacionesElegiremos una u otra en función del tipo de datos, la hipótesis deinterés y de las propiedades de cada una de las medidasNo es científicamente honesto calcular muchas medidas y elegir aposteriori la que mejor ha funcionadoEstas medidas deben considerarse únicamente como unaaproximación exploratoria inicial para un análisis posterior
16 / 26
Homogeneidad e independencia Medidas de Asociación
Variables nominalesMedidas basadas en χ2
Coef. de contingencia(Pearson, 1904)
C =
√χ2
χ2 + N
V de Cramer (Cramér, 1946)y coeficiente Phi
V =
√χ2
N(m«ın{r , c} − 1)
Rango: [0, 1] (desde no asociación hsata asociación completa)Convención sobre el tamaño del efecto: pequeño = 0,1, medio = 0,3,grande = 0,5No importa cuál variable es fila y cuál es columna, ni tampoco elorden de las categoríasMientras que C varía con el número de filas y columnas, V estádiseñado para comparar tablas con diferentes dimensionesEn el caso de dos variables binarias (tabla 2× 2), la V de Cramer sereduce a φ =
√χ2
N 17 / 26
Homogeneidad e independencia Medidas de Asociación
Variables nominalesMedidas basadas en la reducción proporcional del error
Coeficiente Lambda (Kruskal & Goodman, 1954)
λB =EA − EA|B
EA
Refleja la reducción relativa en el error de predicción cuando se utilizan losvalores de la variable independiente (B) para predecir la dependiente (A)utilizando la moda de la distribución condicional o incondicional.
Hay una versión simétrica λ que toma un valor intermedio entre λA yλB y es útil cuando las variables son intercambiablesSPSS los calcula todos. Hay que usar el adecuadoEl resultado es una cantidad interpretable, que varía entre 0 y 1λB = 0 implica que conocer B no ayuda a reducir en nada el error depredicción de A (e.g., si A y B independientes)λB = 1 implica asociación perfecta: conocer B determinaexactamente la categoría de A
18 / 26
Homogeneidad e independencia Medidas de Asociación
Variables nominalesMedidas basadas en la reducción proporcional de la entropía
Coeficiente de Incertidumbre
U =HA − HA|B
HA
Refleja la reducción relativa en la entropía de la distribución predictivacuando se utilizan los valores de la variable independiente (B) parapredecir la dependiente (A).
La entropía (Shannon, 1963) es una medida inversa de la cantidad deinformación contenida en una distribuciónU compara la distribución completa, y no sólo la modaSPSS también calcula las versiones direccionales y simétricas. Hayque usar la adecuadaEl resultado es una cantidad interpretable, en el mismo sentido que λ,y que también varía entre 0 y 1
19 / 26
Homogeneidad e independencia Medidas de Asociación
EjemploActitud de enfermeros y enfermeras
Hasta ahora hemos conseguido determinar la existencia de una relaciónentre el sexo y la actitud hacia el paciente. Pero el p-valor obtenido en loscontrastes de independencia no mide la magnitud de la asociación.
Actitud - + Total
Sexo
Mujer 5 1 6Hombre 1 4 5Total 6 5 11
EA = 11− 6 = 5EA|B = (6− 5) + (5− 4) = 2
λB =EA−EA|B
EA= 5−2
5 = 0,6El error se reduce en un 60%
EjercicioValorar la magnitud del efecto Sexo utilizando medidas adecuadas.Analizar:Estadísticos descriptivos:Tablas decontingencia + Estadísticos:(Nominales)
20 / 26
Homogeneidad e independencia Medidas de Asociación
Medidas de asociaciónVariables ordinales
Dirección de la asociaciónComo ahora disponemos del orden de las categorías tiene sentido hablarde la dirección de la asociación.
Variables positivamente asociadas: los valores pequeños de Aaparecen con los valores pequeños de B.Variables negativamente asociadas: los valores pequeños de Aaparecen con los valores grandes de B.
Sea un par de observaciones, una perteneciente a la celda (i, j) y la otra ala celda (i’, j”). Todas las medidas de asociación ordinales son simplesfunciones de las siguientes categorías:
C = #{parejas tales que: (i > i ′&j > j ′) ∨ (i < i ′&j < j ′)}D = #{parejas tales que: (i > i ′&j < j ′) ∨ (i < i ′&j < j ′)}TA = #{parejas tales que: i = i ′}TB = #{parejas tales que: j = j ′}T = #{parejas tales que: i = i ′&j = j ′} 21 / 26
Homogeneidad e independencia Medidas de Asociación
Medidas de asociaciónVariables ordinales
La asociación es positiva cuando C −D > 0 y negativa cuando C −D < 0Gamma γ = C−D
C+DNo tiene encuenta los empatesSi los hay, sobreestima la asociación
d de Somers d = 2(C−D)(C+D+TB)(C+D+TA)
τB de Kendall τB = (C−D)√C+D+TB
√C+D+TA
τC de Kendall τC = 2(C−D)m«ın{r ,c}N2 m«ın{r ,c}−1
Todas varían entre −1 y 1 (asociación perfecta negativa o positiva),pasando por 0 (ausencia de asociación)
EjercicioCuantificar el grado de asociación de las variables education y Loan(nivel de educación y si el banco concedió el préstamos solicitado) delbanco de datos Loan.sav
22 / 26
Homogeneidad e independencia Medidas de Asociación
EjemploVisitas al gimnasio y ritmo cardíaco
La hipótesis de un estudio es que quienes van al gimnasio másfrecuentemente tienen un ritmo cardíaco (en reposo) más bajo.
60
70
80
90
5 10 15NVisitas
Ritm
oC
¿Qué clase de variables están en juego?¿En ese caso, cuál sería el método más natural para analizar larelación entre ellas?Pintar los datos (gimnasio-corazon.csv) y calcular la Correlaciónde Pearson (Analizar:Correlaciones:Bivariadas...)
23 / 26
Homogeneidad e independencia Medidas de Asociación
Ejemplo (cont.)Visitas al gimnasio y ritmo cardíaco
Interpretación de los resultados y replanteamiento del análisis:No hay una correlación lineal significativa entre las variablesSin embargo, la hipótesis es razonablePosibles fallos:
1 La relación existe pero no es lineal (en cuyo caso, podría buscarse unatransformación de los datos adecuada)
2 Las hipótesis del test de significatividad (paramétrico) del coeficientede correlación ρ de Pearson no se cumplen
3 Simplemente hubo mala suerte con la muestraEl número de visitas no necesariamente refleja la duración y laintensidad de la actividadEl ritmo cardíaco puede tener una gran variabilidad entre personas,debido a otros factoresPor tanto, no es raro que la relación lineal no sea muy marcadaLas medidas ordinales pueden detectar relaciones no linealesAnalizar:Estadísticos descriptivos:Tablas decontingencia... + Estadísticos:Correlaciones 24 / 26
Homogeneidad e independencia Medidas de Asociación
Medidas de asociaciónVariables ordinales
Rho ρS de SpearmanValoración de la correlación entre dos variables, basándose en laordenación de las categorías.
ρS = 1− 6∑
D2i
N(N2 − 1)
donde N es el número de parejas y Di es la diferencia en el orden queocupa cada observación en los ranking de las dos variables.
Detecta asociaciones monótonas, no sólo lineales.Adecuado cuando las variables tiene muchas (5+) categoríasCuando son cuantitativas, cada valor observado se categoriza segúnsu orden en el ranking
25 / 26
Homogeneidad e independencia Medidas de Asociación
Spearman vs. Pearson
26 / 26