guía 03 socioestadística iii-2013-(test corr) (1)

11
Socioestadística III - Carrera de Sociología - 2013 Profesor: Patricio Alcaíno Martínez Ayudantía: Iván Mejías Guía de trabajo personal Nº3 Introducción a la Inferencia en la correlación Inferencia en la correlación – test de significación para la correlación Test del coeficiente de correlación ¿Para qué llamar caminos a los surcos del azar? (A. Machado) I: FUNDAMENTOS 1. La situación Cuando se realiza un análisis de correlación entre variables, el procedimiento entrega un número real entre 1 y -1. Sin embargo, esta sola cifra no es suficiente para afirmar que las variables están correlacionadas linealmente o que no lo están. Para eso se requiere una prueba de hipótesis de la correlación. Esta prueba se utiliza para contrastar la significación del coeficiente de correlación, ya sea φ , r de Spearman o r de Pearson. En esta sección veremos solo el caso cuando la hipótesis nula postula que la correlación es cero. 2. Hipótesis nula H 0 : ρ = 0 La hipótesis nula afirma que el coeficiente de correlación poblacional ρ es igual a cero. Es decir, que no hay correlación entre las variables. 3. Hipótesis alternativas H 1 : ρ > 0 ensayo de cola derecha (unilateral derecho) Esta hipótesis alternativa afirma que el coeficiente poblacional ρ es mayor que cero, es decir, que hay correlación positiva entre las variables. No dice qué tan estrecha es la asociación, solo que es positiva. H 1 : ρ < 0 ensayo de cola izquierda (unilateral izquierdo) Esta hipótesis alternativa afirma que el coeficiente poblacional ρ es menor que cero, es decir, que hay correlación negativa entre las variables. No dice qué tan estrecha es la asociación, solo que es negativa. H 1 : ρ 0 ensayo de dos colas (bilateral) Esta hipótesis alternativa afirma que el coeficiente poblacional ρ es distinto de cero, es decir, que sí hay correlación entre las variables. No dice si esta es positiva o negativa, sólo que la hay. Tampoco nos da una medida del grado de correlación (alta, media, baja).

Upload: pablo-mejias

Post on 19-Nov-2015

16 views

Category:

Documents


1 download

DESCRIPTION

I: FUNDAMENTOS1. La situaciónCuando se realiza un análisis de correlación entre variables, el procedimiento entrega un número real entre 1 y -1. Sin embargo, esta sola cifra no es suficiente para afirmar que las variables están correlacionadas linealmente o que no lo están. Para eso se requiere una prueba de hipótesis de la correlación.Esta prueba se utiliza para contrastar la significación del coeficiente de correlación, ya sea φ, r de Spearman o r de Pearson.

TRANSCRIPT

  • Socioestadstica III - Carrera de Sociologa - 2013 Profesor: Patricio Alcano Martnez Ayudanta: Ivn Mejas

    Gua de trabajo personal N3 Introduccin a la Inferencia en la correlacin

    Inferencia en la correlacin test de significacin para la correlacin

    Test del coeficiente de correlacin

    Para qu llamar caminos a los surcos del azar? (A. Machado)

    I: FUNDAMENTOS 1. La situacin Cuando se realiza un anlisis de correlacin entre variables, el procedimiento entrega un nmero real entre 1 y -1. Sin embargo, esta sola cifra no es suficiente para afirmar que las variables estn correlacionadas linealmente o que no lo estn. Para eso se requiere una prueba de hiptesis de la correlacin. Esta prueba se utiliza para contrastar la significacin del coeficiente de correlacin, ya sea , r de Spearman o r de Pearson. En esta seccin veremos solo el caso cuando la hiptesis nula postula que la correlacin es cero. 2. Hiptesis nula

    H0: = 0 La hiptesis nula afirma que el coeficiente de correlacin poblacional es igual a cero. Es decir, que no hay correlacin entre las variables.

    3. Hiptesis alternativas H1: > 0 ensayo de cola derecha (unilateral derecho) Esta hiptesis alternativa afirma que el coeficiente poblacional es mayor que cero, es decir, que hay correlacin positiva entre las variables. No dice qu tan estrecha es la asociacin, solo que es positiva. H1: < 0 ensayo de cola izquierda (unilateral izquierdo) Esta hiptesis alternativa afirma que el coeficiente poblacional es menor que cero, es decir, que hay correlacin negativa entre las variables. No dice qu tan estrecha es la asociacin, solo que es negativa. H1: 0 ensayo de dos colas (bilateral) Esta hiptesis alternativa afirma que el coeficiente poblacional es distinto de cero, es decir, que s hay correlacin entre las variables. No dice si esta es positiva o negativa, slo que la hay. Tampoco nos da una medida del grado de correlacin (alta, media, baja).

  • Socioestadstica III-2013. Gua N3 2

    4. Estadstico de prueba Se utiliza el estadstico t de Student:

    2obs r1

    2nrt

    =

    Siendo r = coeficiente de correlacin (cualquiera de ellos) y n = tamao de la muestra. Cuando la hiptesis nula es verdadera, este estadstico tiene una distribucin t de Student con (n 2) grados de libertad. 5. Valor p de la prueba

    Para ensayo de cola derecha: =* P(t > t obs). Figura 5.A. Para ensayo de cola izquierda: =* P(t < t obs). Figura 5.B. Para ensayo de dos colas: =* 2 x P(t > t obs). Figura 5.C.

    6. Regla de decisin La regla de decisin, a un nivel de significacin es:

    Rechazar H0 si * < No rechazar H0 en caso contrario.

    7. La conclusin La conclusin est relacionada con la existencia o no de correlacin entre las variables en estudio y, dependiendo del tipo de ensayo, si esta es positiva o negativa. No indica nada respecto de la fuerza o grado de la correlacin.1

    8. Aplicaciones de la prueba En casos de variables categricas binomiales, generalmente el anlisis de correlacin se complementa con el anlisis de independencia con alguna prueba con el chi-cuadrado. De este modo, la prueba con chi-cuadrado contrasta la asociacin y la prueba de r la direccin de dicha asociacin.

    1 Para el contraste de hiptesis del tipo: H0: = 0,65 se usa otro procedimiento, que los interesados podrn encontrar en la bibliografa sugerida y en sitios Web.

    Fig. 5.A

    *

    obst

    0

    t t

    2*

    obst

    0 obst

    2*

    Fig. 5.C

    t

    *

    obst

    0

    Fig. 5.B

  • Socioestadstica III-2013. Gua N3 3

    II: PROBLEMAS RESUELTOS Caso 1: Capacidad de aprendizaje Un estudio ha analizado las variables X e Y en una muestra de 9 personas. El anlisis estadstico arroj una correlacin r(X, Y) = -0,403 entre la edad de estas personas y su capacidad de aprendizaje. Es significativa al 5% esta correlacin? Concluya. Solucin: 1: Planteamiento de hiptesis:

    H0: La correlacin es nula. = 0 H1: la correlacin es negativa. < 0

    H1 nos lleva a un ensayo de cola izquierda. 2: Clculo del estadstico de prueba: Calculando la t observada:

    2obs )403,0(1

    29403,0t

    = = 1,17

    3: Clculo del valor p: Calculando el valor p de la tabla t: el valor p corresponde a la probabilidad a la izquierda del t obs, ya que se trata de un contraste de cola izquierda, con 9 2 = 7 gl. =* P( 7pt ; 0,05; no se puede rechazar H0 al 5% (en verdad, ni al 1, ni al 5 ni al 10%) Por lo tanto, la correlacin no es significativa. No se puede negar que es cero. 5: Conclusin: Los datos entregados no permiten afirmar que el aprendizaje est asociado a la edad de los sujetos (p = 0,135). Comentario: el valor r = 0,403 pudo parecer atractivo en una primera mirada, ya que es un valor mediano y muy definido. Ms, no pas la prueba de significacin, por lo que es probable que en verdad en la poblacin sea cero o, por lo menos, no podemos afirmar que no sea cero. Para dirimir estas situaciones lo ms aconsejable es aumentar el tamao de la muestra. Por ejemplo, la misma correlacin en una muestra de tamao 12, baja el valor p a 0,096 (significativa la 10%), y con n = 22 el valor p = 0,024 (significativa la 5%), etc.

    0 -1,17 t

    gl7=

    0,135

    Fig. 6: Valor p de la prueba de cola izquierda para t = -1,17 con 7 gl.

  • Socioestadstica III-2013. Gua N3 4

    Caso 2: Familia y divorcio Sobre la base de la opinin de que el divorcio debilitar a la familia como institucin social, se realiza una investigacin, considerando adems de la opinin, las variables de control edad, sexo y religin del encuestado. Las variables y escala de medicin utilizadas fueron las siguientes:

    W = El divorcio debilitar a la familia (2 = s; 1 = ms o menos; 0 = no) X = Edad del encuestado (aos cumplidos al momento de la encuesta) Y = Sexo del encuestado (1 = masculino; 0 = femenino) Z = Cercana a la religin catlica (1 = s; 0 = no)

    Se calcularon las siguientes correlaciones, con su respectivo valor p: r(W, X) = 0,857; p 0,002 (unilateral) r(W, Y) = 0,262; p 0,247 (unilateral) r(W, Z) = -0,784; p 0,013 (unilateral) r(Y, Z) = -0,314; p 0,063 (unilateral)

    Con un 5% de significacin, en cada una de las correlaciones dadas construya una conclusin fundada. Solucin: Considerando un 5% de significacin, hay solo 2 correlaciones significativas, r(W, X) y r(W, Z). Entonces se concluye al 5% que: -A mayor edad, ms acuerdo en que el divorcio debilitar a la familia (p = 0,002)

    -La opinin de que el divorcio s debilitar a la familia, est asociada a las personas no cercanas a la religin catlica (p = 0,013).

    -La opinin de que el divorcio debilitar a la familia es independiente del sexo (p = 0,247) -La cercana a la religin catlica es independiente del sexo (p = 0,063) Caso 3: Pobreza y problemtica social Un estudio con una muestra de ciudades de Latinoamrica incluye las siguientes variables:

    W = ndice de pobreza (1 = alto; 2 = medio; 3 = bajo) X = tasa de homicidios (5 = alta; 3 = media; 1 = baja) Y = Tasa de alfabetismo (3 = alto; 2 = medio; 1 = bajo)

    El estudio lleg a las siguientes conclusiones derivadas del anlisis de correlacin. Se indica en parntesis el valor de r y el valor p. C1: Una alta tasa de homicidios est asociada a altos ndices de pobreza (r = -0,732; p = 0,0344) C2: La tasa de homicidios no est asociada al ndice de pobreza (r = 0,211; p = 0,0915). C3: La alta tasa de homicidios esta asociada a bajas tasas de alfabetismo (r = 0,531; p = 0,0056). A partir de estos datos: 3.1. Indique cul fue la hiptesis alternativa en el contraste que llev a la conclusin C1. 3.2. Indique cul fue la decisin en el contraste que llev a cada una de las conclusiones. 3.3. Indique en qu consiste el error de tipo I en la conclusin C3. 3.4. Indique cul fue la hiptesis nula en el contraste que llev a la conclusin C2. 3.5. Indique en qu consiste el error de tipo II en la conclusin C3. 3.6. Indique cul fue el nivel de significacin empleado en estos contrastes.

  • Socioestadstica III-2013. Gua N3 5

    Solucin: 3.1. En este contraste, la hiptesis alternativa puede ser: H1: 0, > 0 o < 0. En este caso, como r > 0, indica que la hiptesis alternativa es H1: > 0. 3.2. La conclusin C2 afirma la hiptesis nula (que siempre afirma que no hay correlacin). Por lo tanto, significa que la hiptesis nula no fue rechazada. En la conclusin C1 y C3 se afirma la hiptesis alternativa. Esto indica que la nula fue rechazada. 3.3. El error de tipo I es rechazar H0 siendo que es verdadera. En este caso significa rechazar que la tasa de homicidios no est asociada a la tasa de alfabetismo, siendo que es verdadero y no hay correlacin. 3.4. En este tipo de contraste la hiptesis nula siempre es: H0: = 0. Esto es, que no existe correlacin entre la tasa de homicidios y el ndice de pobreza. 3.5. El error de tipo II es aceptar (no rechazar) H0 siendo que es falsa. En el marco del caso consiste en aceptar que la tasa de homicidios no est asociada a las tasas de alfabetismo, siendo que es falso y s hay asociacin. 3.6. En C1 y C3 fue rechazada la hiptesis nula y ambos valores p son menores 0,10 y menores que 0,05; pero mayores a 0,01. Esto indica que fueron rechazadas al 5% o al 10%, pero no al 1%. Sin embargo, en C2 la hiptesis nula no fue rechazada siendo el valor p mayor que 0,05, pero menor que 0,10. Esto permite inferir que el nivel de significacin utilizado en el estudio fue del 5%.

    Caso 4: Tabaquismo y nivel ocupacional Se investiga la posible relacin entre el nivel laboral y el hbito de fumar tabaco. Para ello clasifica la muestra de personas segn el nivel jerrquico en que se desempean laboralmente y el grado de tabaquismo, tal como lo muestra la tabla siguiente:

    Personas segn nivel ocupacional y tabaquismo. N de casos. Tabaquismo Nivel ocupacional Total

    Alto Bajo Alto 8 6 14 Bajo 15 41 56 Total 23 47 70

    Con un 5% de significacin realice las pruebas necesarias para construir la conclusin del caso. Solucin: Primero se realizar una prueba de independencia con chi-cuadrado de Pearson. Hiptesis H0: El tabaquismo es independiente del nivel laboral H1: El tabaquismo est asociado al nivel laboral

  • Socioestadstica III-2013. Gua N3 6

    Estadstico de prueba:

    68,447235614

    70)156418( 22OBS =

    =

    Valor p: )68,4(P* 2 >= =0,0305 Decisin: Como 05,0* 0 Estadstico de prueba:

    2obs 258,01

    270258,0t

    = = 2,2. Esta t tiene 68 gl.

    Valor p: )2,2t(P* 68;p >= =0,0154

    2

    Decisin: Como 05,0*

  • Socioestadstica III-2013. Gua N3 7

    III: PROBLEMAS PROPUESTOS

    Caso 1: Socioeconoma de Amrica El Almanaque Mundial, en edicin 1994, entrega datos socioeconmicos de los pases del mundo. Los siguientes datos corresponden a una muestra aleatoria de pases de Amrica:

    X1 = Pas. X2 = Esperanza de vida, aos. X3 = Ingreso Per Cpita, en dlares. X4 = Analfabetismo, en %. X5 = Poblacin Urbana, en %.

    X1 X2 X3 X4 X5

    Canad 77,0 20.470 4,4 77,0

    Guatemala 65,3 900 44,9 39,0

    Cuba 75,7 2.000 6,0 73,0

    Honduras 65,8 590 26,9 86,0

    Brasil 66,0 2.680 19,0 75,0

    Chile 72,0 1.940 6,6 86,0

    Per 64,6 1.160 9,9 72,0

    Uruguay 72,4 2.560 3,8 86,0

    Bahamas 69,5 11.420 10,0 59,0

    Hait 54,1 370 47,0 28,0

    Trinidad y T. 71,0 3.610 3,9 69,0

    Panam 72,8 1.830 11,9 53,0

    Mxico 70,3 2.490 12,7 73,0

    Resultados: Correlacin r t p (unilateral)

    r(X2, X3)= 0,47560541 1,79320072 0,05326525 r(X2, X4)= -0,81460685 -4,65807301 0,00059423 r(X2, X5)= 0,60135272 2,49624794 0,01703547 r(X3, X4)= -0,38113759 -1,36729616 0,10235253 r(X3, X5)= 0,15114664 0,50712284 0,31213024 r(X4, X5)= -0,72849768 -3,5269828 0,00322220

    Construya, con un 5% de significacin, una conclusin por cada correlacin dada.

  • Socioestadstica III-2013. Gua N3 8

    Caso 2: Situacin civil y relacin de pareja Se realiza, mediante encuesta, una investigacin de las relaciones de pareja en una muestra aleatoria de 30 parejas independientes entre s, evaluando las variables W, X, Y y Z, con las escalas que se especifican: W = Relacin de la pareja: 3 = Buena; 2 = Aceptable; 1 = Deficiente X = Situacin civil de la pareja: 1 = casados; 0 = no casados, en unin libre Y = La pareja tiene hijos de ambos: 1 = s; 0 = no Z = Aos que dura la relacin: 0, 1, 2, 3, etc. Fueron calculadas las siguientes correlaciones: r(W, X) = -0,612; r(X, Y) = 0,508; r(W, Y) = 0,252; r(W, Z) = 0,379 Realice contraste de hiptesis para la correlacin y concluya con un 5% de significacin. Caso 3: Satisfaccin con la vida Un estudio con personas evala el grado de satisfaccin con la vida, segn sexo y nmero de amigos.

    Grado de satisfaccin con la vida: 0 = bajo; 1 = medio; 2 = alto Sexo: 0 = mujer; 1 = hombre N de amigos: 0, 1, 2,

    El SPSS arroj la siguiente salida: Correlaciones

    Sexo N de amigos Grado de satisfaccin

    Rho de Spearman

    Sexo

    Coeficiente de correlacin 1,000 -,128 -,113

    Sig. (unilateral) . ,170 ,201 N 57 57 57

    N de amigos

    Coeficiente de correlacin -,128 1,000 ,472

    Sig. (unilateral) ,170 . ,000 N 57 57 57

    Grado de satisfaccin

    Coeficiente de correlacin -,113 ,472 1,000

    Sig. (unilateral) ,201 ,000 . N 57 57 57

    3.1. Por qu se utiliz el coeficiente de Spearman para analizar este caso? 3.2. En la correlacin Sexo-N de amigos, qu significa que la significacin sea unilateral? 3.3. En la correlacin Sexo-Grado de satisfaccin, cul es la significacin bilateral? 3.4. En la correlacin N de amigos-Grado de satisfaccin, cul es la hiptesis nula en el contraste de hiptesis? 3.5. De las correlaciones de la matriz dada, cul o cules de ellas son significativas al 5%? 3.6. Construya, al 10% de significacin, las conclusiones que se derivan de este estudio.

  • Socioestadstica III-2013. Gua N3 9

    Caso 4: Estado vegetal Se realiza un estudio muestral para saber si las personas estn o no de acuerdo con la medida de desconectar de las mquinas a pacientes en estado vegetal. Segn segmento socioeconmico, los resultados dieron origen a una tabla como la siguiente:

    Est de acuerdo? Segmento socioeconmico

    Alto Medio Bajo

    S No

    4.1. Si la prueba Chi-cuadrado para la tabla dio un estadstico 2 = 5,6; al 5% construya la conclusin que se deriva de este resultado. Caso 5: Pobreza y problemtica social Se ha hecho un estudio con una muestra de pases, que incluye las siguientes variables: W = ndice de pobreza; X = Tasa de homicidios; Y = ndice de robos; Z = Tasa de ataques sexuales Establecindose la siguiente matriz de correlaciones (Spearman) y significaciones unilaterales:

    W X Y Z W 1 0,832

    (0,003) 0,476

    (0,082) -0,331 (0,095)

    X 1 0,683 (0,012)

    -0,4153 (0,047)

    Y 1 0,183 (0,172)

    Z 1

    Considerando una significacin del 5%, extraiga las conclusiones respecto de la relacin entre las variables. Caso 6: Estado civil y sntomas depresivos Sobre la base de los resultados de un estudio, se ha afirmado que las madres casadas presentan menos sntomas de depresin que las solteras. En una muestra de mujeres de 18-19 aos con 1 hijo, se recab la siguiente informacin, en nmero de casos, desagregadas por estado civil:

    Estado civil Sntomas depresivos

    Total S NO

    CASADAS 45 131 176

    SOLTERAS 83 127 210

    Total 128 258 386

    6.1. Docime, con = 1%, la hiptesis de que el sntoma depresivo est asociado al estado civil de casada. Construya sus conclusiones respecto del caso.

  • Socioestadstica III-2013. Gua N3 10

    Caso 7: desercin escolar Se realiza un estudio sociolgico con estudiantes de educacin bsica en con las siguientes variables: D = desertan del sistema escolar. (1 = s; 0 = no) A = ayudan econmicamente en su hogar, trabajando. (0 = s siempre; 1 = a veces; 2 = no) H = N de hermanos en su familia. (0, 1, 2, ) S = sector de residencia. (1 = rural; 2 = urbano) El anlisis de correlacin dio los siguientes resultados:

    r(D, A) = -0,681 (p = 0,0112) r(D, H) = 0,588 (p = 0,0255) r(D, S) = -0,477 (p = 0,0356) r(A, S) = 0,321 (p = 0,0658) r(H, S) = -0,655 (p = 0,0458)

    Construya una conclusin para cada una de las correlaciones dadas.

    SOLUCIONES Caso 1: Socioeconoma de Amrica

    La esperanza de vida es independiente del ingreso per cpita (p = 0,0533) A menor analfabetismo, mayor esperanza de vida (p =0,0006) A mayor poblacin urbana, mayor esperanza de vida (p = 0,01703) El analfabetismo es independiente del ingreso per cpita (p = 0,10235) El ingreso per cpita es independiente del % de poblacin urbana (p =0,31213) A mayor poblacin urbana, menor analfabetismo (p = 0,00322)

    Caso 2: Situacin civil y relacin de pareja

    r(W, X) = -0,612; t = -4,1; P = 0,00016: Significativa al 5%. r(X, Y) = 0,508; t = 3,12; P = 0,00208: significativa al 5%. r(W, Y) = 0,252; t = -1,38; P = 0,0896: no es significativa al 5%. r(W, Z) = 0,379; t = -2,17; P = 0,0194: significativa al 5%.

    La buena relacin de pareja est asociada las parejas no casadas (p=0,000). Las parejas que tienen hijos se asocian a parejas de casados (p=0,002). La relacin de pareja es independiente de si esta tiene hijos de la pareja (0,090). La buena relacin de pareja se da en parejas de corta duracin (p=0,019).

    Caso 3: Satisfaccin con la vida r(Satisfaccin; amigos) = 0,472; p = 0,000. -El grado de satisfaccin con la vida de las personas est asociada positivamente, en grado mediano, pero significativa, al nmero de amigos, de modo que a mayor nmero de amigos mayor es el grado de satisfaccin (p = 0). -La satisfaccin con la vida de las personas es independiente del sexo, de modo que tanto hombres como mujeres estn igualmente satisfecho o no satisfechos (p = 0,201). -El nmero de amigos de las personas es independiente del sexo (p =0,170).

  • Socioestadstica III-2013. Gua N3 11

    Caso 4: Estado vegetal La posicin de acuerdo o no con la desconexin es independiente del segmento socioeconmico (p = 0,0608). Caso 5: Pobreza y problemtica social

    A mayor ndice de pobreza, mayor tasa de homicidios (p = 0,003). A mayor ndice de robos, mayor tasa de homicidios (p = 0,012). A mayor tasa de homicidios, menor tasa de ataques sexuales (p = 0,047). El ndice de robos no est asociado al ndice de pobreza (p = 0,082). La tasa de ataques sexuales no est asociada al ndice de pobreza (p = 0,082). La tasa de ataques sexuales no est asociada al ndice de robos (p = 0,172).

    Caso 6: Estado civil y sntomas depresivos Phi = -0,148 (p=0,0036); Chi-2 = 8,41; p-value = 0,004 Conclusin: los sntomas depresivos estn significativamente asociados al estado civil de la madre (p=0,004) de manera tal que las madres que se deprimen estn asociadas al estado civil de solteras (p=0,0036). Caso 7: desercin escolar

    La desercin est asociada a los estudiantes que ayudan econmicamente en su hogar, trabajando. (p = 0,0112). La desercin est asociada a los estudiantes que tienen mayor cantidad de hermanos. (p = 0,0255). La desercin est asociada a los estudiantes del sector rural. (p = 0,0356). Los estudiantes ayudan en su hogar, trabajando, independientemente del sector de residencia urbano o rural. (p = 0,0658) La mayor cantidad de hermanos se asocia a os estudiantes del sector rural. (p = 0,0458)

    ======================

    Pero al fin su corazn se transform, y una maana, levantndose con la aurora, se coloc delante del sol y le habl as: -T gran astro! Qu sera de tu felicidad si no tuvieras a aquellos a quienes iluminas!

    ======================

    Socioestadstica III - Carrera de Sociologa - 2013Profesor: Patricio Alcano MartnezAyudanta: Ivn Mejas

    Gua de trabajo personal N3Inferencia en la correlacin test de significacin para la correlacin