Download - Correlation & Regression in Spanish
الرحمن الله الرحمن بسم الله بسمالرحيمالرحيم
Correlación y Correlación y regresiónregresión
Dr. Moataza Mahmoud Abdel WahabConferencista sobre BioestadísticaInstituto Superior de Salud Pública
Universidad de Alejandría
CorrelaciónCorrelación
Es la relación entre dos variables cuantitativas sin ser capaz de inferir relaciones causales.
Correlación es una técnica estadística utilizada para determinar el grado en el que dos variables están relacionadas
• Dos variables cuantitativas
• Una variable es llamada independiente (X)
y la otra dependiente (Y)
• Los puntos no se unen
• No es tabla de frecuencias
Diagrama de dispersión de puntos
Ejemplo
Dispersión de puntos de peso y presión Dispersión de puntos de peso y presión arterial sistólicaarterial sistólica
80
100
120
140
160
180
200
220
60 70 80 90 100 110 120wt (kg)
SBP(mmHg)TAS (mm HG)
Peso (Kg)
80
100
120
140
160
180
200
220
60 70 80 90 100 110 120Wt (kg)
SBP(mmHg)
Diagrama de puntos dispersos de peso y tensión arterial sistólica
TAS (mm HG)
Peso (Kg)
Dispersión de puntos
El modelo de los datos es indicativo del tipo de relación entre las dos variables:
Relación positiva Relación negativa No hay relación
Relación positivaRelación positiva
Número de horas para estudio
Cal
ifica
ción
fina
l del
cur
so
0
2
4
6
8
10
12
14
16
18
0 10 20 30 40 50 60 70 80 90
Age in Weeks
Heig
ht in
CM
Edad en semanas
Est
atur
a en
cm
Relación negativaRelación negativa
Confiabilidad
Edad del Auto
Sin relaciónSin relación
Tasa de pulso (latidos/minuto)
Pes
o (li
bras
)
Coeficiente de correlaciónCoeficiente de correlación
Estadístico que muestra el grado de relación entre las dos variables
Coeficiente de correlación simple (r)Coeficiente de correlación simple (r)
También llamado correlación de También llamado correlación de Pearson Pearson
Mide la Mide la naturaleza naturaleza y y fuerzafuerza entre dos entre dos variables variables cuantitativascuantitativas..
El El signosigno de de rr denota la naturaleza de denota la naturaleza de la asociación la asociación
Mientras que el Mientras que el valorvalor de de rr denota la denota la fuerza de asociación.fuerza de asociación.
Si el signo es Si el signo es positivo,positivo, significa que la significa que la relación es relación es directa directa (un incremento en una (un incremento en una variable está asociado con el incremento variable está asociado con el incremento de la otra variable; una disminución de de la otra variable; una disminución de una variable está asociado con la una variable está asociado con la disminución de la otra variable).disminución de la otra variable).
Si el signo es Si el signo es negativo, negativo, significa una significa una relación relación inversa o indirectainversa o indirecta (significando (significando que el incremento en una variable está que el incremento en una variable está asociado con una disminución de la otra asociado con una disminución de la otra variable).variable).
El valor de r está entre ( -1) y ( +1)El valor de r está entre ( -1) y ( +1) El valor de r denota la fuerza de la El valor de r denota la fuerza de la
asociación como se ilustra en el siguiente asociación como se ilustra en el siguiente diagrama.diagrama.
-1 10-0.25-0.75 0.750.25
fuerte fuerteintermedio intermediodébil débil
sin relación
Correlación perfecta
correlación perfecta
Directaindirecta
Si Si rr = cero = cero significa que no hay asociación o significa que no hay asociación o correlación entre las dos variables.correlación entre las dos variables.
Si Si 0 < 0 < rr < 0.25 < 0.25 = débil correlación. = débil correlación.
Si Si 0.25 ≤ 0.25 ≤ rr < 0.75 < 0.75 = intermedia correlación. = intermedia correlación.
Si Si 0.75 ≤ 0.75 ≤ rr < 1 < 1 = fuerte correlación. = fuerte correlación.
Si Si r r = l= l = perfecta correlación. = perfecta correlación.
ny)(
y.nx)(
x
nyx
xyr
22
22
¿Cómo clacular el coeficiente de correlación simple (r)?
EjemploEjemplo:: Una muestra de 6 niños fue seleccionada, datos de su Una muestra de 6 niños fue seleccionada, datos de su
edad en años y peso en kilogramos fue registrada edad en años y peso en kilogramos fue registrada como se muestra en la siguiente tabla. Se requiere como se muestra en la siguiente tabla. Se requiere encontrar la correlación entre edad y peso.encontrar la correlación entre edad y peso.
Nº serial
Edad (años)
Peso (Kg)
17122683812451056116913
Las dos variables son de tipo cuantitativo, Las dos variables son de tipo cuantitativo, una variable (edad) es llamada una variable (edad) es llamada independiente y la otra (peso) es llamada independiente y la otra (peso) es llamada dependiente y con notación de variable Y, dependiente y con notación de variable Y, para encontrar la relación entre edad y para encontrar la relación entre edad y peso, calcule el coeficiente de correlación peso, calcule el coeficiente de correlación simple, usando la siguiente fórmula:simple, usando la siguiente fórmula:
ny)(
y.nx)(
x
nyx
xyr
22
22
Nº Serial
Edad (años)
(x)
Peso (Kg)
(y)xyX2Y2
17128449144268483664381296641444510502510056116636121691311781169
Total∑x=41
∑y=66
∑xy= 461
∑x2=291
∑y2=742
r = 0.759r = 0.759Fuerte correlación directaFuerte correlación directa
6(66)742.
6(41)291
66641461
r22
Ejemplo: Relación entre ansiedad y puntaje de Ejemplo: Relación entre ansiedad y puntaje de pruebaspruebas
AnsiedadAnsiedad ))XX((
Puntaje Puntaje de de
prueba prueba (Y)(Y)
XX22YY22XYXY
101022100100442020883364649924242299448181181811771149497755662525363630306655363625253030
∑∑X = 32X = 32∑∑Y = 32Y = 32∑∑XX22 = 230 = 230∑∑YY22 = 204 = 204∑∑XY=129XY=129
Calculando el coeficiente de correlaciónCalculando el coeficiente de correlación
94.)200)(356(
102477432)204(632)230(6
)32)(32()129)(6(22
r
r = - 0.94
Fuerte correlación indirecta
Coeficiente de correlación de Rankings Coeficiente de correlación de Rankings de Spearman (rde Spearman (rss))
No es una prueba no paramétrica de No es una prueba no paramétrica de correlación. correlación. Este procedimiento usa los dos rankings que Este procedimiento usa los dos rankings que puede asignarse a los valores de la muestra en puede asignarse a los valores de la muestra en x y en y.x y en y.Coeficiente de correlación de rankings de Coeficiente de correlación de rankings de Spearman puede calcularse en los siguientes Spearman puede calcularse en los siguientes casos:casos:
Ambas variables son cuantitativas.Ambas variables son cuantitativas.Ambas variables son cualitativas ordinales.Ambas variables son cualitativas ordinales.Una variable es cuantitativa y la otra es cualitativa Una variable es cuantitativa y la otra es cualitativa ordinal.ordinal.
ProcedimientoProcedimiento::
1.1. Ranquee los valores de X de primero a n Ranquee los valores de X de primero a n donde n es el número de pares de donde n es el número de pares de valores de x y y en la muestra.valores de x y y en la muestra.
2.2. Ranquee el valor de y de primero a n.Ranquee el valor de y de primero a n.3.3. Calcule el valor de di para cada par de Calcule el valor de di para cada par de
observaciones restando el ranking de yi observaciones restando el ranking de yi del ranking de xi.del ranking de xi.
4.4. Eleve al cuadrado cada di y ∑diEleve al cuadrado cada di y ∑di22 lo cual lo cual es la suma de valores al cuadrado.es la suma de valores al cuadrado.
5.5. Aplique la siguiente fórmula:Aplique la siguiente fórmula:
1)n(n(di)6
1r 2
2
s
El valor de rs denota la magnitud y naturaleza de la asociación dando la misma interpretación el r simple.
EjemploEjemplo En un estudio de la relación entre el nivel de En un estudio de la relación entre el nivel de
educación e ingreso, se obtuvieron los siguientes educación e ingreso, se obtuvieron los siguientes datos. Encuentre la relación entre ellos y comente.datos. Encuentre la relación entre ellos y comente.
Números de la
muestra
Nivel de educación(X)
Ingreso(Y)
APreparatoriaPreparatoria25BPrimariaPrimaria10CUniversidadUniversidad8DSecundariaSecundaria10ESecundariaSecundaria15FAnalfabetaAnalfabeta50GUniversidadUniversidad60
Respuesta:Respuesta:
(X)(Y)Ranking
XRanking
Ydidi2
APreparatoria255324
BPrimaria1065.50.50.25
CUniversidad81.57-5.5
30.25
DSecundaria103.55.5-24
ESecundaria153.54-0.5
0.25
FAnalfabeta5072525
GUniversidad601.510.50.25
∑ di2=64
Comentario:Comentario:Hay una correlación débil indirecta entre el Hay una correlación débil indirecta entre el
nivel de educación y el ingreso.nivel de educación y el ingreso.
1.0)48(7
6461
sr
EjercicioEjercicio
Análisis de regresiónAnálisis de regresiónRegresión: técnica enfocada a la predicción de algunas variables conociendo a otras.
El proceso de predecir la variable Y usando la variable X.
RegresiónRegresión Usa la variable (x) para predecir el valor de la Usa la variable (x) para predecir el valor de la
variable resultado (y)variable resultado (y) Nos dice cuanto es el valor de cambio de y en Nos dice cuanto es el valor de cambio de y en
función del cambio en los valores de x.función del cambio en los valores de x.
Correlación y regresiónCorrelación y regresión
Correlación describe la fuerza de una relación Correlación describe la fuerza de una relación lineal entre dos variables
Lineal significa “línea recta”
Regresión nos dice como trazar la línea recta descrita en la correlación.
Regresión Calcule la línea que de “el mejor trazo” para un grupo de Calcule la línea que de “el mejor trazo” para un grupo de
datosdatosLa línea de regresión hace la suma de cuadrados de los La línea de regresión hace la suma de cuadrados de los
residuales, menores a cualquier otra línearesiduales, menores a cualquier otra líneaRegresión minimiza los residuales
80
100
120
140
160
180
200
220
60 70 80 90 100 110 120Wt (kg)
Peso Kg
TAS(mmHg)
Usando el método de los cuadrados mínimos (un Usando el método de los cuadrados mínimos (un procedimiento que minimiza las desviaciones procedimiento que minimiza las desviaciones verticales de puntos trazados alrededor de la verticales de puntos trazados alrededor de la línea recta) somos capaces de construir el mejor línea recta) somos capaces de construir el mejor trazado de la línea recta en la gráfica de puntos trazado de la línea recta en la gráfica de puntos dispersos y luego formular la ecuación de dispersos y luego formular la ecuación de regresión en la forma deregresión en la forma de::
nx)(
x
nyx
xyb 2
21)xb(xyy b
bXay
Ecuación de regresión
La ecuación de regresión describe la línea de regresión matemáticamente Intersección Pendiente
80
100
120
140
160
180
200
220
60 70 80 90 100 110 120Wt (kg)
SBP(mmHg)TAS (mmHg)
Peso (Kg)
Ecuación linealEcuación linealY
Y = bX + a
a = Y-interceptX
Changein Y
Change in Xb = Slope
bXay Cambio en Y
Cambio en X
b= pendiente
a = intersección
Horas estudiando y Horas estudiando y calificacionescalificaciones
Regresión de calificaciones sobre horas de estudio
Linear Regression
2.00 4.00 6.00 8.00 10.00
Number of hours spent studying
70.00
80.00
90.00
Final grade in course = 59.95 + 3.17 * studyR-Square = 0.88
Calificación final predicha en clase =
59.95 + 3.17*(número de horas de estudio por semana)
Regresión lineal
Calificación final en el curso= 59.95 + 3.17 * horas de estudio
R2=0.88
Número de horas empleadas en estudio
Cal
ifica
ción
fina
l en
el c
urso
Prediga la calificación final dePrediga la calificación final de ……
Alguien quien estudia 12 horas Calificación final = 59.95 + (3.17*12) Calificación final = 97.99
Alguine quien estudia 1 hora: Calificación final = 59.95 + (3.17*1) Calificación final = 63.12
Calificación final en clases predicha= 59.95 + 3.17*(horas de estudio)
EjercicioEjercicio
Una muestra de 6 personas fue Una muestra de 6 personas fue seleccionada el valor de su edad seleccionada el valor de su edad (variable x) y su peso, mostrados en la (variable x) y su peso, mostrados en la siguiente tabla. Encuentre la ecuación de siguiente tabla. Encuentre la ecuación de regresión y que se predice del peso regresión y que se predice del peso cuando la edad es 8.5 años.cuando la edad es 8.5 años.
Número serialEdad (x)Peso (y)123456
768569
128
12101113
RespuestaRespuesta
Número serial
Edad (x)
Peso (y)xyX2Y2
123456
768569
128
12101113
8448965066
117
493664253681
14464
144100121169
Total4166461291742
6.83641x 11
666
y
92.0
6)41(
291
666414612
b
Ecuación de regresión
6.83)0.9(x11y (x)
0.92x4.675y (x)
12.50Kg8.5*0.924.675y (8.5)
Kg58.117.5*0.924.675y (7.5)
11.411.611.8
1212.212.412.6
7 7.5 8 8.5 9
Age (in years)
Wei
ght (
in K
g)
Creamos una lñínea de regresión trazando dos valores estimados para y contra su componente de x, y luego extendiendo la línea a la derecha y a la
izquierda.
Edad (en años)
Pes
o (e
n K
g)
Ejercicio 2Ejercicio 2
Los siguientes son las Los siguientes son las edades en años y la edades en años y la presión arterial (PA) presión arterial (PA) de 20 adultos de 20 adultos aparentemente aparentemente sanos.sanos.
Edad (x)
PA (y)
Edad (x)
PA (y)
20436326533158465870
120128141126134128136132140144
46536020634326193123
128136146124143130124121126123
Encuentre la correlación entre Encuentre la correlación entre edad y presión arterial usando el edad y presión arterial usando el coeficiente de correlación de coeficiente de correlación de Spearman y comente.Spearman y comente.Encuentre la ecuación de Encuentre la ecuación de regresiónregresión¿Cual es la presión arterial ¿Cual es la presión arterial predecible para un hombre de 25 predecible para un hombre de 25 años?años?
Serialxyxyx21201202400400243128550418493631418883396942612632766765531347102280963112839689617581367888336484613260722116958140812033641070144100804900
Serialxyxyx21146128588821161253136720828091360146876036001420124248040015631439009396916431305590184917261243224676181912122993611931126390696120231232829529
Total852263011448
641678
nx)(
x
nyx
xyb 2
21 4547.0
2085241678
2026308521144862
=
=112.13 + 0.4547 x
para edad 25 Presión arterial = 112.13 + 0.4547 * 25=123.49 = 123.5 mm hg
y
Regresión múltiple
Análisis de regresión múltiple es una extensión del análisis simple de regresión permitiendo más de una variable independiente.