análisis de datos
TRANSCRIPT
VARIABLES
mer
DATOSESCALAS DE MEDIDAD
CUALITATIVOS(No métricos )
CUANTITATIVOS(Métricos )
DISCRETOSCONTABLES CONTINÚOS
NOMINALESORDINALES
BINARIOS
Contraste de Hipótesis
• Hipótesis nula:Se contrasta en el estudioGrado significancia estadística: Calculamos la probabilidad de que los resultados obsSean debidos al azar . Probabilidad p >0,05
• Hipótesis alternativa• Aceptación Ho no hay diferencia• Rechazamos Ho hay diferencia ( es falsa ) aceptamos H1• Existan evidencias para dudar Ho• Es improbable que el resultado sea debido al azar• Las variaciones debidas al muestreo no bastan para explicar resultado
TIPO DE ERRORES
• Tipo I o (α)• Hay diferencia en un estudio cuando no las hay ( rechazamos Ho cuando es cierta )P=0.05 (5%)
• Tipo II o (β)• No hay diferencias estadísticas ( no se rechaza Ho) pero en realidad si las hay• Aceptamos Ho y es falsa
FINES DE LA INVESTIGACIÓN
• FINES DE DESCUBRIMIENTO:-ESTADÍSTICA DESCRIPTIVA (sin generalizar a la población )
• PRUEBAS DE HIPÓTESIS:-INFERENCIA ESTADÍSTICA ( generalizaciones a la población )
Pregunta 1 2 3
Variable Edad Sexo Satisfacción en el puesto
Categoría <30 años > 30 años Hombre Mujer Agrado Desagrado
Número 15 25 10 30 10 30
Porcentaje Del total 38% 62% 25 % 75% 25% 75%
ANÁLISIS DE DATOS EXPLORATORIOS
Categoría 1Categoría 2
Categoría 3Categoría 4
00.5
11.5
22.5
33.5
44.5
5
Serie 1
Serie 2
Serie 3
Serie 1Serie 2Serie 3
MÉTODOS BÁSICOS DE ASOCIACION
• Tabulación cruzada• Correlación contingencias• Correlación de rangos Spearman• R de Pearson
TABULACIÓN CRUZADA
• PORCENTAJES• Eje :100 Trabajadores Experiencia laboral ( si o no )Tiempo completo ( si o no )
Experiencia Laboral previa
TIEMPO COMPLETOSI NO
TOTALES
SI 33 60% 22 40% 55
NO 17 38% 28 62% 45
TOTALES 50 50 100
CORRELACIÓN CONTINGENCIA• El coeficiente de contingencia se utiliza para saber la asociación de variables cualitativas nominales,
que tienen dos o más categorías.Este coeficiente requiere del cálculo previo del estadístico Chi Cuadrado.
•Chi cuadrado relaciona los valores observados ( que son los datos recabados para la investigación) , y los valores esperados.Por lo que se multiplica el total de cada fila por el total de cada columna de la tabla de contingencia y luego se divide por el total de las observaciones (n).
•Por lo que , si fuera cierto que los valores son independientes, todos los valores calculados para cada casillero de la tabla de contingencia deberían dar el mismo número.
•Por lo tanto Chi Cuadrado debe debería dar cero .Generalmente El coeficiente de contingencia, toma valores comprendidos entre cero y uno.
•Cuando está próximo a cero, indica asociación nula o muy débil entre las variables involucradas.
•Cuando está próximo a uno, indica asociación alta, fuerte, o casi perfecta, dependiendo de la cercanía al número uno.
CORRELACIÓN CONTINGENCIA
Ejemplo :167 cantidad estrés r/ c condiciones socioeconómicas de estudiantesHipótesis alternativa: Abra diferencias significativas Hipótesis nula : No abra diferencias significativas
Económica CON ESTRES SIN ESTRES TOTAL
ALTA 15 25 40
MEDIA 20 32 52
BAJA 60 15 75
TOTAL 95 72 167
CORRELACIÓN RANGO SPEARMAN• Es un estadístico basado en rangos, que sirve para determinar
si hay asociación entre dos variables de un mismo sujeto• Es una medida de asociación que requiere que ambas
variables sean medidas por lo menos en una escala ordinal, de manera que los sujetos puedan colocarse en dos series ordenadas
• ESTABLECE LA FUERZA DE RELACIÓN ENTRE DOS VARIABLES ORDINALES
• Nos da una idea de que tan relacionadas linealmente están dos variables. Es un número que varía entre 0 y 1. Si el coeficiente es > 0.9, entonces es una buena correlación. 1 es una correlación perfecta.
Planteamiento de la hipótesis
• Ho: No existe asociación entre las dos variables.
• Ha: Existe una relación o asociación entre las dos variables
Procedimiento
• Se asignan rangos en la variable X y en la variable Y, de manera independiente.
• Se determinan las diferencia entre los rangos (di ). di=Xi-Yi
• Se eleva al cuadrado cada di y luego se suman los resultados, para reemplazar en la siguiente formula:
• Regla de decision: (para muestras entre 4 y 30)
• Si rs es mayor o igual al valor de tabla, se rechaza la hipótesis nula es decir si hay correlación o asociación entre las dos variables
Talla peso
168 68
189 70
175 80
156 45
148 48
Talla peso
3 3
5 4
4 5
2 1
1 2
d
0
1
1
1
1 4
R = 0,9616 1-(6*4/5³-5)
Coeficiente producto-momento (PM)r de Pearson
• Determina la fuerza de relación y dirección de dos variables
• Límites (-1,1)• Primer paso es graficar los datos
MÉTODOS BÁSICOS PARA EVALUAR DIFERENCIAS
1. PRUEBA CHI CUADRADO2. PRUEBA Z PARA DIFERENCIAS EN
PROPORCIONES3. PRUEBAS T PARA DIFERENCIAS DE MEDIDA
PRUEBA JI CUADRADO
• DATOS NOMINALES INDEPENDIENTES
H nula. La puntualidad es independiente del sexo del trabajador.H Alternativa: la puntualidad es dependiente del sexo del trabajador
Puntualidad Hombre Mujer Totales
Con retardos 12 28 40
Sin retardo 30 30 60
Totales 42 58 100
PRUEBA z diferencias de proporciones
• DATOS DICOTÓMICOS• MUESTRAS INDEPENDIENTES• EJEMPLO:• ENCUESTA 500 PERSONAS,CIUDAD a, GANAN 95 > 10.000 EUROS• CIUDAD B, ENCUESTA A 300, 60 PERSONAS < 10000 EUROS ANUALES• ¿ LA PROPORCIÓN ES LA MISMA EN LAS DOS CIUDADES?
PRUEBA t diferencias de medias
El procedimiento Prueba T para muestras independientes debe utilizarse para comparar las medias de dos grupos de casos, es decir, cuando la comparación se realice entre las medias de dos poblaciones independientes (los individuos de una de las poblaciones son distintos a los individuos de la otra) como por ejemplo en el caso de la comparación de las poblaciones de hombres y mujeres. Lo ideal es que para esta prueba los sujetos se asignen aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros factores.
Prueba t
Ejemplo. Se asigna aleatoriamente un grupo de pacientes con hipertensión arterial a un grupo con placebo y otro con tratamiento. Los sujetos con placebo reciben una pastilla inactiva y los sujetos con tratamiento reciben un nuevo medicamento del cual se espera que reduzca la tensión arterial. Después de tratar a los sujetos durante dos meses, se utiliza la prueba t para dos muestras para comparar la tensión arterial media del grupo con placebo y del grupo con tratamiento. Cada paciente se mide una sola vez y pertenece a un solo grupo.
ANÁLISIS MULTIVARIANTE
Objetivo: estudio de varias variables simultáneamente:
Métodos con variable dependiente
Hay una variable que “depende” de otras que se miden como “independientes o predictoras ”. Tienen un interés predictivo.
Métodos con sólo variables independientes
No se distingue entre variables dependientes e independientes. Tienen un interés descriptivo en el sentido de clasificar objetos en función de las variables.
TIPOS DE TÉCNICAS MULTIVARIANTE
• Regresión/ correlación múltiple• Análisis discriminante múltiple• Análisis multivariante de la varianza y covarianza• Análisis conjunto• Correlación canónica• Análisis cluster• Análisis multidimensional• Análisis de correspondencias• Modelos de probabilidad lineal• Modelos de ecuaciones estructurales
Regresión múltiple
• Eje : Predicción gastos cenar fuera de casa ( VD) con información referente a la renta familiar, su tamaño y edades ( VI).
• Eje : Predicción ventas ( VD) en función gastos en publicidad, número de tiendas , vendedores.(VI)
• Objetivo: Predice los cambios de (métrica )VD en función de varias VI
Análisis discriminante múltiple
• Eje: distinguir entre usuarios habituales u ocasionales de un producto
• Eje: agencia tributaria la utiliza para comparar declaraciones con devoluciones del contribuyente normal.
• VD es dicotómica y VI es métrica• Objetivo: entender diferencias de grupos y predecir su
pertenencia a uno u a otros en función de VI
Análisis multivariante de la varianza y covarianza
• VI ( tratamientos ) y varias VD ( métricas )• Útil en situaciones experimentales de tratamientos en grupos
Análisis conjunto
• Se utiliza en análisis de mercados se evalúan atributos y combinación de ellos.
Precio Calidad Color
Rojo Amarillo Azul
X3 X3 x3
Análisis Cluster
• Técnica para desarrollar subgrupos de individuos u objetos• 1ª Etapa: medida de similitud para crear grupos• 2ª Etapa : Describir la composición de los grupos
Análisis multidimensional
• Eje : si las marcas A y b son más similares que el resto de pares C y d , e y f, la técnica situará a las marcas a y b en un espacio menor que cualquier otra relación.
Análisis de correspondencia
• Utiliza una tabla de contingencia• Transforma datos cualitativos en métricos.• Eje : preferencias de una marca en encuestados se tabulan
con variables demográficas ( sexo , renta, ocupación )
MULTIPLES VARIAS V.D. UNA V.DRELACIONES EN RELACIÓN ÙNICA EN RELACION ÚNICA VARIABLE CASOS / OBJETO
VD Y VI ENCUESTDOS
ESCALA DE MEDIDA V.D ESCALA V.D COMO SON ATRIBUTOS
MÉTRICA NO MÉTRICA MÉTRICA NO MET
MÉTRICOS NO MÉT. ESC.MEDIDA V.PREDICTOR
MÉTRICA NO MÉTRICA
Que examinamos
dependencia interdependencia
MODELO ECUACIONES
ESTRUCTURALES
ANÁLISIS DE CORRELACIÓN CANÓNICOS
V.FICTICIA
ANÁLIS DE CORRELACIÓN CANÓNIOCA
ANÁLISI MULTIVARIANTE DE
VARIABLES
REGRESIÓN MÚLTIPLE_
_ANÁLISIS
DE CONJUNTO
ANÁLISIS DISCRIMINANTE
MÚLTIPLE__ MODELOS DE
PROBABILIDAD LINEAL
ANÁLISIS FACTORIAL
ANÁLISIS CLUSTER
ANÁLISIS MULTIDIMEN
SIONAL
ANÁLISIS DE CORRESPON
DENCIA