análisis de datos

34
MÉTODO BASICO ANÁLISIS DE DATOS Francisco Mostazo

Upload: francis-mostazo

Post on 20-Aug-2015

155 views

Category:

Documents


0 download

TRANSCRIPT

MÉTODO BASICO ANÁLISIS DE DATOS

Francisco Mostazo

VARIABLES

mer

DATOSESCALAS DE MEDIDAD

CUALITATIVOS(No métricos )

CUANTITATIVOS(Métricos )

DISCRETOSCONTABLES CONTINÚOS

NOMINALESORDINALES

BINARIOS

Contraste de Hipótesis

• Hipótesis nula:Se contrasta en el estudioGrado significancia estadística: Calculamos la probabilidad de que los resultados obsSean debidos al azar . Probabilidad p >0,05

• Hipótesis alternativa• Aceptación Ho no hay diferencia• Rechazamos Ho hay diferencia ( es falsa ) aceptamos H1• Existan evidencias para dudar Ho• Es improbable que el resultado sea debido al azar• Las variaciones debidas al muestreo no bastan para explicar resultado

TIPO DE ERRORES

• Tipo I o (α)• Hay diferencia en un estudio cuando no las hay ( rechazamos Ho cuando es cierta )P=0.05 (5%)

• Tipo II o (β)• No hay diferencias estadísticas ( no se rechaza Ho) pero en realidad si las hay• Aceptamos Ho y es falsa

FINES DE LA INVESTIGACIÓN

• FINES DE DESCUBRIMIENTO:-ESTADÍSTICA DESCRIPTIVA (sin generalizar a la población )

• PRUEBAS DE HIPÓTESIS:-INFERENCIA ESTADÍSTICA ( generalizaciones a la población )

Pregunta 1 2 3

Variable Edad Sexo Satisfacción en el puesto

Categoría <30 años > 30 años Hombre Mujer Agrado Desagrado

Número 15 25 10 30 10 30

Porcentaje Del total 38% 62% 25 % 75% 25% 75%

ANÁLISIS DE DATOS EXPLORATORIOS

Categoría 1Categoría 2

Categoría 3Categoría 4

00.5

11.5

22.5

33.5

44.5

5

Serie 1

Serie 2

Serie 3

Serie 1Serie 2Serie 3

MÉTODOS BÁSICOS DE ASOCIACION

• Tabulación cruzada• Correlación contingencias• Correlación de rangos Spearman• R de Pearson

MÉTODOS EVALÚAN DIFERENCIAS

• Prueba ji cuadrada ( x2)• La prueba z• la prueba t

TABULACIÓN CRUZADA

• PORCENTAJES• Eje :100 Trabajadores Experiencia laboral ( si o no )Tiempo completo ( si o no )

Experiencia Laboral previa

TIEMPO COMPLETOSI NO

TOTALES

SI 33 60% 22 40% 55

NO 17 38% 28 62% 45

TOTALES 50 50 100

CORRELACIÓN CONTINGENCIA• El coeficiente de contingencia se utiliza para saber la asociación de variables cualitativas nominales,

que tienen dos o más categorías.Este coeficiente requiere del cálculo previo del estadístico Chi Cuadrado.

•Chi cuadrado relaciona los valores observados ( que son los datos recabados para la investigación) , y los valores esperados.Por lo que se multiplica el total de cada fila por el total de cada columna de la tabla de contingencia y luego se divide por el total de las observaciones (n).

•Por lo que , si fuera cierto que los valores son independientes, todos los valores calculados para cada casillero de la tabla de contingencia deberían dar el mismo número.

•Por lo tanto Chi Cuadrado debe debería dar cero .Generalmente El coeficiente de contingencia, toma valores comprendidos entre cero y uno.

•Cuando está próximo a cero, indica asociación nula o muy débil entre las variables involucradas.

•Cuando está próximo a uno, indica asociación alta, fuerte, o casi perfecta, dependiendo de la cercanía al número uno.

CORRELACIÓN CONTINGENCIA

Ejemplo :167 cantidad estrés r/ c condiciones socioeconómicas de estudiantesHipótesis alternativa: Abra diferencias significativas Hipótesis nula : No abra diferencias significativas

Económica CON ESTRES SIN ESTRES TOTAL

ALTA 15 25 40

MEDIA 20 32 52

BAJA 60 15 75

TOTAL 95 72 167

CORRELACIÓN RANGO SPEARMAN• Es un estadístico basado en rangos, que sirve para determinar

si hay asociación entre dos variables de un mismo sujeto• Es una medida de asociación que requiere que ambas

variables sean medidas por lo menos en una escala ordinal, de manera que los sujetos puedan colocarse en dos series ordenadas

• ESTABLECE LA FUERZA DE RELACIÓN ENTRE DOS VARIABLES ORDINALES

• Nos da una idea de que tan relacionadas linealmente están dos variables. Es un número que varía entre 0 y 1. Si el coeficiente es > 0.9, entonces es una buena correlación. 1 es una correlación perfecta.

Planteamiento de la hipótesis

• Ho: No existe asociación entre las dos variables.

• Ha: Existe una relación o asociación entre las dos variables

Procedimiento

• Se asignan rangos en la variable X y en la variable Y, de manera independiente.

• Se determinan las diferencia entre los rangos (di ). di=Xi-Yi

• Se eleva al cuadrado cada di y luego se suman los resultados, para reemplazar en la siguiente formula:

• Regla de decision: (para muestras entre 4 y 30)

• Si rs es mayor o igual al valor de tabla, se rechaza la hipótesis nula es decir si hay correlación o asociación entre las dos variables

Talla peso

168 68

189 70

175 80

156 45

148 48

Talla peso

3 3

5 4

4 5

2 1

1 2

d

0

1

1

1

1 4

R = 0,9616 1-(6*4/5³-5)

Coeficiente producto-momento (PM)r de Pearson

• Determina la fuerza de relación y dirección de dos variables

• Límites (-1,1)• Primer paso es graficar los datos

MÉTODOS BÁSICOS PARA EVALUAR DIFERENCIAS

1. PRUEBA CHI CUADRADO2. PRUEBA Z PARA DIFERENCIAS EN

PROPORCIONES3. PRUEBAS T PARA DIFERENCIAS DE MEDIDA

PRUEBA JI CUADRADO

• DATOS NOMINALES INDEPENDIENTES

H nula. La puntualidad es independiente del sexo del trabajador.H Alternativa: la puntualidad es dependiente del sexo del trabajador

Puntualidad Hombre Mujer Totales

Con retardos 12 28 40

Sin retardo 30 30 60

Totales 42 58 100

PRUEBA z diferencias de proporciones

• DATOS DICOTÓMICOS• MUESTRAS INDEPENDIENTES• EJEMPLO:• ENCUESTA 500 PERSONAS,CIUDAD a, GANAN 95 > 10.000 EUROS• CIUDAD B, ENCUESTA A 300, 60 PERSONAS < 10000 EUROS ANUALES• ¿ LA PROPORCIÓN ES LA MISMA EN LAS DOS CIUDADES?

PRUEBA t diferencias de medias

El procedimiento Prueba T para muestras independientes debe utilizarse para comparar las medias de dos grupos de casos, es decir, cuando la comparación se realice entre las medias de dos poblaciones independientes (los individuos de una de las poblaciones son distintos a los individuos de la otra) como por ejemplo en el caso de la comparación de las poblaciones de hombres y mujeres. Lo ideal es que para esta prueba los sujetos se asignen aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros factores.

Prueba t

Ejemplo. Se asigna aleatoriamente un grupo de pacientes con hipertensión arterial a un grupo con placebo y otro con tratamiento. Los sujetos con placebo reciben una pastilla inactiva y los sujetos con tratamiento reciben un nuevo medicamento del cual se espera que reduzca la tensión arterial. Después de tratar a los sujetos durante dos meses, se utiliza la prueba t para dos muestras para comparar la tensión arterial media del grupo con placebo y del grupo con tratamiento. Cada paciente se mide una sola vez y pertenece a un solo grupo.

ANÁLISIS MULTIVARIANTE

Objetivo: estudio de varias variables simultáneamente:

Métodos con variable dependiente

Hay una variable que “depende” de otras que se miden como “independientes o predictoras ”. Tienen un interés predictivo.

Métodos con sólo variables independientes

No se distingue entre variables dependientes e independientes. Tienen un interés descriptivo en el sentido de clasificar objetos en función de las variables.

TIPOS DE TÉCNICAS MULTIVARIANTE

• Regresión/ correlación múltiple• Análisis discriminante múltiple• Análisis multivariante de la varianza y covarianza• Análisis conjunto• Correlación canónica• Análisis cluster• Análisis multidimensional• Análisis de correspondencias• Modelos de probabilidad lineal• Modelos de ecuaciones estructurales

Regresión múltiple

• Eje : Predicción gastos cenar fuera de casa ( VD) con información referente a la renta familiar, su tamaño y edades ( VI).

• Eje : Predicción ventas ( VD) en función gastos en publicidad, número de tiendas , vendedores.(VI)

• Objetivo: Predice los cambios de (métrica )VD en función de varias VI

Análisis discriminante múltiple

• Eje: distinguir entre usuarios habituales u ocasionales de un producto

• Eje: agencia tributaria la utiliza para comparar declaraciones con devoluciones del contribuyente normal.

• VD es dicotómica y VI es métrica• Objetivo: entender diferencias de grupos y predecir su

pertenencia a uno u a otros en función de VI

Análisis multivariante de la varianza y covarianza

• VI ( tratamientos ) y varias VD ( métricas )• Útil en situaciones experimentales de tratamientos en grupos

Análisis conjunto

• Se utiliza en análisis de mercados se evalúan atributos y combinación de ellos.

Precio Calidad Color

Rojo Amarillo Azul

X3 X3 x3

Correlación canónica

• Correlación de varias VD( métricas) con varias VI(métricas )

Análisis Cluster

• Técnica para desarrollar subgrupos de individuos u objetos• 1ª Etapa: medida de similitud para crear grupos• 2ª Etapa : Describir la composición de los grupos

Análisis multidimensional

• Eje : si las marcas A y b son más similares que el resto de pares C y d , e y f, la técnica situará a las marcas a y b en un espacio menor que cualquier otra relación.

Análisis de correspondencia

• Utiliza una tabla de contingencia• Transforma datos cualitativos en métricos.• Eje : preferencias de una marca en encuestados se tabulan

con variables demográficas ( sexo , renta, ocupación )

MULTIPLES VARIAS V.D. UNA V.DRELACIONES EN RELACIÓN ÙNICA EN RELACION ÚNICA VARIABLE CASOS / OBJETO

VD Y VI ENCUESTDOS

ESCALA DE MEDIDA V.D ESCALA V.D COMO SON ATRIBUTOS

MÉTRICA NO MÉTRICA MÉTRICA NO MET

MÉTRICOS NO MÉT. ESC.MEDIDA V.PREDICTOR

MÉTRICA NO MÉTRICA

Que examinamos

dependencia interdependencia

MODELO ECUACIONES

ESTRUCTURALES

ANÁLISIS DE CORRELACIÓN CANÓNICOS

V.FICTICIA

ANÁLIS DE CORRELACIÓN CANÓNIOCA

ANÁLISI MULTIVARIANTE DE

VARIABLES

REGRESIÓN MÚLTIPLE_

_ANÁLISIS

DE CONJUNTO

ANÁLISIS DISCRIMINANTE

MÚLTIPLE__ MODELOS DE

PROBABILIDAD LINEAL

ANÁLISIS FACTORIAL

ANÁLISIS CLUSTER

ANÁLISIS MULTIDIMEN

SIONAL

ANÁLISIS DE CORRESPON

DENCIA