libro análisis de datos
DESCRIPTION
analisis de datosTRANSCRIPT
-
Para Economa, Contadura,
Administracin y Educacin
Actividades de Aprendizaje prcticas
con statgraphics y S.P.S.S
Prof. Juan R. Muoz C.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
2
Definicin de estadstica.
Divisin de la estadstica (procesos estocsticos)
Anlisis de datos
Probabilidad
Inferencia estadstica
Medicin
Escalas de medidas.
Captulo I
DEFINICIONES BSICAS.
MEDICIN Y SUS ESCALAS
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
3
DEFINICIONES BSICAS:
Es de suma importancia que el estudiante o usuario trate de comprender las
definiciones siguientes, puesto que esto, le permitir un mejor desempeo en la
aplicacin de las herramientas estadsticas.
Estadstica: Es la ciencia que recopila, organiza, presenta, analiza e interpreta datos
estadsticos, colaborando en la toma de decisiones estadstica ms efectiva.
De esta definicin podemos inferir, que al abordar un problema de investigacin,
el primer paso que debemos dar es la recopilacin de datos, organizarlos de cierta
manera que puedan presentarse en un grfico y poder analizar e interpretar la
informacin, para luego tomar una decisin estadstica.
La estadstica se divide en tres grandes disciplinas:
Estadstica descriptiva o anlisis de datos: Describe las caractersticas de un conjunto
de datos, que se pueden organizar, resumir y presentar de manera informativa (numrica
o grfica). Ejemplo determinar el promedio de ventas de una empresa del estado
Carabobo. Promedio de notas de los alumnos de estadstica descriptiva en el primer
parcial.
Probabilidad: Cuantifica la incertidumbre, lo cual permite hacer afirmaciones
categricas con una seguridad total sobre el nivel de incertidumbre.
Inferencia estadstica: Es la ciencia que extrae conclusiones estadsticas, teniendo
como finalidad investigar como deben ser utilizados los datos estadsticos de una
muestra (s), para inferir unos resultados acerca de una poblacin de donde provienen los
datos, basndose en el clculo de probabilidades.
Poblacin: conjunto de individuos o elementos que poseen ciertas caractersticas
comunes que se desean estudiar.
Poblacin finita: Es cuando el nmero de observaciones que la conforman se puede
expresar cuantitativamente o numricamente. Ejemplo el nmero de alumnos del cuarto
semestre.
Anlisis de datos
Probabilidad
Inferencia Estadstica
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
4
Poblacin tericamente infinita: Es aquella que contiene un nmero finito numerable
de observaciones, pero en cantidades tal que es posible considerarla infinita.
Muestra: Es una porcin o parte, de una poblacin de inters. Generalmente tomamos
una muestra de una poblacin para deducir algo acerca de la misma.
Estrato: Parte de la poblacin no representativa de la misma.
Carcter: Propiedad, rasgo o cualidad de los elementos de la poblacin.
Atributo: Carcter cualitativo, no susceptible de ser medido numricamente. Las
distintas observaciones de un atributo se denominan modalidades y pueden venir
expresadas en escala nominal (nivel no susceptible de ordenacin) o en escala ordinal
(modalidad susceptible de ordenacin)
Datos estadsticos: Son la materia prima de la estadstica, los nmeros que utilizamos
para interpretar la realidad. En todo problema estadstico hay que recopilar, describir y
analizar datos, o al menos pensar en la recopilacin, descripcin y anlisis de los
mismos.
Anlisis de datos estadsticos: Es la recopilacin, organizacin y resumen de los datos
con el fin de tomar decisiones estadsticas.
DATOS ESTADSTICOS
Cualitativo o
Atributo
Cuantitativo o
Numrico
Discreto Continuo
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
5
Variable: Sus distintas observaciones se denominan valores.
Variable cualitativa o atributo: Es aquella cuando la caracterstica es no numrica.
Ejemplo: el sexo, la religin, tipo de vehiculo, estado civil etc.
Variable cuantitativa o numrica: Es cuando la variable estudiada se puede expresar
numricamente, por ejemplo: monto de las ventas de una empresa, nmero de alumnos
de la clase de estadstica etc.
Variable cuantitativa discreta: Son aquellas que pueden asumir solo ciertos valores,
por lo general surgen del conteo. Ejemplo: el nmero de pisos de un edificio, el nmero
de vehculos en el estacionamiento de Faces, el nmero de hijos de una familia etc.
Variable cuantitativa continua: Son aquellas que pueden asumir cualquier valor
dentro de un intervalo especfico. Ejemplo: la estatura de los alumnos, el peso de las
alumnas, saldos en tu cuenta bancaria etc.
Estadstico: Es la caracterstica o medida calculada en una sola muestra. Ejemplo la
media aritmtica, la moda, la mediana, etc.
Parmetro: Es la caracterstica o medida calculada en una poblacin completa, cuya
condicin es ser una constante representativa de la poblacin en estudio, generalmente
es un promedio. Ejemplo la media poblacional ()
MEDICIN Y ESCALAS DE MEDIDAS
Medir
Es asignar nmeros a observaciones de modo que estos sean susceptibles de
anlisis por medio de manipulacin y operaciones de acuerdo con ciertas reglas.
Los datos estadsticos por lo general provienen de medidas sobre individuos o
unidades experimentales de la poblacin bajo estudio, as obtenemos un conjunto de
datos, o resultados del experimento estadstico. Para facilitar el anlisis asignaremos
unos valores a cada unidad experimental de acuerdo con ciertas reglas; as, podemos
asignar el nmero 1 a los varones y el 2 a las hembras o bien los smbolos V y H.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
6
Pueden observarse muchas caractersticas diferentes para un mismo individuo,
estas caractersticas, dependiendo del tipo de valores que originan, pueden medirse con
cuatro tipos distintos de escalas de medidas.
Escala nominal: es la forma ms simple de observacin, es la clasificacin de
individuos en clases o categoras mutuamente excluyentes, y que simplemente pueden
distinguirse entre s, pero no compararse, ni realizar entre ellas operaciones aritmticas.
En este tipo se incluyen caractersticas tales como profesin, nacionalidad, grupo
econmico, estado civil. Como estadsticas descriptivas, solo admite el clculo de la
moda, as como tambin el conteo de las frecuencias.
Dentro del campo de los mtodos no paramtricos acepta el uso de la prueba
Chi-cuadrado y como medida de asociacin admite el uso del coeficiente de
contingencia, coeficiente de correlacin entre las variables nominales dicotmicas,
razones proporciones y porcentajes.
Escala ordinal: Utilizaremos este nivel cuando los elementos de un conjunto
pueden ser ordenados en funcin de una caracterstica en particular por ejemplo:
clasificar la familia por orden socio-econmico, los estudiantes de acuerdo como
terminaron el examen o segn su rendimiento, escalafn universitario etc. Este nivel
admite las siguientes caractersticas:
Constituye un nivel superior al nominal, por lo tanto toda variable que posea
este nivel, es por que es tambin nominal.
Los nmeros asignados a las clases, deben tener un rango especfico u orden ,
sin importar el nmero en s , adems no importa que la asignacin se haga de
mayor a menor o viceversa, en esta escala es posible que 1 sea mayor que 2, la
diferencia entre estos dos nmeros no tiene ningn significado, solo indica la
forma de transmitir la informacin, por lo tanto, no ser posible realizar ningn
tipo de operacin aritmtica, ya que estos resultados careceran de significado
estadstico.
Como estadstica descriptiva, las ms apropiadas para describir este tipo de
nmero es la mediana. Dentro del campo no paramtrico es posible realizar la
prueba de los signos. En relacin con las medidas de asociacin pueden
utilizarse el coeficiente de correlacin por rango de Sperman, Tau de Kendall y
el coeficiente de correlacin biserial.
Escala de intervalo: esta escala, adems de clasificar y ordenar los datos, cuantifica
la diferencia entre dos clases, es decir, puede indicar cuanto ms significa una categora
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
7
que otra. Para ello es necesario que se defina una unidad de medida y un origen, que es
por naturaleza arbitrario, adems permite las operaciones aritmticas. Admite las
siguientes caractersticas:
El nmero que se le asigne a cada elemento u objeto, corresponde a las unidades
de medida que posea, esto es: puntos, aos, grados, ventas etc.
El punto cero es arbitrario solo constituye un punto de referencia.
Cuando se codifica en una escala de intervalo el 1 constituye una unidad menor
que el 2.
El hecho de que el punto cero sea arbitrario hace que en dicho nivel solo puedan
establecerse comparaciones en relacin a las distancias entre intervalos y no
diferencias relativas a cantidades.
Como estadstica descriptiva las operaciones que admite son la media aritmtica,
la mediana, moda, desviacin estndar, coeficiente de correlacin de Pearson,
etc.
Escala de razn: es idntica a la anterior, pero adems existe un cero absoluto y es
el nivel ms alto de medicin, lo cual implica poseer todas las caractersticas de los
anteriores niveles. Por ejemplo: volumen de venta, costo de produccin, edad,
cotizacin del dlar, etc. Siendo sus caractersticas bsicas las siguientes:
El cero absoluto significa total carencia del atributo o propiedad que se est
midiendo.
La diferencia entre dos nmeros es totalmente significativa, es decir, a dos
diferencias iguales en el atributo estudiado corresponde igual diferencia entre los
nmeros asignados y adicionalmente como el punto cero es real, es posible hacer
afirmaciones como sta: el ejecutivo X tiene el doble de las ventas del ejecutivo
Y
Como estadstica descriptiva admite todas las del nivel anterior, adems del
coeficiente de variacin que es una medida relativa de dispersin, ya que este
coeficiente requiere del conocimiento del punto cero.
El nivel escogido para medir una caracterstica condiciona el resto del anlisis
estadstico, pues las tcnicas utilizadas deben tener en cuenta la escala que se ha
empleado. En general cuanto mayor sea el nivel utilizado, mayor nmero de tcnicas
podrn aplicarse y mayor precisin se lograr, por lo que se recomienda usar la escala
de intervalo o la de razn siempre que sea posible.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
8
Actividades
1. Redacte un ejemplo de caractersticas estadsticas en las siguientes escalas de
medida: Nominal, Ordinal, Intervalo, de razn.
2. Hemos realizado una encuesta a un grupo de ejecutivos de una empresa,
clasifique las siguientes caractersticas, segn su escala de medida y tipo de
variable: peso, volumen de ventas, religin, nmero de hermanos, tiempo que
tarda en llenar la encuesta, si tiene o no carnet de club privado, deporte
preferido.
3. por qu no podemos decir que una temperatura de 100 grados Fahrenheit
indica doble de calor que una temperatura de 50 grados Fahrenheit?
4. si agrupamos a los ejecutivos de la empresa en altos, medianos, bajos Qu tipo
de escala de medida usamos? y si los ordenamos por estatura?
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
9
Distribuciones de frecuencias unidimensionales
Construccin en Statgraphics, S.P.S.S
Grficos de lnea, barra, polgono de frecuencia, ojiva,
curva de Lorenz.
Captulo II DISTRIBUCIONES DE
FRECUENCIAS
UNIDIMENSIONALES
GRAFICOS ESTADSTICOS
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
10
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Consideremos un conjunto formado por N elementos y sea X una variable que
describe un carcter de los mismos, cuyos posibles valores, ordenados de menor a
mayor, son: x1, x2, ..xn.
Frecuencia absoluta ordinaria: de xi es el nmero fi de veces que aparece xi
en el total de los N elementos.
Frecuencia ordinaria relativa: de xi es la proporcin hi de elementos del
conjunto para los cuales la caracterstica considerada toma el valor xi. Se obtiene como
hi = fi /N, y multiplicado por 100, representa el porcentaje de elementos que toman dicho
valor.
Frecuencia absoluta acumulada: de xi es el nmero Fi de observaciones
menores o iguales que xi. Se calcula, por tanto, como Fi = f1+ f2 +fi = n
i
if1
= N
Frecuencia relativa acumulada: de xi es la proporcin Hi de elementos para
los cuales el carcter toma un valor menor o igual que xi. Se puede calcular como.
Hi = h1+ h2+hi = n
i
ih1
= 1
Distribucin de frecuencia: Se denomina al conjunto de valores de una variable
junto con las frecuencias correspondientes a cada uno de ellos, (xi, fi)i=1,2,3.n. podemos
hablar de dos tipos de distribuciones dependiendo de cmo se presenten los datos:
Distribuciones con datos no agrupados en intervalos: para variables que
toman pocos valores diferentes. Ver fig.1
xi fi Fi hi Hi
x1
x2
.
.
.
xn
f1
f2
.
.
.
fn
F1
F2
.
.
.
Fn
h1
h2
.
.
.
hn
H1
H2
.
.
.
Hn
Fig.1
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
11
Distribucin con datos agrupados en intervalos: Se utiliza con variables que
toman un nmero muy elevado de valores diferentes, con el objeto de hacer ms
manipulable la informacin. La frecuencia absoluta ordinaria asociada a un intervalo
(Li Ls], ser el nmero total de observaciones perteneciente al mismo. En este
contexto, hay que introducir nuevos conceptos, como son, la amplitud del intervalo o
ancho de clase (ic), ic = (Ls - Li), la marca de clase o punto medio del intervalo
2 is
LLx y la densidad de frecuencia, di =
c
i
i
f. Este tipo de distribuciones se
presenta en la Fig.2
Fig.2
Finalmente, ntese que en el caso de trabajar con un atributo en lugar de una
variable, podremos calcular siempre las frecuencias no acumuladas, mientras que las
acumuladas slo se podrn calcular en el caso que estn medido en escala ordinal.
REPRESENTACIONES GRFICAS
Los grficos que se utilizan para representar una distribucin de frecuencia,
sern diferentes segn la naturaleza del carcter a estudiar, dentro de los cuales,
analizaremos los siguientes:
GRFICOS PARA ATRIBUTOS
Diagrama de rectngulos: Se presentan las distintas modalidades, en el eje de
abscisas, levantndose sobre cada una de ellas un rectngulo, cuya altura es igual a la
correspondiente frecuencia absoluta o relativa.
(Li - Ls] ix
fi Fi hi Hi di %
L0 L1
L1 L2
.
.
.
Ln-1 -Ln
x1
x2
.
.
.
xn
f1
f2
.
.
.
fn
F1
F2.
.
.
.
Fn
h1
h2
.
.
.
hn
H1
H2
.
.
.
Hn
d1
d2
.
.
.
dn
..
..
.
.
.
.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
12
Diagrama de sectores o circular: Se divide un crculo en tantas porciones como
modalidades existan, de modo que a cada una de ellas le corresponda un sector circular
con rea proporcional a su frecuencia absoluta o relativa.
Pictograma: Se utilizan dibujos alusivos al tema de estudio para representar las
frecuencias. Estos dibujos pueden hacerse de tal forma que tengan un tamao
proporcional a la frecuencia absoluta o relativa de la respectiva modalidad, o bien
repetirse un nmero de veces proporcional a la frecuencia absoluta.
GRFICOS PARA VARIABLES
1. Distribuciones con datos no agrupados en intervalos:
Diagrama de barras: Se levanta una barra sobre cada valor de xi con
una altura igual a fi o hi
Polgono de frecuencia: Se unen mediante rectas los puntos de
coordenadas (xi, hi) o (hi, fi).
Polgono acumulativo de frecuencia: Se representan las frecuencias
absolutas acumuladas (Fi o N) para todo valor de la recta real,
obtenindose un grfico en forma de escalera.
2. Distribuciones con datos agrupados en intervalos
Histograma: Se construye representando, sobre cada intervalo, un
rectngulo con altura igual a la densidad de frecuencia di con objeto de
que el rea de cada rectngulo sea igual a la frecuencia absoluta del
correspondiente intervalo. Cuando los intervalos tienen la misma
amplitud se puede utilizar como altura la frecuencia absoluta fi,
obtenindome en ese caso reas proporcionales a las frecuencias.
Polgono de frecuencias: Se obtiene uniendo los puntos medios o
marcas de clase de las bases superiores de los rectngulos del
histograma, (xi,di), y cerrar el polgono cortando al eje de abscisas de
forma que el rea encerrada entre el polgono de frecuencia y el eje
horizontal coincida con el rea del histograma.
Polgono acumulativo de frecuencia: se obtiene levantando en el
extremo superior de cada intervalo una ordenada con altura igual a la
frecuencia acumulada absoluta (Fi) o frecuencia relativa acumulada
(Hi),uniendo despus estos puntos.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
13
Grficos para
Atributos
Datos Cualitativos
1)Grfico de Barras
2)Diagrama Circular, De sectores o De Pastel
3)Pictograma
Grficos para Variables
Datos Cuantitativos
1) Grfico de Puntos
3)Ojiva o Polgono de Porcentaje
2) Grfico de lneas
4)Grfico de Polgonos de Frecuencia
Datos
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
14
10 20 30 40 50
2
4
6
8
10
~ X
fi
X ~
= Marca de Clase
fi = Frecuencia Absoluta Ordinaria
0
Dibujo del Grfico de Barras
0
2
4
6
8
10
12
14
16
18
20
fi
10 20
30
40
50
Esquema del sistema Cartesiano para realizar Grficos
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
15
Medidas de posicin
Media Aritmtica
Mediana
Moda
Cuantiles
Captulo III
MEDIDAS DESCRIPTIVAS DE LOS
DATOS ESTADSTICOS
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
16
MEDIDAS DESCRIPTIVAS PARA EL ANLISIS DE LOS DATOS
ESTADSTICOS
Para sintetizar toda la informacin contenida en una tabla de frecuencias, el paso
siguiente para el anlisis de datos, es definir los estadsticos o medidas descriptivas, las
cuales proporcionan un resumen acerca de cmo se distribuyen los datos. Segn la
informacin qu stos nos proporcionen, los clasificaremos en:
Medidas de posicin.
Medidas de dispersin.
Medidas de forma (asimetra y curtosis)
Medidas de concentracin.
Medidas de Posicin: stas dan una idea general donde se sita la distribucin de
frecuencias sobre la recta real, indicando alrededor del cual se agrupan los datos
estadsticos. Dentro de esta clase se incluyen la media aritmtica, media Ponderada,
moda, mediana, cuantiles.
Media aritmtica: x . Es la suma ponderada de cada uno de los valores de la variable
multiplicado por su frecuencia. Esta definicin enfatiza el significado de la media como
reparto equitativo y como mejor estimador de una cantidad desconocida, as como el
algoritmo del clculo.
N
fx
x
i
n
i
i
1 o N
xf
x
n
i
ii
1
N: nmero de valores observados
xi: cada uno de los valores observados
fi: frecuencia con que se presenta xi
En caso de que los datos se presenten en una tabla de valores agrupados en
intervalos, se aplica la misma frmula, siendo los valores de
xi: los valores de la marca de clase o punto medio. Debe recordarse que la agrupacin de
los valores de la variable implica una perdida de informacin sobre dichos valores. Esto
se traduce en el hecho de que los estadsticos calculados, a partir de valores agrupados
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
17
estn afectados por el error de agrupamiento. Por este motivo y siempre que sea posible
han de calcularse los estadsticos a partir de los datos originales, utilizando la frmula
para datos no agrupados. No obstante, puede suceder a veces, que no tengamos los
valores individuales de las observaciones sino por el contrario, dispongamos de una
tabla de frecuencias. En este caso conviene recordar que los valores obtenidos son solo
aproximados.
Propiedades de la media:
1. La media aritmtica es el centro de gravedad de la distribucin de la variable, es
decir, la suma de las desviaciones de los valores con respecto a ella, es igual a
cero.
0)( ii fxx
2. La media aritmtica del producto de una constante, a, por una variable X, es
igual al producto de la constante por la media de la variable dada. Esta
propiedad implica que, al efectuar un cambio de unidad de medida a los datos
(pasar de metros a centmetros), la media queda afectada por dicho cambio de
escala.
xaN
faxn
i
ii
1
3. La media aritmtica de la suma de dos variables, X, Y, es igual a suma de las
medias de cada una de las variables.
YXyX
4. La media aritmtica de la suma de una constante entera, a, con una variable X,
es igual a la suma de la constante, a, con la media aritmtica de la variable dada.
xaN
fxan
i
ii
1
)(
Esta propiedad implica que, al efectuar un cambio en el origen desde el que se han
medido los datos, la media quede afectada por dicho cambio de origen.
Media ponderada: x
Cuando el nmero de observaciones es grande, las operaciones para calcular la
media aritmtica se simplifica utilizando la media ponderada.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
18
r
rr
nnn
xnxnxnx
....
......
21
2211
Moda: (Mo). Cuando la variable es cualitativa no podemos calcular la media. Para
describir un grupo podemos, entonces usar la moda (Mo), que es el valor de la variable
que tiene mayor frecuencia. En una distribucin puede existir ms de una moda, si hay
una sola moda se le denomina unimodal, si existen dos bimodal y si hay ms de dos se
le denomina polimodal.
Clculo de la moda para una variable numrica. Distinguiremos dos casos:
Para una variable cualitativa o numrica discreta, su clculo es sumamente sencillo,
basta con determinar en la tabla de frecuencias la variable de mxima frecuencia.
Cuando la variable numrica esta agrupada en intervalos de clases, la moda se
encontrar en la clase de mayor frecuencia, pudiendo calcular su valor por medio del
siguiente modelo matemtico.
Mo = li + cii
i idd
d
11
1
La moda presenta algunas limitaciones como medida de posicin, obsrvese algunas de
ellas:
a) Si las frecuencias se condensan fuertemente en algunos valores de la variable, la
moda, no es una medida eficaz. Ejemplo consideremos las ventas de un equipo
de ejecutivos, tal como se ilustra a continuacin:
Ventas
(MM)
1 5 2 3 8 10
Ejecutivos 3 4 1 0 0 7
Decir que la moda es 10 MM, cuando un porcentaje muy elevado de ejecutivos
no ha efectuado ese monto, nos da una idea de las limitaciones de la moda en este caso.
Esto es debido a que en el clculo de la moda no se tiene en cuenta todos los valores de
la variable, sin embargo, la media es 2(MM), y en este clculo si se toma en cuenta
todos los valores de la variable.
b) Una misma distribucin con los valores agrupados en clases distintas, pueden
dar distintas modas, en el clculo aproximado.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
19
Mediana: (Md). Es un valor tal que, una vez ordenadas las observaciones de menor a
mayor, deja el mismo nmero de observaciones a su derecha que a su izquierda. Para
obtenerla se procede de la siguiente manera:
En distribuciones no agrupadas en intervalos, se determina el primer valor de xi
de la variable cuya frecuencia absoluta acumulada (Fi) es mayor o igual a N/2. si
Fi es igual a N/2, entonces la mediana se obtiene como 2
1ii xx , y si Fi es
estrictamente mayor que N/2 entonces la mediana es xi.
En distribuciones agrupadas, es necesario seleccionar, en primer lugar, el
intervalo donde se encuentra la mediana (intervalo mediano), siendo ste el
primer intervalo (Ls-li), cuya frecuencia absoluta acumulada Fi, es mayor o
igual a N/2. suponiendo que las observaciones se distribuyen uniformemente en
el intervalo, el modelo matemtico ser:
Md = Li + ci i
fi
FN 12/
Propiedades caractersticas de la mediana: al igual que la media y la moda la
mediana tambin presenta limitaciones, tales como:
i. Al calcular la mediana no usamos todos los valores de la variable, lo que la
limita como medida de posicin
ii. No puede ser aplicada a distribuciones de variables cualitativas.
iii. Como medida de posicin, presenta ciertas ventajas, frente a la media en algunas
distribuciones, ya que no se ve afectada por valores extremos de las
observaciones. La mediana es invariante si se disminuye una observacin
inferior a ella, o si se aumenta una superior, puesto que slo se tiene en cuenta
los valores centrales de la variable. Por ello es adecuada para distribuciones
asimtricas o cuando existen valores atpicos.
iv. Es un estadstico resistente, con pequeas fluctuaciones de la muestra, no
cambia su valor.
v. Si los datos son ordinales la mediana existe, mientras que la media no tiene
sentido, puesto que su clculo se basa en los valores numricos (necesariamente)
de los datos.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
20
Cuantiles: (C). Son los valores que dividen a la distribucin, una vez ordenada sta de
menor a mayor, en intervalos de igual frecuencia. Los ms usuales son los cuartiles,
simbolizados por Q1, Q2, Q3, que dividen la distribucin en cuatro intervalos iguales,
cada uno de ellos con el 25% d las observaciones, los deciles, simbolizados por, D1, D2,
D3,. D9, que dividen la distribucin en diez partes iguales, y los percentiles,
simbolizados por P1, P2,..P99, que dividen la distribucin en cien partes iguales. Su
clculo es similar a la mediana, se sustituye en N/2 por 100
* Np , en el caso de calcular el
cuantil p-simo de orden q, Cp/q, con 0
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
21
Medidas de dispersin
Medidas de dispersin absolutas:
Recorrido
Recorrido intercuartlico
Desviacin media absoluta respecto a la
media
Desviacin media absoluta respecto a la
mediana
Varianza
Desviacin tpica
Medidas de dispersin relativa
Coeficiente de variacin de Pearson
Puntaje tpico o estandarizado
Medidas de concentracin
ndice de Gini
Medidas de Forma
Medidas de Asimetra
Medidas de Curtosis
Captulo IV MEDIDAS DESCRIPTIVAS DE
VARIABILIDAD DE LOS
DATOS ESTADSTICOS
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
22
MEDIDAS DE DISPERSIN
Las medidas de dispersin son estadsticos que miden la variabilidad de los
datos; esto es, el grado de separacin existente entre estos, cuyos valores son mayores o
iguales a cero, (el valor cero indica ausencia de dispersin) dentro de las cuales
estudiaremos las siguientes:
A. Medidas de dispersin absolutas:
Recorrido: Re = Ls Li, es la medida de dispersin ms fcil de
calcular, ya que solamente toma el cuenta los valores extremos de la
variable.
Recorrido intercuartlico: Qi = Q3 Q1, es aquel que mide la
dispersin en el centro de la distribucin.
Desviacin absoluta media respecto a la media: xD = N
fixxn
i
i
1
Varianza: S2 =
1
)( 2
1
N
fixxn
i
i
, es la media aritmtica de los cuadrados
de las desviaciones respecto a la media aritmtica. Su importancia radica
en que da origen a otra medida de dispersin mucho ms significativa,
denominada desviacin tpica
Desviacin tpica: S = + 2S
B. Medidas de dispersin relativas.
Coeficiente de variacin de Pearson: Cv = 100*x
S, permite comparar dos o
ms distribuciones, con el fin de determinar cual de ellas tiene mayor o menor
variabilidad relativa, su uso se hace necesario cuando dichas distribuciones estn
dadas en unidades de medidas diferentes.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
23
Las medidas de dispersin son caractersticas propias de la variable y no de los
atributos, ni siquiera de los que estn medidos en escala ordinal.
Puntaje tpico o estandarizado (Z):
Se emplea para medir la desviacin de una observacin con respecto a la media
aritmtica, en unidades de desviacin tpica, adems determina la posicin relativa de
una observacin dentro del conjunto.
Por lo general el puntaje tpico se simboliza con Z, y su modelo matemtico para
calcularlo es
Zi = s
xxi o Zi = s
xxi (datos agrupados)
Este puntaje tpico se emplea para comparar dos o ms datos individuales,
aunque pertenezcan a distribuciones diferentes, pudiendo suceder que tengan media y
varianzas que no coincidan.
MEDIDAS DE CONCENTRACIN
Ponen de relieve el mayor o menor grado de igualdad en el reparto del total de
los recursos, n
i
i fix1
ndice de Gini; IG = 1
1
1
1
)(
n
i
n
i
pi
qipi
, con pi = 100N
Fi ; qi = 100
n
i
u
u ; ui =
i
k
kk fx1
El ndice de Gini vara entre 0 y 1, correspondiendo los casos extremosa
concentracin mnima o equidistribucin (IG =0) y concentracin mxima (IG =1).
Curva de Lorenz: Es la representacin grfica de los porcentajes acumulados de
individuos (pi) y de recursos (qi). Se colocan los (pi), en el eje de las abscisas, los (qi) en
el de ordenadas, y se unen todos los puntos (pi ,qi), considerando (0,0) como el primer
punto y (100,100) como el ltimo. As cuanto ms prxima est la curva a la bisectriz
del primer cuadrante, ms parecidos sern ambos porcentajes acumulados, por lo que
menor ser la concentracin.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
24
Curva de Lorenz
Ejemplo
Dos empresas ubicadas en la zona industrial Henry Ford de Valencia, una relacionada
con las nuevas tecnologas E1 y otra con el sector lechero E2, tienen polticas salariales
distintas. La empresa E1, ha implantado un sistema de subida salarial lineal de 50 mil
bolvares mensuales y la empresa E2 una subida proporcional de un 7,5% mensual. Se
sabe que las distribuciones de salarios mensuales (miles de bolvares), para cada
empresa en el ao 2004 fueron:
Empresa E1 Empresa E2
Salario N de empleados Salario N de empleados
1450 1700 10 800 1025 4
1700 1950 30 1025 1250 14
1950- 2200 10 1250 1475 20
1475 - 1700 2
En cual empresa el salario est ms concentrado?
iq
100 5 10 15 20 25 30 35 40 45 50 60 65 70 75 80 85 90 95 55
ip
50
10
20
30
40
60
70
80
90
100
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
25
Solucin
Para resolver esta pregunta hay que calcular el ndice de Gini, asociado a cada
distribucin de salarios, sin olvidar que al ndice de Gini no le afecta los cambios de
escala, pero s los de origen, para la E1 la subida del salario ha sido lineal de 50 mil
mensual, lo que supone un cambio de origen, por lo que calcularemos directamente el
ndice de Gini, para la distribucin de salario del ao 2004. As
Li - Ls fi x i fi* x Fi ui pi(%) qi(%)
1500 1750 10 1625 16250 10 16250 20 17,33
1750 2000 30 1875 56250 40 72500 80 77,33
2000 - 2250 10 2125 21250 50 93750 100 100
50 93750
Donde IGE1 = 053,0100
67,94100
8020
)33,7733,17()8020(
Para la empresa E2, la subida mensual ha sido proporcional, o sea un cambio de escala.
Li - Ls fi x i fi* x Fi ui pi(%) qi(%)
800 1025 4 912,5 3650 4 3650 10 7,3
1025 1250 14 1137,5 15925 18 19575 45 39,15
1250 1475 20 1362,5 27250 38 46825 95 93,65
1475 - 1700 2 1587,5 3175 40 50000 100 100
40 50000
Donde IGE1 = 0,066: Por lo tanto se puede concluir que el salario 2004 esta ms
concentrado en la empresa E1.
MEDIDAS DE FORMA
Las medidas de forma pretenden dar una idea general de la representacin
grfica de una distribucin de frecuencias. En particular, tratan de cuantificar la
deformacin horizontal (asimetra) y la deformacin vertical (curtosis o apuntamiento)
de la misma.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
26
I. Medidas de asimetra:
Coeficiente de asimetra de Fisher: F1 = 33
S
m
S F1 >0, la distribucin es asimtrica positiva (o asimtrica a la derecha); s
F1
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
27
II Medidas de curtosis:
Coeficiente de curtosis: K = 34
4
S
m
Este coeficiente se define slo para distribuciones campaniformes y simtricas
(con ligera asimetra). Si K>0, o (K >0,263)la distribucin se denomina leptocrtica
(ms apuntada que la distribucin normal); si K
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
28
LEPTOCURTICA
MESOCURTICA
PLATICURTICA
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
29
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
30
ACTIVIDAD PRCTICA DE APRENDIZAJE DE DISTRIBUCIN
UNIDIMENSIONAL
Los siguientes datos son una muestra de los salarios anuales de 100 trabajadores de una
empresa del sector petrolero.
Los datos estn expresados en miles de bolvares/fuertes
200 200 200 200 200
202 202 203 203 204
205 205 205 206 206
207 208 208 208 208
209 212 213 218 218
218 218 219 220 224
224 225 225 226 226
226 226 226 226 226
227 227 228 228 229
231 231 232 233 233
233 234 234 235 236
237 238 239 239 239
240 240 240 241 241
245 245 247 247 247
248 249 249 250 250
250 250 251 251 251
251 251 251 252 252
252 253 253 254 254
255 255 255 256 256
257 257 258 259 259
N = 100
Nc = 12
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
31
La informacin representa la distribucin de salarios anuales expresados en
miles de bolvares/fuerte:
Prepare resmenes tabulares de los datos de salario anual mediante una distribucin
de frecuencias (use numero de clase=12), (frecuencia absoluta, acumulada,
frecuencia relativa, relativa acumulada y porcentaje).
Nc Li - Ls
x fi Fi hi Hi Hi %
fi x d fi xx fi( 2) xx
1 200-205 202.5 10 10 0.10 0.10 10 2025 -30.05 300.5 9030.02
2 205-210 207.5 11 21 0.11 0.21 21 2282.5 -25.05 275.55 6902.52
3 210-215 212.5 2 23 0.02 0.23 23 425 -20.05 40.1 804.00
4 215-220 217.5 5 28 0.05 0.28 28 1087.5 -15.05 75.25 1132.51
5 220-225 222.5 3 31 0.03 0.31 31 667.5 -10.05 30.15 303.00
6 225-230 227.5 14 45 0.14 0.45 45 3185 -5.05 70.7 357.03
7 230-235 232.5 8 53 0.08 0.53 53 1860 -0.05 0.4 0.02
8 235-240 237.5 7 60 0.07 0.60 60 1662.5 4.95 34.65 171.51
9 240-245 242.5 5 65 0.05 0.65 65 1212.5 9.95 49.75 495.01
10 245-250 247.5 8 73 0.08 0.73 73 1980 14.95 119.6 1788.02
11 250-255 252.5 17 90 0.17 0.90 90 4292.5 19.95 339.19 6766.04
12 255-260 257.5 10 100 0.10 1 100 2575 24.95 249.5 62250.2
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
32
a) Cuales son los salarios mnimos y mximos?
Mximo=259
Mnimo=200
b) Que proporcin-cantidad-porcentaje hay (200-205)?
C=10
P=0.1
P=10%
c) Que proporcin-cantidad-porcentaje hay (210-235)?
C=32
P=0.32
P=32%
d) Ancho de la distribucin
ic
AtNc ; LiLsAt ; 200259At 59At
e) Medidas de posicin de la distribucin
Medidas de Posicin:
Media Aritmtica:
n
fixx
. ;
100
255.23x ; Bsmx /55.232 F. Es el salario promedio
anual.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
33
Mediana:
icfi
Fin
LiMd *
)1(2
2
NcLg ;
2
12Lg ; 6Lg
5*14
312
100
225Md
78.6225Md
BsmMd /78.231 F Es el valor promedio que divide la distribucin en
dos partes iguales.
Moda:
icfmfm
fmLiMo *
)1()1(
)1( ;
5*810
10250Mo
BsmMo /77.252 F. Es el valor promedio con mayor frecuencia.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
34
Cuantiles:
icfi
FinP
LiPD *
)1(100
*
%404
100
* nP40
100
100*40
5*14
3140225%404 PD
BsmPD /21.238%404 F. es el valor por debajo del cual se encuentra
el 40% de los salarios anuales.
icfi
FinP
LiPQ *
)1(100
*
%251 ;
100
* nP25
100
100*25
5*5
2325215%251 PQ
BsmPQ /217%251 ; es el valor por debajo del cual se encuentra el
25% de los salarios anuales devengados.
icfi
FinP
LiPQ *
)1(100
*
%753
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
35
100
* nP75
100
100*75
5*17
7375250%753 PQ
bsmPQ /58.250%753 ; es el valor por debajo del cual se encuentra
el 75% de los salarios devengados.
Rango Percentil: es un estadstico que nos mide el porcentaje de valores por debajo del
cual se encuentra un valor conocido.
Ejemplo: Qu porcentaje de salarios se encuentran por debajo de 232 mBsF?
nFifi
ic
LixPxR
100*)1(*
)()(
100
100*458*
5
230232)232(R
1*458*4.0)232(R
2.48)232(R %. Interpretacin 48,2% de los salarios se encuentran por
debajo de 232 mBsF.
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
36
MEDIDAS DE DISPERSION
Medidas de dispersin absolutas:
1. Rango:
LiLsRg ; 200259Rg : 59Rg
La dispersin existente en los extremos de los salarios es de 59m/BsF.
2. Espacio Intercuartlico:
13 QQQi ; 21758.250Qi
BsmQi /58.33 F es la dispersin en centro de la distribucin.
3. Desviacin Media:
n
xxfiDm
100
34.1585Dm
85.15Dm
La dispersin promedio total es de 15.85 m/BsF
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
37
4. Varianza:
1
x-x
n
fiS
99
7.33974S
17.343S
La desviacin promedio de los salarios respecto a la media aritmtica es de
343.17m/BsF2
5. Desviacin tpica:
SS
2243.17mBsFS
59.15S mBsF
La variabilidad promedio.
Medidas de dispersin relativas:
Variable tipificada:
S
x-xZ(x)
-
Anlisis de Datos Estadsticos
Autor: prof. Juan Muoz
38
59.15
232.55-242.5Z(9)
59.15
9.95Z(9)
63.0Z(9)
0,63 es el nmero de desviaciones tpicas que existen con respecto a la media
Coeficiente de Variabilidad:
%100*S
CVx
%100*55.232
15.59CV
7.6CV %
El porcentaje de variabilidad de la distribucin es de 6.7%
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
39
Medidas de forma
Asimetra:
%10%90
%502%)10%90(As
PP
PPP
icfi
FinP
LiP *
)1(100
*
%90
100
* nP90
100
100*90
5*17
7390250%90P
255%90P
icfi
FinP
LiP *
)1(100
*
%10
100
* nP10
100
100*10
5*10
010200%10P
205%10P
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
40
icfi
FinP
LiP *
)1(100
*
%50
100
* nP50
100
100*50
5*8
4550230%50P
12.233%50P
205255
)12.233(2)205255(As
50
24.466460As
12.0As ; La curva es sesgada hacia la izquierda porque el valor es negativo.
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
41
Kurtosis:
%)10%90(2
%25%75Ku
PP
PP
)205255(2
21758.250Ku
33.0Ku ; La curva es Leptocrtica ya que kurtosis es mayor a 0,263
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
42
1.- La siguiente informacin corresponde a 25 empresas pequeas y medianas,
ubicadas en la zona industrial del estado Carabobo.
Se desea saber:
Escala de Medicin
Variables
Variables cualitativas
Variables cuantitativas
Variables cuantitativas discretas
Variables cuantitativas continuas
Poblacin
Muestra
EMPRESA BOLSA SMBOLO
VENTAS
ANUALES
Bs Millones
GANANCIAS
POR ACCIN
RELACIN
PRECIO-
RENDIMIENTO
Tec-serv-
Firestone Valencia BdeV 15.5 11.500 22.5
Nestle Caracas BdeC 255.8 7880 12.7
Cuam Valencia BdeV 29.4 17000 7.5
Pepsi cola Caracas BdeC 254.6 9668 6.0
Rualca Caracas BdeC 88.7 12.880 15.7
Good Year Caracas BdeC 27.7 5.750 27.4
Unigorras Valencia BdeV 7.2 6.563 2.1
Movilnet Caracas BdeC 48.3 15.750 27.2
Dominguez Caracas BdeC 30.2 39.750 11.2
Digitel Caracas BdeC 26.5 8.500 15.7
Motoca Valencia BdeV 90.6 10.875 17.0
Danaven Valencia BdeV 60.5 9.5000 11.4
Toyota Valencia BdeV 71.1 10.313 24.6
Movistar Caracas BdeC 23.7 7.375 14.2
Regional Caracas BdeC 38.2 10.750 4.8
Zap.
Molinera Valencia BdeV 26.0 6.688 17.1
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
43
2. Los siguientes datos son una muestra de salarios anuales de 40 gerentes de tienda
(los datos estn expresados en millones de bolvares)
48 35 57 48 52 56 51 44
40 40 50 31 52 37 51 41
47 45 46 42 53 43 44 39
50 50 44 49 45 45 50 42
52 55 46 54 45 41 45 47
Se desea saber:
a. Distribucin de frecuencia (Use ancho de clase = 5 millones de bolvares) Prepare
resmenes tabulares de los datos de salario anual ( frecuencia relativa, relativa
acumulada, porcentaje)
b. Cules son los salarios mnimo y mximo?
c. Cul es el promedio de los salarios?
d. Qu proporcin hay de salarios anuales de 35 millones de bolvares o menos?
e. Qu porcentajes hay de salarios anuales mayores de 50 millones?
f. Qu cantidad proporcin y porcentaje de salarios anuales hay entre la tercera y la
quinta clase?
g. Qu cantidad porcentaje y proporcin hay entre 37,5714 y 50,4286
h. Construya los siguientes grficos estadsticos conocidos por usted
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
44
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
45
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
46
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
47
3. La siguiente informacin corresponde a las ventas de unas tiendas de computadoras
personales durante un mes.
4.1 1.5 10.4 5.9 3.4 5.7 1.6 6.1 3.0 3.7
3.1 4.8 2.0 14.8 5.4 4.2 3.9 4.1 11.1 3.5
4.1 4.1 8.8 5.6 4.3 3.3 7.1 10.3 6.2 7.6
10.8 2.8 9.5 12.9 12.1 0.7 4.0 9.2 4.4 5.7
7.2 6.1 5.7 5.9 4.7 3.9 3.7 3.1 6.1 3.1
Se desea saber:
a. Distribucin de frecuencia (Use ancho de clase = 3 millones de bolvares) Prepare
resmenes tabulares de los datos de salario anual ( frecuencia relativa, relativa
acumulada, porcentaje)
b. Cules son las ventas mnima y mxima?
c. Cul es el promedio de venta?
d. Qu proporcin hay de ventas mensuales de 35 millones de bolvares o menos?
e. Qu porcentajes hay de ventas mensuales mayores de 50 millones?
f. Qu cantidad, proporcin y porcentaje de ventas mensuales hay entre la segunda y
la quinta clase?
g. Qu cantidad porcentaje y proporcin hay entre
h. Construya los siguientes grficos estadsticos conocidos por usted
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
48
4. A partir de las siguientes observaciones obtenidas al estudiar el nmero de hijos en
la familia de un conjunto de 25 alumnos, construya la tabla de frecuencias de la variable
= Nmero de hijos en las familias de los alumnos.
2 2 3 3 3
3 4 4 3 3
3 4 2 2 2
4 3 1 3 5
2 4 4 1 3
Se desea saber:
Medidas de posicin y grficos estadsticos
5. A partir de las siguientes observaciones obtenidas al estudiar el peso. En Kg., de un
conjunto de 25 individuos, construya la tabla de frecuencia de la variable = Peso.
68.2 87.8 85 57.5 68.2
75.2 77.5 78.3 81.5 64
62.5 85.9 83.6 78.1 61.2
71.5 59.6 78.3 77.5 73
73 88.5 85.2 61.5 94
Se desea saber:
Medidas de posicin, interpretacin y grficos estadsticos
6. Realizada una encuesta sobre las preferencias de los jvenes por determinados
productos de marcas, se han obtenido los siguientes resultados:
Represente mediante un grfico adecuado la distribucin de las preferencias de los jvenes.
Marca N de
jvenes
A
B
C
D
E
38
16
12
25
9
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
49
7. Represente grficamente la distribucin obtenida al estudiar la variable =
Nmeros de asignaturas reprobadas por un grupo de 25 alumnos.
Se desea saber:
a) Medidas de posicin b) medidas de dispersin c) medidas de forma d) grficos
8. Represente grficamente la siguiente distribucin referente al peso. En Kg., de un
conjunto de 25 individuos.
9. Se dispone informacin acerca del nmero de miembros de la unidad familiar para
42 familias de una zona residencial:
1 5 4 6 3 1 2
3 2 4 7 5 1 4
3 3 2 3 4 5 2
3 1 1 4 2 3 6
5 4 2 5 3 2 3
4 6 2 3 3 4 3
2 0 3 3 3
3 4 6 3 3
3 4 2 2 2
4 0 1 3 6
2 4 4 1 3
68.2 87.8 85.0 57.5 68.2
75.2 77.5 78.3 81.5 64.0
62.5 85.9 83.6 78.1 61.2
71.5 5936 78.3 77.5 73.0
73.0 88.5 85.2 61.5 94.0
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
50
Obtenga la media aritmtica, as como la moda y la mediana. Calcule tambin el primer y
tercer cuartil, y los percentiles 10, 40 y 80.
10. Se sabe el nmero de asignaturas aprobadas en un semestre por los alumnos del
curso de licenciatura administracin comercial
Obtenga la media aritmtica, la moda y la mediana de esta distribucin. Calcule tambin los
cuartiles primero y tercero, y los percentiles 10, 25, 50, 75, 85 y 90, coeficiente de asimetra
y coeficiente de curtosis.
11. En la siguiente tabla se recoge informacin referente al nmero de horas extras
trabajadas por 54 de los trabajadores contratados por una empresa hortofrutcola en el mes
de junio de 2004:
Horas Extras N Trabajadores
5.5 15.5
15.5 20.5
20.5 25.5
25.5 30.5
30.5 35.5
35.5 42.5
8
13
15
9
6
3
N de
asignatura
aprobadas
N de
alumnos
0
1
2
3
4
5
6
15
28
41
41
10
9
6
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
51
Obtenga la media aritmtica, as como la moda y la mediana. Calcule tambin el primer y
tercer cuartil, y los percentiles10, 50, 60 y 90.
12. Una empresa se dedica a la produccin de bolas de plasma. Las bolas son
empaquetadas en cajas de 100 bolsas. En la revisin del ltimo envo realizado por la
empresa, en el que haba 30 cajas, se han encontrado las siguientes bolsas defectuosas en
cada caja:
Calcule las siguientes medidas de dispersin: recorrido, recorrido intercuartlico,
desviacin absoluta media respecto de la media aritmtica, varianza, desviacin tpica,
recorrido semi-intercuartlico coeficiente de variacin, coeficiente de asimetra y
coeficiente de curtosis.
13. Las distribuciones de los aos de estudio posteriores a la enseanza secundaria de
los trabajadores de dos empresas A y B se presenta en la siguiente tabla:
Aos de estudio
posteriores a la
enseaza obligatoria
Empresa A Empresa B
0
2
3
4
6
9
10
5
10
15
15
6
3
1
5
2
5
10
10
8
0
0 1 2 1 1 0
2 1 1 0 5 0
1 0 0 1 1 0
0 3 0 2 2 1
0 1 2 2 1 0
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
52
Calcule el nmero medio de aos de estudio posteriores a la enseanza de secundaria en
cada una de las empresas. Cul de ellos es ms representativo de su correspondiente
distribucin? Calcule los coeficientes de dispersin, tanto absolutos como relativos.
14. La distribucin de las puntuaciones obtenidas en una prueba de seleccin por un
total de 200 aspirantes se recoge en la siguiente tabla:
Obtenga la media y la mediana de la distribucin, as como las desviaciones absolutas
medias respecto a ambas medidas. Calcule tambin los ndices de dispersin respecto a la
media y a la mediana, coeficiente de asimetra y coeficiente de curtosis. (Grficos).
15. En la cola de Cinesunidos del Sambil de Valencia se ha realizado una encuesta.
En ella se pregunta a los usuarios, entre otras cosas, acerca del nmero de veces que han
asistido a la proyeccin de una pelcula en el ltimo mes . Los datos recogidos sobre esta
variable se presentan a continuacin:
Determine los coeficientes de asimetra y coeficiente de curtosis. (Grficos).
Puntuacin Aspirantes
[0,10]
(10,20]
(20,30]
(30,40]
(40,50]
(50,60]
(60,70]
(70,80]
(80,90]
(90,100]
10
15
30
20
35
40
20
20
5
5
2 2 2 3 2 0 5 2 3 2 4 3 3 2 2 2 4 3 3 2
2 3 3 0 0 2 2 4 2 2 2 1 3 4 3 5 4 4 3 1
3 3 4 2 3 2 1 2 3 2 3 2 5 4 1 3 4 3 4 3
1 2 4 5 2 3 3 2 2 4 2 4 2 3 2 5 5 2 4 3
2 2 4 4 3 2 2 4 2 0 2 1 4 3 5 4 2 3 2 2
1 0 3 3 2 4 5 1 2 2 3 1 3 4 2 2 3 2 2 1
3 2 3 2 0 3 2 2 4 2 2 3 1 1 3 3 3 4 2 2
3 3 4 3 1 3 1 3 1 3 2 3 3 2 1 1 2 2 1 4
3 3 3 4 1 2 1 2 4 3 3 3 2 3 3 5 1 2 3 2
3 2 2 3 3 3 3 2 3 4 4 3 3 3 3 4 3 1 2 3
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
53
16. La siguiente distribucin representa la ausencia laboral en la empresa RUALCA
ubicada en la zona industrial de Valencia por motivo de enfermedad:
Das N de
trabajadores
1 5 5 10 10 15 15 30 30 60 60 - 90
19
42
35
68
30
6
Determine los coeficientes de asimetra y coeficiente de curtosis. (Grficos), para esta
distribucin de frecuencia.
17. Se desea estudiar y comparar el grado de concentracin en el reparto de la masa
salarial de dos empresas distintas. La empresa GM ofrece sus datos en dlares. Por el
contrario, la empresa FIRESTONE no tiene actualizada su contabilidad en dlares y ofrece
sus datos en bolvares.
Cul de las distribuciones es ms confiable?
GM
ii LL ,1 ni 451 601 601 902
902 1.142 1.142 1.442 1.442 1.683 1.683 1.983 1.983 2.404 2.404 3.606 3.606 6.010
25 7
8
2
5
6
1
2
1
FIRESTONE
ii LL ,1 ni
75.000 100.000 100.000 150.000 150.000 190.000 190.000 240.000 240.000 280.000 280.000 330.000 330.000 400.000 400.000 600.000
600.000 1.000.000
29
12
9
7
1
4
1
1
1
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
54
Distribuciones de frecuencias bidimensionales
Representaciones grficas
Distribuciones marginales
Distribuciones condicionadas
Independencia estadstica
Momentos
Covariaza
Captulo V
DISTRIBUCIONES DE FRECUENCIAS
BIDIMENSIONALES
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
55
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Dado un conjunto de N elementos o individuos, se desea estudiar dos caractersticas
de los mismos, medidas por las variables X e Y, p(xi,yr) cuyos posibles valores son
x1, x2, .....xi e y1,y2,.......yr , respectivamente. Tambin podra darse el caso en que alguno de
los caracteres fuera cualitativo, o incluso los dos.
Frecuencia absoluta conjunta, del par ordenado p(xi,yr) es el nmero fir de elementos en el
total de los N considerados que presentan el valor xi para la primera caracterstica y el valor
yr para la segunda.
Frecuencia relativa conjunta, del par p(xi, yr) es la proporcin hir de elementos del
conjunto para los cuales la primera caracterstica toma el valor xi y la segunda el valor yr.
Se obtiene como hi r= N
nir y multiplicada por 100 representa el porcentaje de elementos con
dichos valores en las caractersticas consideradas.
Definiremos distribucin de frecuencia bidimensional al conjunto de pares
p(xi,yr), junto con las frecuencias asociadas a cada uno de ellos, (xi, yr); nir i=1,2,....,j; r =
1,2,....s dicha distribucin de frecuencia suele presentarse en una tabla de doble entrada, que
recibe el nombre de tabla de correlacin si los dos caracteres son cuantitativos, y tabla de
contingencia si al menos uno de ellos es cualitativo. Adems para el caso de las variables,
los datos pueden venir agrupados en intervalos o no, segn proceda.
X / Y y1 y2 .... yr
x1
x2
.
.
.
xi
n11 n12 ...... n1r
n21 n22 ...... n2r
ni1 ni2 ..... nir
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
56
Representaciones grficas
Diagrama de dispersin o nube de puntos. Grfico solo para variables que
representan los pares de observaciones como puntos en un sistema cartesiano, donde cada
uno de los ejes corresponde a una de las variables. Esta representacin ayuda a descubrir
visualmente la existencia de algn tipo de relacin entre dos variables.
DISTRIBUCIONES MARGINALES
Son cada una de las dos distribuciones de frecuencias unidimensionales que se
obtienen a partir de la distribucin bidimensional (xi,yr) ; nir i = 1, 2,....j r= 1,2,....s , al
estudiar el comportamiento de cada una de las dos componentes de (X,Y) por separado. As
en el caso de la distribucin correspondiente a X, que denotaremos por (xi; ni)i = 1, 2,....j, la
frecuencia marginal ni representa el nmero de elementos para los cuales la primera
caracterstica toma el valor xi , sea cual sea el valor de Y, esto es:
ni = s
j
ijn1
, i = 1,2,......r
Mientras que en la distribucin correspondiente a Y (yj; nj)j = 1,2,....s , la frecuencia marginal
nj, denota el nmero de elementos para los cuales la segunda caracterstica toma el valor y j
independientemente del valor que tome X
nj = j
i
ijn1
, j = 1,2,......r
Siendo entonces N = r
i
s
j
ijn1 1
. Esta informacin se puede representar en la tabla de doble
entrada.
X / Y y1 y2 .... yr
x1
x2
.
.
.
xi
n11 n12 ...... n1r
n21 n22 ...... n2r
ni1 ni2 ..... nir
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
57
Tambin se pueden calcular las frecuencias relativas marginales:
fi = N
ni ; fj = N
n j
11 11 1
j
i
s
r
j
j
i
s
r
ir ffif
Y puesto que las distribuciones marginales no son ms que distribuciones de frecuencias
unidimensionales, se podran obtener para ellas las distintas medidas estudiadas en el tema
anterior. Adems todos los comentarios anteriores sobre distribuciones marginales se
pueden aplicar sin ningn problema a la situacin en la que una o las dos componentes del
par ordenado p(X,Y) sean atributos.
Distribuciones condicionadas
La distribucin de X condicionada a que Y tome el valor yj es la distribucin
unidimensional (xi ; ni/j )i=1,2,...r representada en la siguiente tabla tanto en frecuencia
absoluta como relativa:
X/Y = yj n i/j f i/j x1 x2 .
.
xr
n 1/j n2/j
.
.
nr/j
n.j
f1/j f2/j
.
.
fr/j
1
Donde ni/j = nij y fi/j = jn
nij
.
Del mismo modo se define la distribucin de Y condicionada a que X tome el valor
xi , esto es (yj ; nj/i )j=1,2,...s
Y/X = xj n j/i f j/i
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
58
y1 y2 .
.
yr
n 1/i n2/i.
.
.
.ns/i
ni.
f1/j f2/j
.
.
fs/j
1
Donde nj/i = nij y fj/i = .i
ij
n
n
Independencia estadstica
Se dice que dos caracteres X e Y son estadsticamente independiente si los valores o
modalidades que toma uno de ellos no se ve afectado por los valores o modalidades que
toma el otro, formalmente, si :
fi/1 = fi/2 = ... = fi/s = fi., ri ,....,1
fj/1 = fj/2 = ... = fj/r = f.j, sj ,...,1
Momentos
Estudiaremos los momentos respecto al origen (ordinarios) y momentos
respecto a la media (centrales):
Momentos ordinarios de orden (h,k): ahk = N
nyxr
i
s
j
ij
k
j
h
i
1 1
Momento central de orden (h,k): mhk = N
nyyxxr
i
ij
k
j
hs
j
i
1 1
)()(
Entre los momentos bidimensionales podemos destacar la Covarianza la cual nos
proporciona una medida del grado de relacin lineal que existe ente las variables X e Y, se
puede calcular mediante el siguiente modelo matemtico para la covarianza de la muestra:
Sxy = 2
))((
n
YYXX ii
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
59
Y para la covarianza de la poblacin xy = N
YX yixi ))((.
Interpretacin de la covarianza:
Si el valor de la covarianza es positivo indica una asociacin lineal positiva entre X
y Y; esto es; al aumentar el valor de X el de Y aumenta.
Si el valor de la covarianza es negativo, indica una asociacin lineal negativa entre
X y Y esto es; al aumentar el valor de X el de Y disminuye.
Si el valor de la covarianza es cero, indica que no asociacin lineal entre X y Y.
Ejemplo
Sxy = 2
))((
n
YYXX ii
i i
La media de X: 11.225 La media de Y: 5.437
X 7,2 6,7 17,0 12,5 6,3 23,9 6,0 10,2
Y 4,2 4,9 7,0 6,2 3,8 7,6 4,4 5,4
1 2 3 4 5 6 7 8
xy = 58, 297
Sxy = 58,297 = 9,71 6 Resultado
Positivo.
Ej. Sxy= (7,2 11.225) (4,2 5,437)= 4,97; (6,7 11.225) (4,9 5.437) = 2,42 ;
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
60
Introduccin
Regresin mnimo cuadrtica
Regresin lineal
Series temporales o cronolgicas
Correlacin
Prediccin
Captulo VI
REGRESIN
CORRELACIN
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
61
Introduccin
Cuando se analizan conjuntamente dos variables que no son estadsticamente
independientes, la relacin de independencia existente entre ellas puede ser funcional
(relacin matemtica exacta entre las dos variables, por ejemplo consumo de energa
elctrica por el uso de un aire acondicionado y el tiempo de enfriamiento) o estadstica
(relacin aproximada entre las dos variables, ejemplo el nivel de ventas de una empresa y el
gasto de publicidad). En este ltimo caso interesa estudiar el grado de dependencia
existente entre las variables. (Teora de la correlacin) y determinar la funcin que mejor
explique dicha dependencia (teora de la regresin).
Dadas dos variables X e Y, con distribucin conjunta de frecuencias (xi , yj); nij
Se denomina regresin de Y sobre X (Y/X), a la funcin que explica la variable Y para
cada valor de X. De igual forma, la regresin de X sobre Y (X/Y) determina el
comportamiento de X en funcin de Y, sin prdida de generalidad, consideremos la
distribucin de pares de valores p(xi, yi), con frecuencias unitarias.
Regresin de mnimo cuadrtica
Es una tcnica empleada para obtener la ecuacin de regresin, minimizando la
suma de los cuadrados de las distancias verticales entre los valores Y verdaderos y los
valores pronosticados de , originando la recta de mejor ajuste. Al utilizar este mtodo se
elimina el juicio personal.
Para obtener la funcin de regresin de Y sobre X, en primer lugar se representan
grficamente en un sistema de coordenadas los pares de observaciones de las dos variables
(nube de puntos o diagrama de dispersin), y se selecciona el tipo de funcin que mejor se
ajuste a esos puntos. En segundo lugar se determina dicha funcin haciendo mnima la
suma de los cuadrados de los residuos o errores, ei (diferencia entre la variable dependiente
observada, y , y el valor terico, , que se obtiene al sustituir la funcin escogida x por x i,
esto es ei = yi ):
Min N
i
iy1
( )2
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
62
De igual forma se obtiene la funcin de regresin de X sobre Y haciendo mnimo:
N
i
ix1
( x^)2. Se denominan ecuaciones normales a aquellas que se obtienen al minimizar
las expresiones anteriores.
Regresin lineal
Si la funcin que se adapta a la nube de puntos es una recta, se habla de regresin
lineal y ser de la forma = a + bx, para la regresin Y/X, y, x^ = a + by, para la
regresin de X/Y. Los coeficientes b y b ' reciben el nombre de coeficientes de regresin
y es la pendiente de la recta, o sea el cambio en promedio en por unidad de cambio
(incremento o decremento) en la variable independiente X. Mientras que a y a' son los
puntos de corte con el eje Y, o sea el valor estimado de Y cuando X = 0.
Recta de regresin de Y sobre X
Se calculan los parmetros a y b que minimizan 2
1
)( i
N
i
i bxay , obtenindose
las siguientes ecuaciones normales N
i
iy1
= aN + bN
i
ix1
N
i
iy1
xi = a N
i
ix1
+ bN
i
ix1
2
Que dan lugar a:
a = xby
b = 2
x
xy
S
S o b =
)(.
)*.(.
XCS
YXCS
S.C.(X*Y)= YX * -n
YX * S.C(X) =
n
XX
2
2)(
S.C.(Y) = n
YY
2
2)(
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
63
As, la recta Y/X viene expresada por:
- y = 2
x
xy
S
S(x- x ) o XbaY (ecuacin reducida)
Recta de regresin de X sobre Y
Se minimizan 2''
1
)( i
N
i
i ybax , obtenindose las siguientes ecuaciones normales:
N
i
ix1
= a'N + b
'N
i
iy1
N
i
iy1
xi = a'
N
i
iy1
+ b'
N
i
iy1
2
Que dan lugar a: a = YbX
b'
= 2
y
xy
S
S o b =
)(.
)*.(.
YCS
YXCS
As la recta viene expresada por:
x^ - x =
2
x
xy
S
S(y- y ) o YbaX
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
64
Varianza residual, representa los valores de Y respecto a la lnea de regresin, recordemos
que las desviaciones de los valores de Y respecto a la lnea de regresin estimada se llaman
residuales, y se pueden obtener mediante el siguiente modelo matemtico:
S2y/x =
2
)( 2
n
YYi y el error estndar de estimacin se obtiene Sy/x = xyS /
Coeficiente de determinacin, lo definiremos como un valor comprendido entre 1 y cero
(1;0) y se usa para evaluar la bondad de ajuste para la ecuacin de regresin, lo
modelizaremos mediante r2 donde r2 = S.C.R / S. C.T
S.C.R = Suma de cuadrados debida a la regresin. = S.C.T S.C.E
S. C.T= Suma de cuadrados Total = (Yi - y i )2 *
S.C.E : Suma de Cuadrados del error = (Yi - Y i )2 *
S.C.T = S.C.R + S.C.E
EJEMPLO ILUSTRATIVO
1.- la siguiente informacin corresponde a una muestra tomada de 10 restaurant ubicados
en valencia, de acuerdo al nmero de clientes (X) y las ventas mensuales (Y), expresadas
en miles de Bs tal como se describe a continuacin:
#Rest 1 2 3 4 5 6 7 8 9 10
#Clientes (X) 2 6 8 8 12 16 20 20 22 26
Ventas (Y) 58 105 88 118 117 137 157 169 149 202
Se desea saber:
a.- Existencia de la relacin entre las variables. (covarianza nube de puntos)
b.- Estime las ventas para 10 clientes (recta de mejor ajuste por el M..M.C)
c.- Varianza residual
d.- Error estndar de estimacin.
e.- Coeficiente de determinacin
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
65
SOLUCIN
b.- XbaY Y = 60 + 5X (R.M.A.M.M.C), luego estimo las ventas
para 10 clientes y obtengo Y = 60 + 5 (10) = 110 miles de bolvares.
c.- Varianza Residual S2 = 121,95 m/Bs
2
d.- Error estndar de estimacin: S = 13,82 m/ Bs
e.- Coeficiente de determinacin r2
= 0,90
Nota: Se le sugiere al lector como ejercicio prctico estimar el nmero de clientes para
unas ventas de 150 mil Bs.
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
66
EJERCICIO RESUELTO EN EL PROGRAMA STATGRAPHICS
Anlisis de Regresin - Modelo Lineal Y = a + b*X
-----------------------------------------------------------------------------
Variable dependiente: Ventas
Variable independiente: #clientes
-----------------------------------------------------------------------------
Error Estadstico
Parmetro Estimacin estndar T P-Valor
-----------------------------------------------------------------------------
Ordenada 60,0 9,22603 6,50334 0,0002
Pendiente 5,0 0,580265 8,61675 0,0000
-----------------------------------------------------------------------------
Anlisis de la Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 14200,0 1 14200,0 74,25 0,0000
Residuo 1530,0 8 191,25
-----------------------------------------------------------------------------
Total (Corr.) 15730,0 9
Coeficiente de Correlacin = 0,950123
R-cuadrado = 90,2734 porcentaje
R-cuadrado (ajustado para g.l.) = 89,0575 porcentaje
Error estndar de est. = 13,8293
Error absoluto medio = 10,8
Estadstico de Durbin-Watson = 3,22353 (P=0,0027)
Autocorrelacin residual en Lag 1 = -0,705882
El StatAdvisor
--------------
La salida muestra los resultados del ajuste al modelo lineal para
describir la relacin entre Ventas y #clientes. La ecuacin del
modelo ajustado es
Ventas = 60,0 + 5,0*#clientes
Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existe
relacin estadsticamente significativa entre Ventas y #clientes para
un nivel de confianza del 99%.
El estadstico R-cuadrado indica que el modelo explica un 90,2734%
de la variabilidad en Ventas. El coeficiente de correlacin es igual
a 0,950123, indicando una relacin relativamente fuerte entre las
variables. El error estndar de la estimacin muestra la desviacin
tpica de los residuos que es 13,8293. Este valor puede usarse para
construir lmites de la prediccin para las nuevas observaciones
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
67
SERIES CRONOLGICAS O TEMPORALES
Una serie cronolgica o temporal es una sucesin de observaciones de una variable
registrada a intervalos de tiempo regulares y ordenadas en el tiempo. Se puede considerar
como una variable bidimensional, siendo la variable dependiente, Y, y la magnitud que
queremos analizar, mientras que la independiente es el tiempo, t.
La serie cronolgica se representa por Yt, si se considera explcitamente el ao t,
donde t = t1, t2, .tn y la poca i, del ao a que se refiere la observacin i = 1, 2, ,12 por
ejemplo, si son meses; i = 1,2,..,k, en general.
Componentes de una serie cronolgica o temporal
El anlisis clsico de series cronolgicas, considera que una serie cronolgica esta
formada por cuatro componentes:
Tendencia (T): movimiento regular de la serie, a largo plazo, para establecer
una lnea de tendencia, que sea lo suficientemente vlida.
Variaciones estacinales (E): oscilaciones a corto plazo de perodo regular,
menor o igual a un ao.
Variaciones cclicas (C): movimientos a mediano plazo (superior al ao) en
torno a la tendencia, cuyo perodo y amplitud pueden presentar cierta
regularidad, crsis-recuperacin.
Variaciones irregulares (A): fluctuaciones debidas a factores eventuales,
espordicos e imprevisibles que no muestran una periodicidad reconocible.
Para describir cada una de las componentes, se hace uso de mtodos grficos y
esquemas o modelos. Un estudio grfico de los datos proporciona bastante informacin de
su evolucin a corto y largo plazo, y permite detectar la amplitud de las oscilaciones, la
presencia de ciclos, de valores anmalos, etc. Mediante los esquemas se trata de reproducir
la evolucin temporal segn una pauta regular que concuerde con los datos, sin intentar
explicar las causas de variacin de cada componente. Los esquemas utilizados
generalmente son dos:
Esquema aditivo: Yt = Tt + Et + Ct + At.
Esquema multiplicativo: Yt = Tt *Et * Ct * At
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
68
Para seleccionar el tipo de esquema ms adecuado, se puede utilizar varios mtodos
(grfico, grfico media desviacin tpica, etc.), el esquema ms utilizado con datos
econmicos es el multiplicativo; por ello, le prestaremos especial atencin en este manual.
Anlisis de la Tendencia
Consiste en expresar la tendencia mediante una funcin matemtica a partir de los
valores de la variable dependiente Y, en el tiempo t. Las funciones suelen ser de tipo lineal
o exponencial, y el ajuste se basa en el mtodo de los mnimos cuadrticos. Para el caso
lineal, consideremos dos situaciones:
1. Si se dispone slo de datos anuales, se define la tendencia anual de la serie como:
Tt = y t = a + bt
Donde a, b, son los parmetros a determinar.
2. Si se trabaja con datos mensuales, trimestrales, cuatrimestrales, etc. o con
cualquier otra periodicidad, es decir, se tienen datos del tipo [subperodos (i)/ aos
(t)], los pasos a seguir para llevar a cabo el clculo de las tendencias para cada
subperodo (i) del ao t, son los siguientes:
Se calculan las medias anuales (medias para cada ao de las k
observaciones)
k
y
y
k
i
ti
t
1
.
, t = t1, t2,tn
Se obtiene la tendencia media anual ajustando una recta a ese conjunto de
datos
Se calcula tT y la tendencia k-ensima Tt para cada subperodo i de cada
ao t, teniendo en cuenta que esta ltima es tambin lineal, y que el
incremento de un subperodo al siguiente es b/k dado que el incremento
anual es b, por lo tanto:
btayT tt
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
69
Tt = tT + [2
1ki ]b/k, i = 1, 2, ,k
Donde [2
1ki ], es el contador del nmero de subperodos entre el momento
central del ao t, y el punto central del subperodo i, dentro del mismo ao t.
A continuacin un ejemplo demostrativo:
Durante el ao 2000 las ventas de cemento (miles de toneladas) en la regin central,
arrojaron los siguientes resultados:
Ao: 2000 2001 2002 2003 2004
Regin central (Y) 7 9 8 5 3
Estime las ventas para el ao 2010 b) 20.
SOLUCIN
Ao: 2000 2001 2002 2003 2004
Regin central (Y) 7 9 8 5 3
(X) -2 -1 0 1 2
X*Y -14 -9 0 5 6
X2
4 1 0 1 4
0X Y = 6,4, luego se procede a evaluar la recta de mejor ajuste por el mtodo de
los mnimos cuadrados: XbaY donde b = )(.
)*.(.
XCS
YXCS
a = xby entonces: Y = 6,4 -0,011x donde Y = 6,4 -0,011(7) = 6,3 miles de toneladas.
Interpretacin: Se estima que de mantenerse la tendencia las ventas sern de6,3 m/t
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
70
CORRELACIN
Se llama Correlacin a la teora que trata de estudiar la relacin o dependencia que
existe entre las dos variables que intervienen en una distribucin bidimensional.
Correlacin lineal, segn el diagrama de puntos se condense en torno a una lnea recta.
Correlacin positiva o directamente proporcional, cuando a medida que crece una
variable la otra tambin crece.
Correlacin negativa o inversamente proporcional, cuando a medida que crece una
variable la otra decrece.
Correlacin nula, cuando no existe ninguna relacin entre ambas variables, en cuyo caso
los puntos del diagrama estn esparcidos al azar, sin formar ninguna lnea, tambin se dice
que las variables estn incorreladas.
La correlacin es de tipo funcional, s existe una funcin que satisface todos los valores
de la distribucin.
A continuacin se presenta varios diagramas de dispersin, indicando la relacin que existe
entre las variables X y Y.
Y
X
(a)
Y
X
(b)
Y
X
(c)
Y
X
(d)
Y
X
(e)
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
71
COEFICIENTES DE CORRELACIN.
1. Coeficiente de correlacin de Pearson:
Cuando comenzamos a hablar de serie bidimensionales, y adems observamos por
via intuitiva, mediante el diagrama de dispersin que existe una correlacin lineal entre las
variables tiene inters cuantificar de forma ms objetiva y precisa esta correlacin.
Podemos decir que las aplicaciones prcticas con series en las que ambas variables
son continuas y la escala de medicin son de tipo intervalo o de razn, por ejemplo salario
y unidades producidas, edad y tiempo de servicio, peso y estatura, ventas y cursos
realizados, etc. para estas combinaciones podemos aplicar el coeficiente de correlacin
de Pearson. y se pueden obtener mediante el siguiente modelo matemtico:
Rp = YCSXCS
YXCS
..*..
*..
El signo del coeficiente de Pearson, viene dado por el signo de la covarianza, ya que las
desviaciones tpicas son siempre positivas. As pues, el signo de la covarianza decide el
comportamiento de la correlacin:
Si la covarianza es positiva, la correlacin es directamente proporcional.
Si la covarianza es negativa, la correlacin es inversamente proporcional.
Si la covarianza es nula es decir vale cero (0), no existe correlacin.
Se demuestra que el coeficiente de correlacin lineal, es un nmero real comprendido entre
-1 y +1 [-1,+1]. Veamos que tipo de dependencia existe entre las variables X y Y, segn el
valor de r.
1. Si r=1, todos los valores de la variable bidimensional (X, Y) se encuentra situados
sobre una recta; en consecuencia, satisfacen la ecuacin de una recta. Entonces se dice que
entre la variables X e Y existe una dependencia aleatoria.
2. Si -1
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
72
3. Si r=0, no existe ningn tipo de relacin entre las dos variables. En este caso se dice
que las variable X e Y son aleatoriamente independientes.
4. Si 0
-
Anlisis de Datos Estadsticos
Autor: Prof. Juan Muoz
73
3.- Coeficiente de correlacin biserial puntual.
Una variable da lugar a medidas de intervalo o razn y la otra da lugar a medidas
nominales dicotmicas (por ejemplo el sexo, estado civil, presentacin de un examen, etc.)
por ejemplo podemos observar volumen de ventas en un mes (variable X) y ejecutivos
segn sexo (variable Y) asignando (1) a masculino y (0) a femenino. La observacin de
ambas variables, Ventas (X) y sexo (Y) dar dos puntuaciones por ejecutivos.
La relacin entre X y Y se puede calcular mediante el coeficiente producto-
momento de Pearson, a partir de los datos como se dan, y el resultado se denomina
coeficiente de correlacin biserial- puntual y lo simbolizaremos por rbp . El trmino de
biserial se refiere al hecho de que existe dos series de observaciones en Y; las puntuaciones
de cero o uno. Tanto el nombre como la frmula se deben a kart Pearson. y su modelo
matemtico es:
rbp = )1(
** 01
)0()1(
nn
nn
S
XX
Donde: )1(X es la media en X de las puntuaciones 1 en Y.
)0(X es la media en X de las puntuaciones 0 en Y.
Sx es la desviacin tpica de las n puntuaciones en X
n1 es el nmero de puntuaciones con valor 1 en Y
n0 es el nmero de puntuaciones con valor 0 en Y
n es el nmero total de sujetos observados tanto en 1 como en 0,n = n1 + n0
La interpretacin de este coeficiente es la misma que se dio al primer coeficiente
(Pearson).
4.- Coeficiente de correlacin Phi,
Este caso se presenta cuando dos variables son de tipo nominal dicotmica, es
decir, ambas variables son de tipo nominal con solo dos categoras que representan
presencia y ausencia, de una determinada caracterstica, sea por ejemplo cuando una de las
variables es sexo (solo reconocemos si el sujeto es de sexo masculino o no, lo que
entenderemos como femenino) y la otra variable es si vot o no, en una eleccin. En la
-
Anlisis de Datos Estadsticos