unidad i. conceptos básicos y estadística descriptiva prof. manuel cumba e
Post on 22-Jan-2016
246 Views
Preview:
TRANSCRIPT
Unidad I. Conceptos Básicos y Estadística Descriptiva
Prof. Manuel Cumba E.
Concepto de Estadística
Se refiere a un conjunto de métodos para manejar la obtención, presentación y análisis de observaciones numéricas.
Tem
a 1
. Intro
ducció
n
Concepto de Estadística
Sus fines son describir al conjunto de datos obtenidos y tomar decisiones o realizar generalizaciones acerca de las características de todas las observaciones bajo consideración.
Tem
a 1
. Intro
ducció
n
Áreas que conforman a la Estadística
Estadística Descriptiva (Deductiva): es la encargada de la organización, condensación, presentación de los datos en tablas y gráficos y del cálculo de medidas numéricas que permitan estudiar los aspectos más importantes de los datos.
Tem
a 1
. Intro
ducció
n
DESCRIBIRDESCRIBIR
Áreas que conforman a la Estadística
Estadística Inferencial o Inferencia Estadística: está definida por un conjunto de técnicas, mediante las cuales se hacen generalizaciones o se toman decisiones en base a información parcial obtenida mediante técnicas descriptivas.
Tem
a 1
. Intro
ducció
n
INFERIRINFERIR
Áreas de Aplicación de la Estadística
El uso de la Estadística es muy amplio. Resulta difícil nombrar un área en la cual no se emplee.
Los métodos estadísticos han encontrado aplicación en: Gobierno Negocios Ciencias Sociales Ingeniería Ciencias Física y Naturales Control de Calidad Procesos de Manufactura Muchos otros campos de la actividad intelectual.
Tem
a 1
. Intro
ducció
n
Áreas de Aplicación de la Estadística
Esto se debe a la creciente facilidad con la cual se pueden manejar grandes cantidades de datos numéricos, debido al uso de …
Tem
a 1
. Intro
ducció
n
Conceptos de Población y Muestra
Población: es la colección de todas las posibles mediciones u observaciones que pueden hacerse de una variable bajo estudio.
Tem
a 1
. Intro
ducció
n
Conceptos de Población y Muestra
Se clasifica en dos categorías: Finita: es aquella que incluye una
cantidad limitada contable de observaciones, individuos o medidas. Siempre que sea posible alcanzar (contar) el número total de todas las posibles mediciones, se considera como finita la población.
Tem
a 1
. Intro
ducció
n
Conceptos de Población y Muestra
Infinita: es aquella que incluye un gran conjunto de observaciones o mediciones que no pueden alcanzarse por conteo. Al menos, hipotéticamente, no existe límite en cuanto al número de observaciones que el experimento puede generar.
Tem
a 1
. Intro
ducció
n
Conceptos de Población y Muestra
Muestra: es un conjunto de mediciones u
observaciones tomadas a partir de una población.
es un subconjunto de la población. Tem
a 1
. Intro
ducció
n
Conceptos de Población y Muestra
Muestra aleatoria: se considera aleatoria siempre y cuando cada observación, medición o individuo de la población tenga la misma probabilidad de ser seleccionado. T
em
a 1
. Intro
ducció
n
Tipos de datos y escalas de medida
Variables: son las características o lo que se
estudia de cada individuo de la muestra. Ej: sexo, edad, peso, estatura, color de ojos, estado civil, temperatura, cantidad de nacimientos, presión, grosor, diámetro, ...
Datos: son los valores que toma la variable en
cada caso.
Tem
a 1
. Intro
ducció
n
Tipos de datos
Cualitativos: son datos que solo toman valores asociados a las cualidades o atributos, clasificándolos en una de varias categorías, es decir, no son valores numéricos. Ej: Sexo: f/m. Hábito de fumar: Fumador/No fumador Color de ojos: negro, azul, marrón, … Religión: católica, evangélica, … Estado civil: soltero, casado, divorciado,…
Tem
a 1
. Intro
ducció
n
Tipos de datos
Cuantitativos: provienen de variables que pueden medirse, cuantificarse o expresarse numéricamente. Ejemplos: Peso Edad Estatura Presión Humedad Intensidad de un sismo Cantidad de hermanos
Tem
a 1
. Intro
ducció
n
TEMA 2. ESTADÍSTICA DESCRIPTIVA
Organización de los datos
Una vez que se ha realizado la recolección de los datos, se obtienen datos en bruto, los cuales rara vez son significativos sin una organización y tabulación.
Tem
a 2
. Esta
dística
Descrip
tiva
Organización de los datos
Formas de organizar los datos: Un arreglo: es la forma más sencilla de
organizar los datos en bruto, consiste en colocar las observaciones en orden según su magnitud: ascendente o descendente.
Poco práctica cuando se tiene una gran cantidad de datos.
Tem
a 2
. Esta
dística
Descrip
tiva
Organización de los datos
Una distribución de frecuencias: es un arreglo de los datos que permite expresar la frecuencia de ocurrencias de las observaciones en cada una de las clases, mostrando el patrón de la distribución de manera más significativa.
Clase Pto.Medio
fi Fi fri FRi
Tem
a 2
. Esta
dística
Descrip
tiva
Organización de los datos
La Distribución de Frecuencias: Se recomienda su uso cuando se tienen
grandes cantidades de datos (n). Su construcción requiere, en primer
lugar, la selección de los límites de los intervalos de clase.
Para definir la cantidad de intervalos de clase (k), se puede usar:
La regla de Sturges: k = 1 + 3.3log(n) k = n
Tem
a 2
. Esta
dística
Descrip
tiva
Organización de los datos
La cantidad de clases no puede ser tan pequeño (menos de 5) o tan grande (más de 20), que la verdadera naturaleza de la distribución sea imposible de visualizar.
La amplitud de todas las clases deberá ser la misma. Se recomienda que sea impar y que los puntos medios tengan la misma cantidad de cifras significativas que los datos en bruto.
Los límites de las clases deben tener una cifra significativa más que los datos en bruto.
Tem
a 2
. Esta
dística
Descrip
tiva
Organización de los datos
Determinar: Punto medio = (Li+Ls)/2. Frecuencia absoluta de la clase (fi).
Frecuencia acumulada de la clase (Fi).
Frecuencia relativa de la clase (fri): fri = fi/n
Frecuencia relativa acumulada de la clase (FRi).
Tem
a 2
. Esta
dística
Descrip
tiva
A continuación se presentan las calificaciones de 60 estudiantes que presentaron la PINA en el año 2009:
Tem
a 2
. Esta
dística
Descrip
tiva
Ejemplos de Distribución de Frecuencias
23 60 79 32 57 74 52 70 82 3680 77 81 95 41 65 92 85 55 7652 10 64 75 78 25 80 98 81 6741 71 83 54 64 72 88 62 74 4360 78 89 76 84 48 84 90 15 7934 67 17 82 69 74 63 80 85 61
a) Construya una distribución de frecuencias.b) Qué puede concluir de estos datos.
Ejemplos de Distribución de Frecuencias
Representación gráfica de los datos
Los gráficos permiten visualizar en forma global y rápida el comportamiento de los datos.
Para datos cuantitativos agrupados en clases, comúnmente se utilizan tres gráficos: Histogramas. Polígono de frecuencias. Ojiva o Polígono de frecuencias acumuladas.
Tem
a 2
. Esta
dística
Descrip
tiva
Representación gráfica de los datos
Histograma
Representación gráfica de los datos
Tem
a 2
. Esta
dística
Descrip
tiva
Histograma y Polígono de Frecuencias
Ojiva
Representación gráfica de los datos
Tem
a 2
. Esta
dística
Descrip
tiva
Representación gráfica de los datos
Para datos cualitativos se usan: Curvas Barras Sectores
Tem
a 2
. Esta
dística
Descrip
tiva
Barras
Representación gráfica de los datos
Barras
Representación gráfica de los datos
Curvas
Representación gráfica de los datos
Sectores, torta o circular
Tem
a 2
. Esta
dística
Descrip
tiva
Ejemplos de construcción de gráficos T
em
a 2
. Esta
dística
Descrip
tiva
Medidas de tendencia central o posición
Corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos.
Forma como los datos pueden condensarse en un solo valor central alrededor del cual todos los datos muestrales se distribuyen.
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de tendencia central o posición
Las medidas de tendencia central más importantes son: Media: Aritmética y Aritmética
ponderada. Mediana. Moda.
Tem
a 2
. Esta
dística
Descrip
tiva
Media Aritmética
Es la suma de todas las observaciones dividida entre el número total de observaciones.
Expresada de forma más intuitiva, podemos decir que la media aritmética es la cantidad total de la variable distribuida a partes iguales entre cada observación. (wikipedia)
Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir la información de una distribución (dinero en el bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la variable. (wikipedia)
Tem
a 2
. Esta
dística
Descrip
tiva
Cálculo de la media aritmética
Para datos no agrupados:
n
xX
n
ii
1
Para datos agrupados:
n
fmX
k
iii
1
Donde: mi: punto medio de la clase i fi: frecuencia absoluta de la clase i
k: cantidad de clases
Tem
a 2
. Esta
dística
Descrip
tiva
Mediana
Es el valor que ocupa la posición central de un conjunto de observaciones, una vez que han sido ordenados en forma ascendente o descendente.
Divide al conjunto de datos en dos partes iguales.
Tem
a 2
. Esta
dística
Descrip
tiva
Cálculo de la mediana
Para datos no agrupados: Si n es impar: posición donde se ubica
la mediana es igual a (n+1)/2. Si n es par: (n+1)/2 no es entero, por lo
tanto la mediana será igual al promedio de las dos posiciones centrales.
Tem
a 2
. Esta
dística
Descrip
tiva
Cálculo de la mediana
Datos agrupados: clase mediana es la que contiene a la observación que ocupa la posición n/2.
Cmxf
xFn
LmMdm
m
)(
)(21
1
Donde: Lm: límite inferior de la clase mediana. F(xm-1): frecuencia acumulada de la clase anterior a la clase mediana. f(xm): frecuencia absoluta de la clase mediana. Cm: amplitud de la clase mediana.
Tem
a 2
. Esta
dística
Descrip
tiva
Moda
Observación o clase que tiene la mayor frecuencia en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal, bimodal o multimodal.
Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.
Tem
a 2
. Esta
dística
Descrip
tiva
Cálculo de la moda
Para datos no agrupados: es simplemente la observación que más se repite.
Para datos agrupados:
CmLimMo21
1
Donde: Lim: límite inferior de la clase modal. 1: diferencia entre fi de la clase modal y la anterior. 2: diferencia entre fi de la clase modal y la posterior. Cm: amplitud de la clase modal (clase de mayor frecuencia).
Tem
a 2
. Esta
dística
Descrip
tiva
Relación entre la media, la mediana y la moda
Tem
a 2
. Esta
dística
Descrip
tiva
Cuando los datos son sesgados es mejor emplear la Md
Cuantiles
Los cuantiles son medidas de posición “no central” que se utilizan con mayor frecuencia y se emplean sobre todo para resumir o describir las propiedades de conjuntos grandes de datos numéricos.
Cuartiles Deciles Percentiles
Tem
a 2
. Esta
dística
Descrip
tiva
Cuartiles
De la misma manera que la mediana divide un conjunto de datos en dos grupos iguales, los cuartiles lo dividen en cuatro grupos iguales.
Cada grupo está formado por 25% de los datos de la muestra y se denotan por Q1, Q2 y Q3 respectivamente
25% 25% 25% 25%
Q1 Q2 Q3
Tem
a 2
. Esta
dística
Descrip
tiva
Cuartiles
La obtención de los cuartiles depende del número de datos de la muestra; se utilizan los mismo conceptos del cálculo de la mediana. Las fórmulas para cada los cuartiles 1 y al vienen a ser:
)4)1(3
(
)4)1(2
(
)41
(
3
2
1
niónValorPosicQ
niónValorPosicQ
niónValorPosicQ
Tem
a 2
. Esta
dística
Descrip
tiva
Se define en minutos el tiempo que le lleva arreglarse, desde que se levanta hasta que sale de casa. A lo largo de 10 días hábiles consecutivos, Usted recaba los tiempos (redondeados a minutos) que se muestras a continuación
39 29 43 52 39
44 40 31 44 35
Tem
a 2
. Esta
dística
Descrip
tiva
Cuartil 1
Tamaño de la muestra N=10
2-200835
)3(
)75.2(
)4110
(
)41
(
1
1
1
1
1
Q
VPQ
VPQ
VPQ
nVPQ
33
29
31
35
39
39
40
43
44
44
52
Tem
a 2
. Esta
dística
Descrip
tiva
Tamaño de la muestra N=10
5.3924039
)5.5(
)4)110(2
(
)41
(
2
2
2
2
1
Q
Q
VPQ
VPQ
nVPQ
29
31
35
39
39
40
43
44
44
52
Cuartil 2
5.55.5
Tem
a 2
. Esta
dística
Descrip
tiva
44
)8(
)25.8(
)4)110(3
(
)41
(
3
3
3
3
1
Q
VPQ
VPQ
VPQ
nVPQ
Cuartil 3
88
29
31
35
39
39
40
43
44
44
52
Tamaño de la muestra N=10
Tem
a 2
. Esta
dística
Descrip
tiva
2-200851
Deciles
Los deciles dividen una muestra en 10 grupos iguales y cada decil acumula el 10% de los
datos.
Se trabajan igual que los cuartiles
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
Tem
a 2
. Esta
dística
Descrip
tiva
2-200852
Percentiles
Los percentiles dividen una muestra en 100 grupos iguales y cada percentil acumula el 1%
de los datos.
Se trabajan igual que los cuartiles y deciles
1% 1% 1% 1% 1% 1% 1%
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de dispersión, variación o variabilidad.
Son valores numéricos que indican o describen la forma en que las observaciones están dispersas o diseminadas, con respecto al valor central.
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de dispersión, variación o variabilidad.
Son importantes debido a que dos muestras de observaciones con el mismo valor central pueden tener una variabilidad muy distinta.
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de dispersión, variación o variabilidad.
Rango. Varianza. Desviación Típica. Coeficiente de variación.
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de dispersión: Rango
Rango (amplitud o recorrido): Está determinado por los dos
valores extremos de los datos muestrales, es simplemente la diferencia entre la mayor y menor observación.
Es una medida de dispersión absoluta, ya que depende solamente de los datos y permite conocer la máxima dispersión.
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de dispersión: Rango
Casi no se emplea debido a que depende únicamente de dos valores.
No proporciona una medida de variabilidad de las observaciones con respecto al centro de la distribución.
Notación: R
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de dispersión: Varianza
Es un valor numérico que mide el grado de dispersión relativa porque depende de la posición de los datos x1,x2,…,xn con respecto a la media.
Es el promedio al cuadrado de las desviaciones de cada observación con respecto a la media.
Notación: s2, 2, var(X)
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de dispersión: Varianza
Si la varianza de un conjunto de observaciones es grande se dice que los datos tiene una mayor variabilidad que un conjunto de datos que tenga un varianza menor.
21
2
2
1
2
2
xn
xs
n
xxs
n
ii
n
ii
Tem
a 2
. Esta
dística
Descrip
tiva
Para datos NOagrupados:
Para datos agrupados en una distribución de frecuencias:
Medidas de dispersión: Varianza
21
2
2
1
2
2
xn
fms
n
fxms
k
iii
k
iii
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de dispersión: Desviación Típica
Es la raíz cuadrada de la varianza. Notación: s, .
2ss
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de dispersión: Coeficiente de Variación
Es una medida de dispersión relativa que permite comparar el nivel de dispersión de dos muestras de variables estadísticas diferentes.
No tiene dimensiones. Notación: CV
%100x
sCV
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de Forma: Asimetría
Permiten estudiar la forma de la curva, dependiendo de cómo se agrupan los datos. T
em
a 2
. Esta
dística
Descrip
tiva
Medidas de Forma: Kurtosis
Miden si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra (zona central de la distribución).
Se definen tres tipos de distribución según su grado de Kurtosis:
Tem
a 2
. Esta
dística
Descrip
tiva
Medidas de Forma: Kurtosis
Mesocúrtica: grado de concentración medio alrededor de los valores centrales de la variable.
Leptocúrtica: grado de concentración elevado.
Platicúrtica: grado de concentración reducido.
Tem
a 2
. Esta
dística
Descrip
tiva
Una distribución o densidad de probabilidad de una variable aleatoria x es la función de distribución de la probabilidad de dicha variable Área de curva entre 2 puntos representa la
probabilidad de que ocurra un suceso entre esos dos puntos.
Distribuciones probabilidad pueden ser discretas o continuas, de acuerdo al tipo de.
Hay infinidad distribuciones probabilidad, pero hay ciertas distribuciones “modelo”: Normal
Distribuciones de Probabilidad
La Distribución Binomial
Se utiliza en situaciones cuya solución tiene dos posibles resultados. Al nacer un/a bebé puede ser varón o hembra.En el deporte un equipo puede ganar o perder.Un tratamiento médico puede ser efectivo o inefectivo.Vivo / muerto; enfermo / sano; verdadero / falsoPrueba múltiple 4 alternativas: correcta o incorrecta.Algo puede considerarse como Éxito o Fracaso
Propiedades de un experimento de Binomial
1. En cada prueba del experimento sólo hay dos posibles resultados: Éxitos o Fracasos.
2. El resultado obtenido en cada prueba es independiente de los resultados obtenidos en pruebas anteriores.
3. La probabilidad de un suceso (p) es constante y no varía de una prueba a otra.
4. La probabilidad del complemento (1- p) es q .
Si repetimos el experimento n veces podemos obtener los datos para armar una distribución Binomial.
La función P(x=k)Función de la distribución Binomial:
k = número de aciertos. n = número de experimentos. p = probabilidad de éxito, como por
ejemplo, que salga "cara" al lanzar la moneda.
1-p = “q”
Ejemplo 1
¿Probabilidad de obtener 6 caras al lanzar una moneda 10 veces?
El número de aciertos k es 6. Esto es x=6 El número de experimentos n son 10 La probabilidad de éxito p = 0.50
P (k = 6) = 0.205 Es decir, que la probabilidad de obtener 6 caras
al lanzar 10 veces una moneda es de 20.5% .
Distribución hipergeométrica
En estadística la Distribución hipergeométrica es una distribución de probabilidad discreta con tres parámetros discretos N, d y n cuya función de probabilidad es:
Aquí, se refiere al coeficiente binomial, o al número de combinaciones posibles al seleccionar b elementos de un total a.
Esta distribución se refiere a un espacio muestra donde hay elementos de 2 tipos posibles. Indica la probabilidad de obtener un número de objetos x de uno de los tipos, al sacar una muestra de tamaño n, de un total de N objetos, de los cuales d son del tipo requerido.
Ejemplo
1. En un lote de productos se tienen 20 productos sin defectos, 3 con defectos menores y 2 con defectos mayores, se seleccionan al azar 5 productos de este lote, determine la probabilidad de que a) 3 de los productos seleccionados no tengan defectos y 1 tenga defectos menores,
b) 4 de los productos seleccionados no tengan defectos y 1 tenga defectos menores.
128741053130
6840
53130
231140513
525
1213320 .))()((
C
C*C*C)n,y,x(p
27357053130
14535
53130
134845
514525
0213420
.))()((
C
C*C*C)n;y,x(p
REGRESION LINEAL SIMPLE
Una de las aplicaciones mas importantes de la estadística implica la estimación del valor medio de una variable de respuesta y o la predicción de algún valor futuro de y con base el conocimiento de un conjunto de variables independientes relacionadas, x1, x2, . . . xk.
Los modelos que se emplean para relacionar una variable dependiente y con las variables independientes x1, x2, . . . xk se denominan modelos de regresión o modelos estadísticos lineales porque expresan el valor medio de y para valores dados de x1, x2, . . . xk como una función lineal de un conjunto de parámetros desconocidos.
Los conceptos de análisis de regresión se presentan empleando un modelo de regresión muy sencillo, uno que relaciona y con una sola variable x. Aprenderemos a ajustar este modelo a un conjunto de datos mediante el método de los mínimos cuadrados
Un tipo de modelo probabilístico, el modelo de regresión lineal simple, supone que el valor medio de y para un valor dado de x se grafica como una línea recta y que los puntos se desvían de esta línea de medias en una cantidad aleatoria (positiva o negativa) igual a
Modelo de regresión lineal simple (probabilístico)
Si queremos ajustar un modelo de regresión lineal simple a un conjunto de datos, debemos encontrar estimadores para los parámetros desconocidos, 0 y 1.
Ejercicio:
Con esta información encontrar la ecuación de la línea recta E(y)=?
Embarque 1 2 3 4 5 6 7 8 9 10
Distancia (km)
x
825
215
1070
550
480
920
1350
325
670
1215
Tiempo (dias) y
3.5 1.0 4.0 2.01.0 3.0 4.5 1.53.0 5.0
X Y XY X2 Y2
1 825 3.5 2287.5 680625 12.25
2 215 1.0 215.0 46225 1.00
3 1070 4.0 4280.0 1144900 16.00
4 550 2.0 1100.0 302500 4.00
5 480 1.0 480.0 230400 1.00
6 920 3.0 2760.0 846400 9.00
7 1350 4.5 6075.0 1822500 20.25
8 325 1.5 487.5 105625 2.25
9 670 3.0 2010.0 448900 9.00
10 1215 5.0 6075.0 1476225 25.00
7620 28.5 26370 7104300 99.75
2221 )762(107104300
)85.2)(762(1026370ˆ
xnX
yxnXY
SS
SS
xx
xy
xxy 0036.011.0ˆˆˆ 10
2221 )762(107104300)85.2)(762(1026370ˆ
xnX
yxnXY
SS
SS
xx
xy
0036.01̂
xy 10ˆˆ
11.0)762(0036.085.2
top related