estadistica primera parte
Post on 16-Jun-2015
19.916 Views
Preview:
TRANSCRIPT
Estadística
Una forma de adquirir conocimiento
Prof. EEC Angel LuisVicentín
Conceptos básicos• Población: conjunto completo de individuos, objetos o datos
que el investigador está interesado en estudiar.– Muestra: Subconjunto de la población.
• Variable: Cualquier propiedad o característica de algún evento, objeto o persona, que puede tener diversos valores en diferentes instantes según las condiciones. – Independiente: es aquella que es controlada por el
investigador.– Dependiente: es la que mide el observador. Mide el efecto
que la variable independiente ejerce sobre ésta.• Dato: es el resultado de la medición hecha sobre un evento o
fenómeno. • Estadístico: valor calculado a partir de los datos de una
muestra. • Parámetro: valor calculado a partir de los datos de una
población. Prof. EEC Angel Luis Vicentín
Prof. EEC Angel Luis Vicentín
Estadística Descriptiva:Estudia las técnicas que utilizan los datos
muestras obtenidos para hacer inferencias sobre poblaciones.
Estadística Inferencial:Involucra las técnicas que se emplean para
obtener datos muestrales y, a partir de ellas, hacer inferencias sobre sus respectivas poblaciones
Las Técnicas Estadísticas son importantes tanto para los estudios observacionales, como los
experimentos reales
Escalas
• Nominales: Asigna nombres a los distintos valores que asume una variable.
• Ordinales: Asigna un orden a los distintos valores de la variable.
• De Intervalos: Asigna un número. Escalas numéricas sin cero absoluto.
• De proporción: Asigna un número. Escala numérica con cero absoluto.
Prof. EEC Angel Luis Vicentín
Variables• Continua: es aquella que, en teoría, puede
asumir un número infinito de valores entre unidades adyacentes de una escala.
• Discreta: es aquella para la cual no existen valores posibles entre las unidades adyacentes de una escala.
• Deterministica: es aquella cuyo valor estáfijado por el comportamiento de otra.
• Aleatoria: es aquella cuyo valor no puede ser determinado por el comportamiento de otra. Prof. EEC Angel Luis Vicentín
Distribución de Frecuencias• Es una tabla donde se presenta los valores
de los datos y su frecuencia de aparición.– Ej: Notas de los alumnos de Lic.enEd. Física:
Prof. EEC Angel Luis Vicentín
Notas Frecuencia10 1
9 28 37 46 55 64 73 82 91 10
Distribución de Frecuencias
• Sin Agrupamientos: por la cantidad de mediciones no se justifica agrupar las frecuencias.
• Agrupadas: se agrupan los datos por intervalos de clases. Ej: los grupos etáreos.– Rango = Dato máximo – Dato mínimo– Amplitud de intervalo = Rango
Cantidad de intervalosProf. EEC Angel Luis Vicentín
Frecuencias agrupadasPara construir una tabla de Frecuencias
agrupadas procedemos:1. Determinar el Rango de los datos.2. Determinar la Amplitud de cada intervalo. 3. Enumerar los límites de cada intervalo de
clase, colocando el intervalo que contiene al dato mínimo en la parte inferior.
4. Contar los datos en bruto en los intervalos de clase adecuados
5. Sumar las cuentas de cada intervalo para hallar las frecuencias de cada intervalos
Prof. EEC Angel Luis Vicentín
Frecuencias AGrupadas
Prof. EEC Angel Luis Vicentín
Supongamos que un grupo de 70 alumnos fueron evaluados con un examen. La escala de las notas van de 0 a 100. Se obtuvieron 70 notas cuyo valor máximo fue de 99 y el mínimo de 46 Por lo tanto el rango de datos es: Rango =99-46 = 53 y la amplitud del intervalo es:
53I = ---------------- = 5.3
10
Que se redondea a 5.
Distribución de Frecuencias • Distribución de Frecuencias Relativas indica la
proporción del número total de datos que aparecen en cada intervalo.
• Distribución de Frecuencias Acumuladas indica el número de datos que caen por debajo del límite real superior de cada intervalo.
• Distribución de porcentajes acumulados indica el porcentaje de datos que caen por debajo del límite real superior de cada intervalo
• Punto percentil: es el valor sobre la escala de medida, debajo del cual cae un porcentaje dado de los datos en la distribución.
Prof. EEC Angel Luis Vicentín
Calculo de PercentilesLos percentiles, entregan la idea de "posición" de los
datos, es decir, avisan a partir de qué observación o intervalo de clase se ha acumulado un determinado porcentaje de observaciones. Cuando hablemos de percentil de orden k, significa que debemos identificar una observación (caso discreto) o un intervalo de clase (caso continuo) de tal manera que la frecuencia asociada a ese valor lleva acumulado el k% de las observaciones.
Por ejemplo:• Me interesa saber, cuál fue la nota que el 50 % (o el
30% o el 75%) de los alumnos la superó ( o no la superó)? Prof. EEC Angel Luis Vicentín
Intervalo de Clase
f fr fA fA %
95 – 99 4 0.06 70 100.0090 – 94 6 0.09 66 94.2985 – 89 7 0.10 60 85.7180 – 84 10 0.14 53 75.71 Acá está 75º punto percentil75 – 79 16 0.14 43 61.43 Acá está el 50º punto percentil70 – 74 9 0.23 27 38.5765 – 69 7 0.13 18 25.71 Acá está el 25º punto percentil60 – 64 4 0.10 11 15.7155 – 59 4 0.06 7 10.0050 – 54 2 0.03 3 4.2945 – 49 1 0.01 1 1.43
N= 70 1.00
Prof. EEC Angel Luis Vicentín
Prof. EEC Angel Luis Vicentín
Pk = XL + (i/fi) (fP acumulada – fL acumulada)
Pk :Punto k-esimo percentilXL :Valor del límite real inferior del intervalo que contiene el punto percentil.i : Amplitud del Intervalo.fi : Frecuencia del Intervalo que contiene el punto percentil.fP acumulada: frecuencia de datos que están por debajo del punto percentil.fL acumulada: frecuencia de datos que está por debajo del límite real del intervalo que contiene al punto percentil.Punto percentil 50 P50 = 77,00
Rangos Percentiles
• Es el porcentaje de datos con valores menores que el del dato en cuestión.
• Es el valor “opuesto” al punto percentil, ahora sabemos el punto percentil y debemos calcular el porcentaje de datos que están por debajo de él. Ej: cuántos alumnos sacaron menos de 75 puntos?
Prof. EEC Angel Luis Vicentín
fL acumulada + (fi /i) ( X – XL ) • Rango Percentil = ----------------------------------------------------- x 100
N
• fL acumulada: frecuencia de datos que está por debajo del límite real del intervalo que contiene al punto percentil.
• XL :Valor del límite real inferior del intervalo que contiene el punto percentil.
• i : Amplitud del Intervalo.• fi : Frecuencia del Intervalo que contiene el punto percentil.• fP acumulada: frecuencia de datos que están por debajo del punto
percentil.• Rango percentil de 86 = 78,71
Prof. EEC Angel Luis Vicentín
Cálculo de Rangos Percentiles
Gráficos de las distribuciones de frecuencias
• Una gráfica cartesiana tiene 2 ejes en ángulo recto. Eje X (horizontal, abscisas), eje Y (vertical, ordenadas).
• Cada eje tiene una unidad de medida. • En el eje X se localizan los datos y en el otro
eje la característica que se quiere medir. • Tener en cuenta la escala con que se miden
los datos.• Cada eje tiene un rótulo que indica qué se
mide y con qué escala. Título. Prof. EEC Angel Luis Vicentín
Gráficos de Barras
• Usualmente para escalas nominales
Prof. EEC Angel Luis Vicentín
El HistogramaEs un caso de gráfico de barras, utilizado para
representar datos agrupados y/o en escala de proporciones. Los intervalos se representan en el eje X. Cada barra representa la frecuencia de un intervalo.
Prof. EEC Angel Luis Vicentín
Se marca el punto medio de cada barra, luego se unen los puntos y se extiende un “intervalo”contiguo con frecuencia 0.
Curva de Frecuencias
• Las distribuciones de frecuencias acumuladas absolutas y de porcentajes también se pueden graficar.
Prof. EEC Angel Luis Vicentín
Formas
Prof. EEC Angel Luis Vicentín
Diagrama de tallos y hojas
• Son alternativas sencillas de histogramas.
Prof. EEC Angel Luis Vicentín
95 57 76 93 86 80 89
76 76 63 74 94 96 77
65 79 60 56 72 82 70
67 79 71 77 52 76 68
72 88 84 70 83 93 76
82 96 87 69 89 77 81
87 65 77 72 56 78 78
58 54 82 82 66 73 79
86 81 63 46 62 99 93
82 92 75 76 90 74 67
Diagrama de Tallo y Hojas
4 6
5 2 4 6 6 7 8
6 0 2 3 3 5 5 6 7 7 8 9
7 0 0 1 2 2 2 3 4 4 5 6 6 6 6 6 6 7 7 7 7 8 8 9 9 9
8 0 1 1 2 2 2 2 2 3 4 6 6 7 7 8 9 9
9 0 2 3 3 3 4 5 6 6 9
Medidas de Tendencia central
• Son medidas que permiten describir el comportamiento de una distribución. Se llaman así porque determinan valores centrales de la distribución. Sirven para cuantificar y comparar distribuciones de frecuencias.
• La Media Aritmética ( promedio ) X• La Mediana (P50) Me• La Moda Mo
Prof. EEC Angel Luis Vicentín
La Media Aritmética• Es la suma de los datos dividido la
cantidad de datos. X = Σ xi = x1 + x2+ …+ xn
N N μ: en el caso de población.
Prof. EEC Angel Luis Vicentín
Propiedades de la media aritmética• La media es sensible al valor exacto de TODOS
los datos de la distribución. • La suma de las desviaciones con respecto a la
Media es 0. Σ (xi – X) = 0. La media es el punto de equilibro de la distribución.
• La Media es muy sensible a los datos extremos. • La suma de los cuadrados de las desviaciones
de todos los datos con respecto a su media es mínima. Σ (xi – X)2
• De todas las MTC la Media es la que menos sujeta está a la variación debido al muestreo.
Prof. EEC Angel Luis Vicentín
La Media Global• La media de varios grupos de datos es igual a
la suma del producto entre la cantidad de datos de cada grupo por la media de ese grupo dividido la suma de las cantidades.
X global = Σ ni Xi
Σ ni
X global = n1 X1 + n2X2 +…+ntXtn1+n2+…..+nt
Prof. EEC Angel Luis Vicentín
La Mediana • Me o Mdn• Es el valor de la escala debajo del cual está
el 50 % de los datos. Es igual a P50
• La mediana es el dato central, si el número de datos es impar.
• Si el número de datos es par, la Me meconsidera el promedio de los datos centrales.
Prof. EEC Angel Luis Vicentín
Propiedades de la mediana
• La Me es menos sensible que la Media a los datos extremos.
• La Me está mas sujeta a la variabilidad de la muestra que la Media. La Me es menos estable que la Media, de una muestra a otra por lo tanto no es tan útil para la estadística inferencial. Prof. EEC Angel Luis Vicentín
Datos Media Mediana3,4,6,7,10 6 63,4,6,7,100 24 63,4,6,7,1000 204 6
La Moda
• Es el dato mas frecuente. Mo.• Se halla observando los datos. En datos
agrupados es el punto medio del intervalo que contiene la mayor frecuencia.
• Distribuciones unimodales: tienen una sola Mo.
• Distribuciones bi o polimodales: tienen dos o mas Mo.
• Es la menos usada de las MTC, ya que es la menos estable de una distribución a otra. Prof. EEC Angel Luis Vicentín
MTC y simetría
Prof. EEC Angel Luis Vicentín
Me =Mo = X Mo Me X
X Mo Me
Medidas de Variabilidad
• La variabilidad tiene que ver con qué tan alejados están los datos de la Media.
• Cuantifican la extensión de la dispersión de los datos respecto a la Media.
• Existen tres medidas mas usadas: – El Rango– La Desviación Estándar– La Varianza
El Rango
• Se define como la diferencia entre el dato máximo y el dato mínimo de una distribución.
• Es fácil de calcular.• Proporciona una medida, relativamente
inexacta de la dispersión, porque solo mide la dispersión de los datos extremos y no de los intermedios.
• Es sensible a los datos extremos.
La Desviación Estándar• El Puntaje de Desviación nos permite saber qué
tan lejos está un dato en bruto con respecto a la Media de la distribución.
• Es la diferencia (resta) entre cada valor y su Media.
• La suma de los puntajes de desviación es igual a 0.
• Se aplica la siguiente fórmula:
S = Σ (xi – X)2
N - 1
Cálculo de la Desviación Estándar
x x - X (x – X)2
2 -4 16 Σ (xi – X)2
S =N – 1
40S = = 3,16
4
4 -2 46 0 08 2 4
10 4 160 40
La Varianza
• Es el cuadrado del desvío estándar. S2
• Es utiliza en la estadística inferencial.
• Tener en cuenta:
Medida Muestra Población
MediaAritmética X μ
Desviación estándar s σ
Varianza s2 σ2
La Curva Normal
• Es una curva teórica de los datos de una población en forma de campana.
NY = e –(x-μ)2/2σ2
2πσ
0
5
10
15
20
25
30
35
40
45
0 2 4 6
Correlación• Se usa para comparar si los datos de una
distribución se relacionan con las de otras.• Si dos variables están relacionadas, una
podría ser causa de la otra. • La correlación se ocupa principalmente,
de establecer si existe una relación, asícomo determinar su magnitud y dirección.
• La regresión lineal se encarga, principalmente, de efectuar predicciones.
• Sirve para determinar la confiabilidad de un test.
Relaciones• Una gráfica de dispersión es una gráfica de parejas de
valores de X y valores de Y.• Una relación lineal entre dos variables es aquella que
puede representarse con la mejor exactitud posiblemediante una línea recta.
Salto en largo
33,23,43,63,8
44,24,44,64,8
5
1,6 1,65 1,7 1,75 1,8 1,85 1,9 1,95
Altura
Mar
ca d
e Sa
lto
Alumnos Altura Salto en largo
1 1,65 3,97
2 1,70 3,85
3 1,75 4,01
4 1,80 4,21
5 1,85 4,18
6 1,90 4,22
Relaciones• Relación Positiva: indica que existe una
relación directa ( X aumenta, Y también) entre las variables.
• Relación Negativa: indica que hay una relación inversa ( X aumenta, Y disminuye), entre las variables.
• Relaciones Perfectas: todos los puntos caen sobre la recta.
• Relaciones imperfectas: no todos los puntos caen sobre la recta.
• Es mas común este tipo de relaciones.
Correlación• Trata la dirección y el grado de la relación.• El grado puede ser: desde perfecto a no
existir relación• La dirección podrá ser positiva o negativa.• Coeficiente de Correlación lineal r de
Pearson.• r cerca de -1 entonces relación negativa perfecta• r cerca de 0 entonces no existe relación• r cerca de +1 entonces existe relación positiva
Coeficiente r de Pearson
Σ xy – Σx Σ y N
r =(Σx)2 (Σy)2
Σ x2- Σ y2-N N
• También permite expresar la variabilidad de Y explicada por medio de X. ( valores reales vs. Valores obtenidos por la relación )
• Yi – Y = ( Yi – Y’ ) + (Y’ – Y )
Desviación de YiError en la predicción que utiliza la relación entre X e Y
Desviación de Yiexplicada mediante la relación entre X e Y
• Σ(Yi – Y)2 = Σ ( Yi – Y’ )2 + Σ (Y’ – Y )2
Σ (Y’ – Y )2 proporción de la • r = variable Y
Σ(Yi – Y)2 explicada por X
Variabilidad total de Y
Variabilidad total de los errores de predicción
Variabilidad de Y por el efecto de X
Coeficiente r2
• Es el coeficiente de determinación• r2 = es igual a la proporción de la
variabilidad total de Y de la que da cuenta, o es explicada por X.
• El coeficiente r y r2 pueden utilizarse en escala de proporción.
• Existen otros coeficientes de correlación que se pueden aplicar en otras escalas.
Interpretación de la Correlación• Que haya correlación entre 2 variables
puede darse porque:– La correlación entre X e Y sea espuria
• Mala toma de datos• Errores de cálculo• Datos no representativos
– Que X es la causa de Y – Que Y es la causa de X– Que haya otra variable que cause la
correlación entre X e Y.
Regresión Lineal• Analiza la relación entre 2 o mas variables para
determinar una predicción.• La Correlación mide la magnitud y la dirección de
la relación. • La Regresión Lineal determina cómo se predice
el comportamiento, sobre todo cuando la relación no es perfecta.
• Método de los mínimos cuadrados: es la línea de predicción que hace mínima las diferencia entre los valores observados y los obtenidos de la relación
Construcción de la recta de regresión por mínimos cuadrados
La ecuación de la línea de regresión por mínimos cuadrados está dada por:
Y’ = bY X+ aY
Σ XY – (ΣX) (ΣY)N
bY = aY= Y – bY XΣX2 – (ΣX)2
N
Y’ es el valor predicho o estimado de YbY es la pendiente de la recta que minimiza los errores de predicción de Y.aY es la ordenada al origen de la recta que minimiza los errores de predicción de Y.
Regresión de X sobre Y
• Y’ = bY X+ aY significa que los valores de Y se “predicen” a partir de los valores de X.
• También se puede hacer lo opuesto, es decir predecir X a partir de valores observados de Y.
• X’ = bx Y+ ax X’ es el valor predicho o estimado de Xbx es la pendiente de la recta que minimiza los errores de predicción de X.ax es la ordenada al origen de la recta que minimiza los errores de predicción de Y.
Σ XY – (ΣX) (ΣY)N
bY = ΣY2 – (ΣY)2
N
ax= X – bY Y
Error Estándar de la Estimación
• Siempre hay errores en la predicción. • Es útil conocer ese error. • El error estándar de la estimación nos da la
medida de la desviación promedio de los errores de predicción en torno a la línea de regresión.
Σ(Y – Y’)2
• S nx =N - 2
top related