estad libro de estadistica
Post on 02-Aug-2015
169 Views
Preview:
TRANSCRIPT
CONCEPTO DE ESTADISTICA
La estadística es un conjunto de técnicas, mediante las cuales se recopilan, organizan, presentan y analizan datos, con el fin de obtener conclusiones validas sobre el comportamiento presente o futuro de algo. La estadística moderna esta orientada a la toma de decisiones en condiciones de incertidumbre
La estadística se divide en dos ramas:
Estadística descriptivaEstadística inductiva
ESTADISTICA DESCRIPTIVA
La estadística es su forma mas simple consiste en una colección de datos calificados según un criterio. Otras veces se refiere a ella como una técnica para recopilar datos, clasificarlos, ordenarlos, compararlos, etc. Este procedimiento, se denomina proceso estadístico y se puede resumir en los pasos siguientes:
1. Elección de la unidad estadística2. Recolilacion análisis y presentación de los datos3. Ordenación de los datos4. Determinación las medidas de posición y de calculo5. Representación grafica6. análisis y predicción de resultados7. análisis de errores
ESTADISTICA INDUCTIVA O INFERENCIAL
Cuando una muestra es representativa de una población se puede deducir importantes conclusiones acerca de esta, a partir de su análisis. La inferencia comprende aquellas técnicas por medio de las cuales se toman decisiones sobre una población estadística basadas solo en la MUESTRA OBSERVAD. Debido a dichas decisiones se toman en conclusiones de incertidumbre entonces estas serán confiables con cierto grado de probabilidad.
POBLACION Y MUESTRA
POBLACIONLa población o universo es el conjunto de elementos que tienen
características de identificación comparables en cada estudio, es el total de individuos u objetos que se desean investigar. Cada uno de los datos corresponde a un individuo
MUESTRA
La muestra es un parte del total de la población, se utiliza frecuentemente cuando esta es numerosa, infinita o muy difícil de contar.Una medida de resumen que se calcula para describir una característica de la totalidad de una población se llama parámetro, y aquella que se calcula para describir una característica de una muestra de la población de llama estadístico.
ETAPAS DE LA INVESTIGACION ESTADISTICA
No existe ningún ordenamiento específico en el cual se puedan incluir todas las situaciones particulares del trabajo estadístico. Sin embargo, en la mayoría de casos de la investigación estadística se define las siguientes etapas.
PlanificaciónObtención de la informaciónRevisión o rectificación de la informaciónClasificación, tabulacion y presentación de la informaciónObtención de conclusiones y juicios validos sobre lo que se investiga
PLANIFICACION
La planificación es el punto de partida de toda investigación. En esta etapa de debe definirse ¿Qué investigar?, ¿se realizara dicha investigación?, ¿Cómo se realizara? Con la obtención de estas definiciones se estará en la capacidad de programar y calendarizar la investigación. Esta etapa tiene estrecha relación con el plan de investigación.
OBTENCION DE LA INFORMACION
Es la etapa más importante de la investigación estadística, ya que de ella depende el resultado final del trabajo. Debe ser lo mas significativa posible si la información se obtiene por muestreo. Los medios típicos para obtener información son: personal y por correo.
REVISION O RECTIFICACION DE LA INFORMACION
Esta etapa es indispensable realizarla debido a que, toda toma de información, realizada incluso por persona especialista, no escapa a estar expuesta a algunos errores, que por muy sencillos que sean le restan validez a la investigación.
CLASIFICACION, TABULACION Y PRESENTACIÓN DE LA INFORMACION
Clasificaciones más comunes son: cronológica, cualitativa, numérica y geográfica
CRONOLOGICALa base de clasificación es el tiempo.Ejemplo:
Tabla 1.1 de estudiante que ingresaron a la universidadDesde el año 1997 al 2001
CUALITATIVA
La base de la agrupación es algún atributo o cualidad de los elementos a analizar.Ejemplo:
Tabla 1.2 clasificación de las secretarias según comportamiento
Comportamiento No. de secretariasExcelente 10Bueno 6Regular 7Malo 5
NUMERICA
Año No. de estudiantes egresados1997 15001998 8001999 7002000 10002001 2300
Se toma como base de la agrupación una variable numérica dividida en intervalos. Ejemplo:
Tabla 1.3 ingreso familiar de 100 familias en el área ruralIngreso No. de familias50-59 3060-99 20
100-124 18
GEOGRAFICA
Se toma como base algún aspecto geográfico.Ejemplo:
Tabla 1.4 cantidad de accidentes automovilísticos ocurridos durante la presente semana
Región del país No de accidentes ocurridosOriental 30Occidental 20Norte 18Sur 15Central 17
TEXTUAL
Es la forma menos empleada par tal fin, consiste en presentar la información en un párrafo o texto.
OBTENCION DE CONCLUCIONES Y JUICIS VALIDOS SOBRE LO QUE SE INVESTIGA
En esta etapa de la investigación estadísticas e concentra todas las técnicas de análisis. Se calcula las medidas de tendencia central, de dispersión y de correlación de variables en análisis y con base a ellas se aceptan o rechazan conjeturas, con lo cual se hace posible la obtención de conclusiones que pueden apuntar como reglas, juicios o leyes del fenómeno o situaciones que se investiga. Con la obtención de conclusiones se puede tomar decisiones o hacer recomendaciones con base a lo investigado.
VARIABLEA CUALITATIVAS Y CUANTITATIVAS
Una variable es una simbolización de una situación o cualidad que pueden tomar diferentes valores. En la investigación estadística podemos distinguir dos tipos de variables, las cuales se representan mediante un símbolo o una letra.
VARIABLES CUALITATIVAS
Las variables cualitativas son las que se expresan una cualidad que generalmente no puede representarse por medio de números. De estas variables, puede determinarse únicamente la frecuencia con que aparece cada una de sus modalidades; por ejemplo una pieza que sale se una fabrica puede ser aceptada o no.
VARIABLES CUANTITACTIVAS
Las variables cuantitativas son las que permite dar un valor numérico a cada elemento de la población por ejemplo la edad de un grupo de individuos
VARIABLE DISCRETA
Cuando la variable solo puede tomar valores numéricos exactos se dice que es discreta; por ejemplo, el numero de vehículos que pasan por el anillo periférico a determinada hora de la mañana.
VARIABLE CONTINUA
Una variable continua por el contrario es la que puede tomar cualquier valor real, por ejemplo podría tomarse la estatura de las personas con mucha precisión. Las variables también pueden clasificarse atendiendo a su causa y efecto como:
VARIABLE DEPENDIENTE.
Variable aleatoria “Y” cuyo valor depende de otra variable “X”. Una variable es dependiente cuando es el efecto de otra.Variable independiente. Variable matemática mediante la cual se puede
pronosticar el valor o los valores de una variable aleatoria “Y”. Una
variable es independiente cuando es la causa del valor de otra.
Si cada valor que una variable X puede tomar le corresponde o mas
valores de otra variable Y, se dice que Y es en función de X y se escribe
Y=F(X). La variables se llama independiente e Y es la variable
dependiente.
DISTRIBUCION DE FRECUENCIAS
La distribución de frecuencias es un resumen tabular en el que los
datos se presentan en agrupamientos o categorías convenientes
establecidas de clases ordenadas numéricamente. En una tabla de
distribución de frecuencias de una serie de datos, se muestra el número
de observación llamado frecuencia de determinada variable dentro de un
grupo específico. La tabla de distribución de frecuencias proporciona
pistas acerca de las características de la población sujeta al estudio.
Además permite realizar cálculos posteriores para el análisis de los datos.
Al agrupar o condensar en tablas de distribución de frecuencias, el
proceso del análisis e interpretación de los datos se hace mucho mas
manejable y significativo
La tabla de distribución de frecuencias, esta compuesta por los siguientes
elementos:
Rango
Numero de clase
Ancho de clase
Limites aparentes reales
Frecuencias
Marcas de clase
RANGO (R)
Indica la amplitud de la ubicación numérica del conjunto de datos.
Es la diferencia que existe entre el mayor y el menor de los datos:
R= dato mayor- dato menor
NUMERO DE CLASE O INTERVALOS (K)
El número de agrupamientos de clase a utilizar depende
principalmente del número de observaciones en los datos, es decir, un
número mayor de observaciones requiere un número mayor de grupos de
clase o intervalos. El número de clase debe estar entre 5 y 15. Si no hay
suficientes intervalos o si hay demasiados se obtendrá poca
información. Para determinar el numero de clase de emplea ka siguiente
relación: 1+3.32 Log (n), donde “n” es el numero de datos de la muestra.
K=1+3.32. Log n
AMPLITUD O INTERVALOS DE CLASE (i)
Cada grupo denominado también clase, debe poseer unos tamaños
o amplitud. A esta amplitud se le denomina intervalo y es representado
por i.
I=rango/N0. De clase o sea i=R/K
LIMITES APARENTES (la)
Todo intervalo esta formado por dos limites de clase o limites
aparentes, un límite inferior y un límite superior. Los límites aparentes se
utilizan para evitar ambigüedad en la clasificación por intervalos. Por
ejemplo, de las estaturas anteriores se tiene: menos 160 a 169, de 170 a
179, igual o más de 180 cm.
LIMITES REALES DE CLASE (lr)
Debido a la discontinuidad que existe entre los grupo, conviene
lograr que, donde finalice un grupo comience el siguiente, con lo cual de
obtendrán nuevos limites a los cuales se les denomina limites reales o
verdaderos y se obtiene encontrando el punto medio de el limite
aparente superior de un grupo y el limite aparente inferior del siguiente
grupo. También puede calcularse a partir de los límites aparentes
considerando que:
Si los límites son números esteros, entonces, restar 0.5 al límite
inferior y sumar 0.5 al límite superior.
Si los limites no son números enteros, se debe restar y sumar a
los intervalos de clase 0.05 si tienen un solo decimal, 0.005 .si
tiene dos decimales, 0.0005 si tienen tres decimales, etc.
MARCA DE CLASE (xі)
Son los puntos medios de cada intervalo y son los valores usados
para representar todos los datos resumidos en un intervalo particular.
FRECUENCIAS
FRECUENCIA ABSOLUTA O DE INTERVALO (fi)
La frecuencia absoluta es la que indica como están distribuidos los
datos en cada grupo, es decir, como esta repartida la cantidad total de
datos entre los grupos. Indica cuantos datos posee el primer grupo, el
segundo grupo, el tercero.
FRECUENCIA RELATIVA (fr)
La frecuencia relativa es la proporción entre la frecuencia de un
intervalo y es el numero total de datos, es decir, el valor de una fracción
cuyo numerador es la frecuencia absoluta y cuyo denominador es el
numero de individuos de la población. La frecuencia relativa esta
comprendida siempre entre 0 y 1 y esta dada por:
Fr=fi/n
El uso de la frecuencia relativa o porcentual se vuelve esencial siempre
que una serie de datos se compara con otras series de datos,
especialmente si difiere el número de observaciones en cada serie de
datos.
FRECUENCIA ACUMULADA ABSOLUTA (Fa)
La frecuencia acumulad identifica en numero de observaciones
acumuladas en cada grupo. Se calcula a partir de las frecuencias
absolutas ya que estas proporcionan la suma de las repeticiones
anteriores a un intervalo.
FRECUENCIA ACUMULADA RELATIVA (Fr)
La frecuencia acumulada relativa es el cociente entre la frecuencia
acumulada y el numero total de datos observados, con lo que se obtienen
la suma de las
Frecuencias relativas de las repeticiones anteriores a esta. Se calcula de
la siguiente forma
Fr=Fa/n
EJEMPLO 1
Los punteos obtenidos por un grupo de 40 estudiantes en el curso de
física son:
80-20-60-75-40-55-70-75-60-85
40-60-75-78-37-42-60-80-88-75
70-60-80-90-95-65-32-43-44-62
28-45-35-63-66-88-95-98-96-94
CALCULAR
Numero de clase
Rango
Intervalo
Distribución de frecuencia
SOLUCION
El numero de grupos o clase a formar estado dado por:
K=1+3.32.Log 40=1+32. (1.60206)
=1+5.3188=6.3188
El rango se calcula de la siguiente manera:
R=dato mayor-dato menor
R= 98-20=78
Intervalo
I=78/6.3188=12.340
Como los datos son números enteros se aproxima “i” al entero mas
cercanos, entonces:
I=12
Los intervalos se calculan iniciando del dato menor (20). Los datos se
muestran en la tabla 2.1. El primer intervalo de la tabla es 20-31.
Tabla 2.1 ejemplo de un grupo de 40 estudiantes de física
Limite inferior Limite superior
20 31
32 43
44 55
56 67
68 79
80 92
92 103
FRECUENCIAS ABSOLUTAS
Para calcular las frecuencias hacemos un conteo del número de datos
que pertenecen a cada intervalo. El procedimiento puede ser:
Ordenando los datos en forma ascendente o descendente,
Contando cuantos valores hay en cada intervalo, es decir de 20 a
31 hay 2 de 32 a 43 hay 7 etc.
O bien por cada dato el grupo original marcamos mediante una
línea en el intervalo al que pertenece, como se ilustra a
continuación (tabla 2.2)
Tabla 2.2 distribución de frecuencia del ejemplo 1
Limite inferior Limite superior conteo Frecuencia absoluta fi
20 31 II 2
32 43 IIIIII 7
44 55 III 3
56 67 IIIIIIII 9
68 79 IIIIIII 7
80 91 IIIIIII 7
92 103 IIIII 5
N= 40
GRAFICAS UTILIZADAS EN ESTADISTICA
GRAFICA DE LINEAS
Es el tipo de grafica más simple que existe. Se representa por líneas rectas, donde el alto de la línea indica el valor que se desea representar, y en la base el atributo o valor de la variable. La base y la altura deben dar una impresión rectangular. La grafica de líneas puede representarse horizontal y verticalmente.
Diagramas de líneasEjemplo:
En la empresa “SEPRO”; 30 personas laboran en la jornada diurna, 20 en la jornada mixta y 10 en la jornada nocturna. Trace un grafico de líneas vertical y un grafico de líneas horizontales, para representar la información dada.
Figura 3.1 diagrama de líneas (vertical)
DIAGRAMA DE BARRAS MULTIPLES
Cuando es importante hacer comparaciones entre datos estadísticos, es uti8l realizarlas a trabes de un diagrama de barras compuestas en el cual se utilizan barras distintas para cada serie de datos y dibujandolas unas al lado de otras en el mismo grafico.
DIAGRAMA DE BARRAS COMPUESTAS
Consiste en dibujar el diagrama de barras de una de las series estadísticas y continuar encima con otras de distinto fondo que representaran la segunda serie estadística. De forma cada barra tendrá una altura total, que será la suma de la frecuencia absoluta del suceso que representa la primera serie mas la frecuencia absoluta del mismo suceso en la segunda serie etc.
GRAFICA DE CAMBIOS LINEALES
Las graficas de cambios lineales son aquellas que se representan en coordenadas cartesianas mediante puntos que se unen por medio de líneas rectas, lo que nos da una curva final de la representación.
GRAFICAS DE SERIES INDEPENDIENTESSConsiste en un conjunto de graficas de cambios lineales de una serie independiente de otra, diferenciándolas por medio de códigos.
DIAGRAMA DE SECTORES
Es una representación tipo de e se utiliza el circulo como base, este tipo de grafico es de la misma naturaleza que el de barras; en este caso, el circulo se subdivide en partes proporcionales a cada cantidad de la variable que se desea representar. La frecuencia absoluta total corresponde a los 360 grados de la circunferencia y con el uso de un transportador se puede trazar los sectores resultantes.
PICTOGRAMA
Gráficos de figuras, utilizadas para representar datos estadísticos de tal forma que llame la atención de quien los analiza.
GRAFICA PARA DISTRIBUCION DE FRECUENCIA
Hasta ahora se ha visto graficas para las variables cualitativas o cuantitativas de tipo discreto; sin embargo es importante recordar que las variables pueden tomar valores reales o de tipo continuo y que para estudiarlas es necesario dividirlas en intervalos de clase. Además, cuando se trate de muestra que contienen más de 30 datos es conveniente agrupar en intervalos o clases dichos datos construyendo una tabla de distribución de frecuencia.
HISTOGRAMAS
Un histograma es una grafica de barras que representa el numero de elementos que comprende cada clase de la distribución de frecuencia, esta formando por rectángulos unidos unos a otros, en el eje de las abscisas los vértices de las bases son los extremos de los intervalos (limites reales) y el centro de cada rectángulo corresponde a la marca de clase.Al asumir intervalos de igual amplitud, en el eje de las “Y” se representan las alturas de los rectángulos que son iguales a las frecuencias absolutas o relativas se acostumbra a tomar las alturas numéricamente iguales a dichas frecuencias.
GRAFICAS DE FRECUENCIAS ACUMULADAS: OJIVAS
Las graficas de frecuencia acumulada también llamada ojivas son útiles cuando los datos de la muestra se dividen en intervalos de clase y desea conocer, por ejemplo, cuantos individuos de la población están comprendidos en los intervalos hasta cada una de las marcas de la clase sucesivas. Se pueden graficar dos tipos de ojivas:
OJIVAS ASCENDENTE.
Se forman uniendo con líneas rectas, puntos que se localizan con cada límite real superior y su frecuencia acumulada ascendente absoluta o relativa.
OJIVAS DESCENDENTE
Se forma uniendo con líneas rectas, puntos que se localizan con cada límite real superior y su frecuencia acumulada descendente absoluta o relativa.El punto de intersección entre las dos ojivas, en una representación grafica, corresponde exactamente a la mediana de la distribución, la cual se estudiara en el siguiente capitulo.
MEDIDAS DE TENDENCIA CENTRAL
Una forma clara de y concisa de representar la información de una manera útil son las medias de tendencia central y a que proporcionan una descripción significativa de un conjunto de observaciones.Las medidas de tendencia central como su nombre lo indica son parámetros que miden que tanto los datos de una variable tienden a situarse en el centro de su rango.A continuación se mencionan algunas medidas de tendencia central cuyo uso tiene importante aplicación práctica.
Media aritmética o promedio aritméticoMedianaModaMedia geométricaMedia armónicaMedia cuadrática
En este capitulo se analizaran los fractilos, los cuales representan los intervalos dentro de los cuales quedan proporcionalmente repartidos los términos de la distribución. Los más comunes son:
CuartilesDecilesCentiles o percentiles.
MEDIA ARITMETICA
MEDIA ARITMETICA PARA DATOS SIMPLES
La media aritmética o simplemente media es el valor medio de los datos, es la medida de tendencia central más importante, debido a la representatividad que posee de los datos de las variables en estudio. Se calcula sumando los valores de todas las observaciones y dividiendo el resultado entre el número de observaciones. Por lo general de le representa con X (equis barra) la formula de la media para datos no agrupados es:
MEDIA ARITMETICA PONDERADA
A veces algunos de los valores a promediar son más importantes que otros es decir tienen una importancia relativa diferente en unión de la persona que realiza la elección. En este caso debe utilizarse el promedio ponderado el cual aplica un factor de ponderación (o importancia relativa) a cada uno de los valores a promediar. La medida aritmética ponderada se representa por Xp y viere dada por:
X=w1.x2+w2.x2+…+wn.xn= sumatoria w1.x1W1+w2+…+wn sumatoria w1
MEDIA ARITMETICA PARA DATOS AGRUPADOS
Cuando el numero de observaciones es bastante grande, es común agrupar en intervalos de clase (mas d e30 datos). Se calcula entonces la media aritmética sumando el producto de cada marca de clase (x), por el número de observaciones o frecuencias absoluta (fi) .
MEDIANA La mediana es el valor de la observación central de los datos ordenados de menor a mayor tiene la característica que deja el mismo numero de valores a su izquierda que a su derecha.
MODA
La moda es el valor que se repite la mayor cantidad de veces, si l variable es discreta también se dice que es el valor mas común, es útil cuando se requiere un calculo rápido por ejemplo, en una serie : 2,4,4,5,5,5,7,8, la moda es 5, por que es el elemento que mas veces se repite Existen muchos casos como en el ejemplo anterior que la moda es única, sin embargo, puede ocurrir que en una distribución haya dos o mas modas (aunque es poco común que es resulte en el trabajo experimental), entonces, se dice que la distribución es by modal, trimodal, etc. Incluso puede no existir la moda como por ejemplo en serie 2,3,4,5,7,10 ya que no existe ningún valor repetido si los datos no están agrupados el calculo de la moda es trivial, ya que solo se sebe observar cual es el dato que mas se repite entre ellos.
La moda es la única medida de tendencia central que se puede calcular para variables de tipo cualitativo, por ejemplo, el grado de escolaridad ( primaria, secundaria, universitaria, etc.) el tipo de suelo (arcilloso, arenoso, etc.)
MEDIA ARMONICA
La media armónica es otra medida de tendencia central, aunque menos utilizada que los promedios anteriores. Se denota por XH y esta definida como la reciproca de la media aritmética de los recíprocos de un conjunto de datos.
APLICACIONES DE LA MEDIA ARMONICA
PRECIO PROMEDIO
Si se compran varios tipos de productos con distinta cantidades de unidades de cada tipo, pero gastando en ellos igual cantidad de dinero, el precio promedio por unidad es igual a la media armónica de los precios por unidad de cada tipo de producto.
RENDIMIENTO PROMEDIO DE PRODUCCION
En un grupo puede haber personas con distinta velocidad para producir un artículo o producto. Si cada una de estas personas tiene que elaborar igual cantidad de artículos o productos, el promedio de velocidad de rendimiento de tal grupo, es igual a l promedio armónico de las velocidades de rendimiento de cada una de las personas que lo integran.
MEDIA CUADRATICA
La media cuadrática de una serie de datos se define con la raíz cuadrada de la media aritmética de los cuadrados de los valores de la variable.
FRACTILOS O CUANTILOS
Así como la media marca la mitad de los valores mayores que ella y la mitad de los valores menores los fractilos permiten identificar valores ubicados en diferentes posiciones. Se denomina fractilo a la localización del valor que corresponde al final de cada parte en que se ha dividido la distribución de datos los fractilos mas importante son los cuarteles, los deciles y los centiles o precentiles.
CUARTILESSon los que indican un valor que le corresponde al punto final de cada una de las cuatro partes en que se divide una serie o agrupación de datos. Los cuarteles (primero, segundo, tercero y cuarto) señalan el valor que esta al 25,50 y 75 y 100% de la totalidad de datos.
DECILES
Una fracción de datos también puede fraccionarse en 10 partes iguales. El valor se denomina deciles. Los deciles (del primero al décimo) marcan el valor ubicado al 10, 20,30,…., y 100% de los datos respectivamente, el decil quinto equivale a la mediana. Se denotan por Di donde la j al pie de la D indica a que décima parte de la distribución de datos pertenece.
CENTILES
Son valores de la variable al final de cada una de las centésimas partes de la distribución de datos que se posee. Los centiles o percentiles (del primero al nonagésimo noveno) indican el valor que esta al 1, 2,3,…, y 99% de los datos, el centil 50 equivale a la mediana.
top related