clase 1 estadistica

6

Click here to load reader

Upload: renychu

Post on 14-Apr-2016

5 views

Category:

Documents


3 download

DESCRIPTION

introducción a la estadística descriptiva.

TRANSCRIPT

Page 1: Clase 1 Estadistica

Cuando se trabaja con variables cuantitativas

Producción de palta

Tengo 500 registros, cuando tengo más datos es mejor porque voy a ver como se comporta la variable.

No es lo mismo un análisis de 5 años a un análisis de 20 años

En toneladas

Tengo una cantidad de datos P1, p2, p3 … Pm

Si yo quiero analizar este conjunto de datos debo hallar un valor que represente a todos. Resumiéndolo en un solo valor, obteniendo una medida de resumen o promedios.

Reuno todos los datos en una medida de resumen, o medidas de tendencia central, resumen el conjunto de datos en uno solo:

Media aritmética

Mediana

Moda

La que mas se utiliza es la media aritmética, porque su valor promedio se utiliza toda la información.

La mediana solamente ordena y esta es el valor central de todas ellas, para su cálculo no se usa toda la data, es su inconveniente.

La moda, es lo que más se repite.

Pero a las finales cuando quiero ver la cubra de distribución uso las tres.

Cual es el problema de usar la media, le afecta los valores extremos, por exceso o por defecto.

El indicador que me indica si esta medida es buena, es la medida de variabilidad:

La varianza ( s2)

La desviación estándar ( s)

El rango ( Max – Min)

Coeficiente de variación ( cv)

La media aritmética no sirve cuando esta sola.

La desviación estándar

Mide la diferencia que hay entre cada observación con respecto al valor promedio.

Ejemplo

Si S es pequeño, el P representa al conjunto de datos, no tengo calores extremos.

Si el S es grande, el P no representa al conjunto de datos, tengo valores extremos.

Page 2: Clase 1 Estadistica

Es un valor absoluto, porque lleva los unidades de las variables.

Como me doy cuenta si el S es grande o pequeño.

Depende la variable que estoy analizando.

Por ejemplo analizo rendimiento de una acción, es propio de esta que su variabilidad sea alta, pues estas constantemente suben y bajan,

Por ejemplo analizo tiempo de ejecución de producción, debo esperar que la variabilidad sea pequeña, pues si es alta significa que tengo problemas en la producción.

En el análisis de la producción de palta:

1. Hay un comportamiento entre los primeros años de producción, esto me resultaría en una variabilidad alta.

2. Debo segmentar la información que voy a analizar para tener una mejor data de variabilidad, según un criterio.

3. El que establece el criterio de segmentación es el que maneja la variable.

Producción de palta en áreas.

Tengo un promedio de producción para ambas áreas. Entonces debo comparar con coeficientes de variación.

Que sea bueno o malo depende de la variable que estoy analizando.

Cuando hay una variabilidad pequeña significa que la data se comporta muy parecido.

Cuando hablamos del comportamiento de una variable, esta puede tener un comportamiento simétrico o asimétrico, basándome en las 3 medidas,

Simétrico: En valor las 3 medidas de tendencia central se parecen.

Asimetrica positiva: tengo un valor extremo que hace que el valor tienda hacia la derecha. Y el mayor porcentaje de las observaciones tiene valores inferiores al valor de promedio.

Valor extremo superior al de la media aritmética.

Asimetrica negativa: hay un valor muy pequeño inferior al promedio que hace que la curva tienda a la izquierda, el mayor porcentaje de observaciones tiene valores superiores al promedio.

Ejemplo:

Distribución de sueldos es asimétrica positiva, se mezclan todos los sueldos del funcionario mas alto al mas pequeño, y es lógico que haya un valor muy superior al promedio.

Page 3: Clase 1 Estadistica

Distribución forma y comportamiento que tiene una variable, explicando porque tiene este comportamiento.

Pareto solo se utiliza para priorizar acciones.

Ejemplo: VENTAS DE PRODUCTOS.

7 productos y de ellos el setimo me produce una rentabilidad del 5%

Lo saco del mercado?

Depende si es mi producto bandera, por el cual me conoce el mercado.

Si es mi producto bandera no puedo retirarlo ya que aunque no me produzca rentabilidad por este producto me conoce el mercado.

Siempre terminamos haciendo estadística descriptiva de nuestra data.

Datos

Analisis de datos

Estadística descriptiva

Aceptar

Dame el rango de la variable q quiero analizar

Marcamos todo el rango de información de las variables a analizar

Page 4: Clase 1 Estadistica

Es amodal porque no tiene moda.

Variable aleatoria

La diferencia es que nosotros no sabemos los valores que va tener esta variable hasta que no se lleve a cabo el estudio, entonces presumimos que todas las variables que manejamos son casi aleatorias.

La diferencia cuando se infiere, es que se trabaja con errores, por lo que tenemos que tener en cuenta es la distribución o forma

Tomar una muestra y en base a esta muestra concluir para la población, cuando se hace estadística descriptiva los resultados eran para ese conjunto de datos.

Cuando hacemos inferencia, tomamos una muestra y hacemos que estos resultados sirvan para toda la población

Toda la inferencia estadística se basa en la distribución normal.

Una variable tiene que estar perfectamente definida

La distribución normal

Principal característica por tener una distribución simétrica, media, mediana y moda iguales.

En esta el área bajo la curva mide uno o 100 y ello esta medida en desviación estándar, puedo determinar el área teniendo la media o la desviación estandar.

Cuando quiero determinar variabilidades o porcentajes debo hacer una distribución Z

Que es lo que tiene la distribución normal estandar en los ejes

En Excel, distribución normal estandar

En z voy a tener este valor de z, porque nosotros vamos a hacer el proceso de estandarizar

Por ejemplo si quiero el área de -1 y 1, pongo los valores de Z -1

Pero si tengo área y necesito el valor de z uso la distribución normal inversa.

Si me dan de dato la probabilidad entonces me va devolver el Z,

Quien se distribuye normalmente o quien se distribuye es la variable, esta tiene la forma, otra cosa es la condición para resolver el problema.

Ejemplo de calificaciones

Variable x es la calificación.

Este tiene una media de ( 485, y desviación 30)

Me preguntan la probabilidad de que x sea mayor que 500

P ( x > = 500)

Entonces debo estandarizar mi variable para encontrar el área.

Page 5: Clase 1 Estadistica

P ( x . 485/30) = 500 – 485 / 30

P (Z >= 0.5)

En Excel pongo el dato de 0.5 como dato de z en la formula de distribución normal estandar.

Y me devuelve el área de 0.69146246

Entonces

1 menos 0.6914, tenemos que el porcentaje de aprobados debe ser de 30.85%