clase1

104
CAP ´ ITULO 1 Conceptos asicos Organizaci´on de datos Una breve introducci´on al R Distribuci´on de frecuencias por intervalos CAP ´ ITULO 1 Organizaci´ on y resumen de datos. 2015 Dr. Cristian Bayes FACI PUCP 1 / 42

Upload: alejandro-gutierrez-valverde

Post on 11-Dec-2015

212 views

Category:

Documents


0 download

DESCRIPTION

CLASE 1

TRANSCRIPT

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

CAPITULO 1Organizacion y resumen de datos.

2015

Dr. Cristian Bayes FACI PUCP 1 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Estadıstica

Es un conjunto de metodos cientıficos para la recoleccion,organizacion, analisis e interpretacion de datos con la finalidadde realizar conclusiones y tomar decisiones validas.

Estadıstica Descriptiva: El objetivo de la estadıstica des-criptiva es resumir las principales caracterısticas de un con-junto de datos a traves de tablas, graficos y medidas numeri-cas.

Estadıstica Inferencial: Se encarga del analisis de los datoscon el proposito de realizar conclusiones validas acerca dela poblacion de donde originalmente se recolectaron estosdatos. La Estadıstica inferencial esta basada en la teorıa deprobabilidades.

Dr. Cristian Bayes FACI PUCP 2 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Estadıstica

Es un conjunto de metodos cientıficos para la recoleccion,organizacion, analisis e interpretacion de datos con la finalidadde realizar conclusiones y tomar decisiones validas.

Estadıstica Descriptiva: El objetivo de la estadıstica des-criptiva es resumir las principales caracterısticas de un con-junto de datos a traves de tablas, graficos y medidas numeri-cas.

Estadıstica Inferencial: Se encarga del analisis de los datoscon el proposito de realizar conclusiones validas acerca dela poblacion de donde originalmente se recolectaron estosdatos. La Estadıstica inferencial esta basada en la teorıa deprobabilidades.

Dr. Cristian Bayes FACI PUCP 2 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Poblacion

Es un conjunto de elementos que poseen al menos un atributoen comun, sobre los cuales se desea investigar una o mascaracterısticas. El numero de elementos que conforman unapoblacion sera denotado por la letra N .

Son ejemplos de poblacion:

Las bolsas de cemento producidas en un dıa por una fabrica.

Los hogares de una region.

Los alumnos que estudian Ingenierıa Civil en la PUCP.

Una muestra es, por otro lado, un subconjunto de la poblacion.El numero de elementos que conforman una muestra seradenotado por la letra n. Se dira que una muestra es aleatoria sisus elementos han sido seleccionados mediante unprocedimiento probabilıstico.

Dr. Cristian Bayes FACI PUCP 3 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Poblacion

Es un conjunto de elementos que poseen al menos un atributoen comun, sobre los cuales se desea investigar una o mascaracterısticas. El numero de elementos que conforman unapoblacion sera denotado por la letra N .Son ejemplos de poblacion:

Las bolsas de cemento producidas en un dıa por una fabrica.

Los hogares de una region.

Los alumnos que estudian Ingenierıa Civil en la PUCP.

Una muestra es, por otro lado, un subconjunto de la poblacion.El numero de elementos que conforman una muestra seradenotado por la letra n. Se dira que una muestra es aleatoria sisus elementos han sido seleccionados mediante unprocedimiento probabilıstico.

Dr. Cristian Bayes FACI PUCP 3 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Poblacion

Es un conjunto de elementos que poseen al menos un atributoen comun, sobre los cuales se desea investigar una o mascaracterısticas. El numero de elementos que conforman unapoblacion sera denotado por la letra N .Son ejemplos de poblacion:

Las bolsas de cemento producidas en un dıa por una fabrica.

Los hogares de una region.

Los alumnos que estudian Ingenierıa Civil en la PUCP.

Una muestra es, por otro lado, un subconjunto de la poblacion.El numero de elementos que conforman una muestra seradenotado por la letra n. Se dira que una muestra es aleatoria sisus elementos han sido seleccionados mediante unprocedimiento probabilıstico.

Dr. Cristian Bayes FACI PUCP 3 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Variable

Es el resultado de una medicion o una caracterıstica en loselementos de la poblacion. Una variable suele ser denotada poruna letra mayuscula, por ejemplo: X, Y o Z.

Son ejemplos de variable:

X = Peso de una bolsa de cemento de la produccion de undıa de una fabrica.

Y = Ingreso mensual de un hogar de una region.

Z = Nivel socioeconomico de un hogar de una region.

Se denominara como dato al valor que toma una variable en unelemento de la poblacion. Un conjunto de n datos de unavariable X se suele denotar como x1, x2, ..., xn.

Dr. Cristian Bayes FACI PUCP 4 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Variable

Es el resultado de una medicion o una caracterıstica en loselementos de la poblacion. Una variable suele ser denotada poruna letra mayuscula, por ejemplo: X, Y o Z.Son ejemplos de variable:

X = Peso de una bolsa de cemento de la produccion de undıa de una fabrica.

Y = Ingreso mensual de un hogar de una region.

Z = Nivel socioeconomico de un hogar de una region.

Se denominara como dato al valor que toma una variable en unelemento de la poblacion. Un conjunto de n datos de unavariable X se suele denotar como x1, x2, ..., xn.

Dr. Cristian Bayes FACI PUCP 4 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Variable

Es el resultado de una medicion o una caracterıstica en loselementos de la poblacion. Una variable suele ser denotada poruna letra mayuscula, por ejemplo: X, Y o Z.Son ejemplos de variable:

X = Peso de una bolsa de cemento de la produccion de undıa de una fabrica.

Y = Ingreso mensual de un hogar de una region.

Z = Nivel socioeconomico de un hogar de una region.

Se denominara como dato al valor que toma una variable en unelemento de la poblacion. Un conjunto de n datos de unavariable X se suele denotar como x1, x2, ..., xn.

Dr. Cristian Bayes FACI PUCP 4 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Las variables se pueden clasificar en:

Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen

Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.

Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:

Nominales: si no existe orden entre las categorıas.Ordinales: si existe orden entre las categorıas.

Dr. Cristian Bayes FACI PUCP 5 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Las variables se pueden clasificar en:

Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen

Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.

Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.

Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:

Nominales: si no existe orden entre las categorıas.Ordinales: si existe orden entre las categorıas.

Dr. Cristian Bayes FACI PUCP 5 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Las variables se pueden clasificar en:

Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen

Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.

Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:

Nominales: si no existe orden entre las categorıas.Ordinales: si existe orden entre las categorıas.

Dr. Cristian Bayes FACI PUCP 5 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Las variables se pueden clasificar en:

Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen

Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.

Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:

Nominales: si no existe orden entre las categorıas.Ordinales: si existe orden entre las categorıas.

Dr. Cristian Bayes FACI PUCP 5 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Las variables se pueden clasificar en:

Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen

Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.

Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:

Nominales: si no existe orden entre las categorıas.

Ordinales: si existe orden entre las categorıas.

Dr. Cristian Bayes FACI PUCP 5 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Las variables se pueden clasificar en:

Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen

Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.

Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:

Nominales: si no existe orden entre las categorıas.Ordinales: si existe orden entre las categorıas.

Dr. Cristian Bayes FACI PUCP 5 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se tienen las definiciones siguientes :

Parametro: Es una medida que describe una poblacion. Elparametro resume cierta informacion de una poblacion portanto es numero unico y por los usual desconocido, perode interes. Un parametro suele ser denotado por una letragriega, por ejemplo: µ para la media, σ2 para la varianza yp para una proporcion.

Estadıstica: Es una medida que describe a una muestray es definida como una funcion de las observaciones de lamuestra que no dependan de ningun parametro. Seguiremosla siguiente notacion para los siguientes estadısticas: X parala media muestral, S2 para la variancia muestral, p para laproporcion muestral, mın para el valor mınimo y max parael valor maximo de una muestra.

Dr. Cristian Bayes FACI PUCP 6 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se tienen las definiciones siguientes :

Parametro: Es una medida que describe una poblacion. Elparametro resume cierta informacion de una poblacion portanto es numero unico y por los usual desconocido, perode interes. Un parametro suele ser denotado por una letragriega, por ejemplo: µ para la media, σ2 para la varianza yp para una proporcion.

Estadıstica: Es una medida que describe a una muestray es definida como una funcion de las observaciones de lamuestra que no dependan de ningun parametro. Seguiremosla siguiente notacion para los siguientes estadısticas: X parala media muestral, S2 para la variancia muestral, p para laproporcion muestral, mın para el valor mınimo y max parael valor maximo de una muestra.

Dr. Cristian Bayes FACI PUCP 6 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Estimador: Es una estadıstica que es utilizada para estimarel valor de un parametro.

Estimacion: Es el valor que se obtiene para un estimadorpara una muestra dada.

Ejemplo: Considerando como poblacion los hogares de unacierta region y como variable el ingreso de estos hogares,podemos definir como parametro µ = ingreso promedio de unhogar de esta region y como estimador de este parametro a Xla media muestral. Seleccionados por ejemplo 40 hogares ellanos arroja una estimacion de 3,767.5 um.

Dr. Cristian Bayes FACI PUCP 7 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Estimador: Es una estadıstica que es utilizada para estimarel valor de un parametro.

Estimacion: Es el valor que se obtiene para un estimadorpara una muestra dada.

Ejemplo: Considerando como poblacion los hogares de unacierta region y como variable el ingreso de estos hogares,podemos definir como parametro µ = ingreso promedio de unhogar de esta region y como estimador de este parametro a Xla media muestral. Seleccionados por ejemplo 40 hogares ellanos arroja una estimacion de 3,767.5 um.

Dr. Cristian Bayes FACI PUCP 7 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Estimador: Es una estadıstica que es utilizada para estimarel valor de un parametro.

Estimacion: Es el valor que se obtiene para un estimadorpara una muestra dada.

Ejemplo: Considerando como poblacion los hogares de unacierta region y como variable el ingreso de estos hogares,podemos definir como parametro µ = ingreso promedio de unhogar de esta region y como estimador de este parametro a Xla media muestral. Seleccionados por ejemplo 40 hogares ellanos arroja una estimacion de 3,767.5 um.

Dr. Cristian Bayes FACI PUCP 7 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Estimador: Es una estadıstica que es utilizada para estimarel valor de un parametro.

Estimacion: Es el valor que se obtiene para un estimadorpara una muestra dada.

Ejemplo: Considerando como poblacion los hogares de unacierta region y como variable el ingreso de estos hogares,podemos definir como parametro µ = ingreso promedio de unhogar de esta region y como estimador de este parametro a Xla media muestral. Seleccionados por ejemplo 40 hogares ellanos arroja una estimacion de 3,767.5 um.

Dr. Cristian Bayes FACI PUCP 7 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUALITATIVO

Cuando la variable en estudio es cualitativa, una tabla defrecuencias esta constituida por una lista de las posiblescategorıas acompanadas por el numero de veces que ocurrecada una de ellas. En este caso asumiremos que la variable tienek categorıas diferentes y consideraremos la siguiente notacion:

nj : la frecuencia o numero de veces que ocurre la categorıaj.

fj : la frecuencia relativa o proporcion de la categorıa j,calculada como fj = nj

n , siendo n el numero total de datos.

pj : el porcentaje de la categorıa j, calculado como pj =100 × fj .

Es claro que se cumple que:k

∑j=1

nj = n,k

∑j=1

fj = 1 yk

∑j=1

pj =100 %

Dr. Cristian Bayes FACI PUCP 8 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUALITATIVO

Cuando la variable en estudio es cualitativa, una tabla defrecuencias esta constituida por una lista de las posiblescategorıas acompanadas por el numero de veces que ocurrecada una de ellas. En este caso asumiremos que la variable tienek categorıas diferentes y consideraremos la siguiente notacion:

nj : la frecuencia o numero de veces que ocurre la categorıaj.

fj : la frecuencia relativa o proporcion de la categorıa j,calculada como fj = nj

n , siendo n el numero total de datos.

pj : el porcentaje de la categorıa j, calculado como pj =100 × fj .

Es claro que se cumple que:k

∑j=1

nj = n,k

∑j=1

fj = 1 yk

∑j=1

pj =100 %

Dr. Cristian Bayes FACI PUCP 8 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUALITATIVO

Cuando la variable en estudio es cualitativa, una tabla defrecuencias esta constituida por una lista de las posiblescategorıas acompanadas por el numero de veces que ocurrecada una de ellas. En este caso asumiremos que la variable tienek categorıas diferentes y consideraremos la siguiente notacion:

nj : la frecuencia o numero de veces que ocurre la categorıaj.

fj : la frecuencia relativa o proporcion de la categorıa j,calculada como fj = nj

n , siendo n el numero total de datos.

pj : el porcentaje de la categorıa j, calculado como pj =100 × fj .

Es claro que se cumple que:k

∑j=1

nj = n,k

∑j=1

fj = 1 yk

∑j=1

pj =100 %

Dr. Cristian Bayes FACI PUCP 8 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUALITATIVO

Cuando la variable en estudio es cualitativa, una tabla defrecuencias esta constituida por una lista de las posiblescategorıas acompanadas por el numero de veces que ocurrecada una de ellas. En este caso asumiremos que la variable tienek categorıas diferentes y consideraremos la siguiente notacion:

nj : la frecuencia o numero de veces que ocurre la categorıaj.

fj : la frecuencia relativa o proporcion de la categorıa j,calculada como fj = nj

n , siendo n el numero total de datos.

pj : el porcentaje de la categorıa j, calculado como pj =100 × fj .

Es claro que se cumple que:k

∑j=1

nj = n,k

∑j=1

fj = 1 yk

∑j=1

pj =100 %

Dr. Cristian Bayes FACI PUCP 8 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La informacion contenida en la tabla de frecuencias puede serrepresentada a traves de graficos como:

Grafico de barras: a cada categorıa se la representa por unabarra cuya altura es proporcional a la frecuencia con queocurre. En este tipo de graficos se suele dejar un espacioentre las barras para indicar que se esta presentando infor-macion de una variable cualitativa.

Grafico de sectores circulares: a cada categorıa se la repre-senta por un sector del cırculo proporcional a la frecuenciacon que ocurre.

Dr. Cristian Bayes FACI PUCP 9 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La informacion contenida en la tabla de frecuencias puede serrepresentada a traves de graficos como:

Grafico de barras: a cada categorıa se la representa por unabarra cuya altura es proporcional a la frecuencia con queocurre. En este tipo de graficos se suele dejar un espacioentre las barras para indicar que se esta presentando infor-macion de una variable cualitativa.

Grafico de sectores circulares: a cada categorıa se la repre-senta por un sector del cırculo proporcional a la frecuenciacon que ocurre.

Dr. Cristian Bayes FACI PUCP 9 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Ejemplo:

Durante un mes se monitoreo el estado de la calidad del aire enuna ciudad, estos fueron los resultados:

Bueno Moderado Bueno Malo Moderado MaloMalo Moderado Malo Malo Malo ModeradoModerado Moderado Moderado Malo Muy Malo MaloModerado Moderado Malo Moderado Moderado MaloMalo Moderado Moderado Bueno Moderado Malo

Obtenga su distribucion de frecuencias y los graficos de barras y desectores circulares.

Dr. Cristian Bayes FACI PUCP 10 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Solucion:

Es directo obtener la siguiente distribucion de frecuencias:

j Categorıas Frecuencia Frecuencia relativa Porcentajenj fj pj

1 Bueno 3 0.10 102 Moderado 14 0.467 46.73 Malo 12 0.40 404 Muy Malo 1 0.033 3.3

Total 30 1 100

Dr. Cristian Bayes FACI PUCP 11 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La informacion contenida en esta tabla se presenta de formagrafica en siguiente figura.

1.2. ORGANIZACION DE DATOS 5

Bueno Moderado Malo Muy Malo

0.0

0.1

0.2

0.3

0.4

Bueno10%

Moderado47%

Malo40%

Muy Malo3%

Figura 1.1: Grafico de Barras y de Sectores circulares

Ejemplo 1.8.

En un cierto distrito durante un mes se registro el numero de accidentes de transito por dıa,

estos fueron los resultados:

1 2 0 3 1 0 1 0 4 2

1 1 2 0 1 1 0 3 1 1

0 2 1 0 4 0 1 2 2 2

La variable numero de accidentes de transito por dıa en un distrito puede tomar los siguientes

valores: 0, 1, 2, 3 y 4. A continuacion presentamos la tabla de frecuencias para este conjunto de

datos

Numero de Frecuencia Frecuencia relativa Porcentaje

accidentes nj fj pj

0 8 0.27 27

1 11 0.37 37

2 7 0.23 23

3 2 0.07 7

4 2 0.07 7

Total 30 1.00 100

La informacion contenida en esta tabla se presenta en forma grafica en la Figura 1.2.

Variable cuantitativa continua

Cuando la variable en estudio es cuantitativa continua, para construir una tabla de frecuencias se

agrupan las observaciones en clases y se consideran las frecuencias en cada clase. Consideraremos

las clases como intervalos de igual amplitud, podemos seguir el siguiente procedimiento:

Figura: Grafico de Barras y de Sectores circulares

Dr. Cristian Bayes FACI PUCP 12 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUANTITATIVO DISCRETO

En este caso la tabla de frecuencias estara constituida por unalista de las posibles valores que puede tomar la variableacompanadas por el numero de veces que ocurre cada uno deestos valores. En este caso asumiremos que la variable X tienek valores distintos x1, ..., xk y consideraremos la siguientenotacion

nj : la frecuencia o numero de veces que ocurre el valor xj .

fj : la frecuencia relativa del valor xj , calculada como fj =nj/n, siendo n el numero total de datos.

pj : el porcentaje del valor xj , calculado como pj = 100×fj .

Esta tabla de frecuencias suele ser resumida a traves de:Grafico de bastones: a cada valor posible xj se la representapor una lınea vertical cuya altura es proporcional a lafrecuencia con que ocurre.

Dr. Cristian Bayes FACI PUCP 13 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUANTITATIVO DISCRETO

En este caso la tabla de frecuencias estara constituida por unalista de las posibles valores que puede tomar la variableacompanadas por el numero de veces que ocurre cada uno deestos valores. En este caso asumiremos que la variable X tienek valores distintos x1, ..., xk y consideraremos la siguientenotacion

nj : la frecuencia o numero de veces que ocurre el valor xj .

fj : la frecuencia relativa del valor xj , calculada como fj =nj/n, siendo n el numero total de datos.

pj : el porcentaje del valor xj , calculado como pj = 100×fj .

Esta tabla de frecuencias suele ser resumida a traves de:Grafico de bastones: a cada valor posible xj se la representapor una lınea vertical cuya altura es proporcional a lafrecuencia con que ocurre.

Dr. Cristian Bayes FACI PUCP 13 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUANTITATIVO DISCRETO

En este caso la tabla de frecuencias estara constituida por unalista de las posibles valores que puede tomar la variableacompanadas por el numero de veces que ocurre cada uno deestos valores. En este caso asumiremos que la variable X tienek valores distintos x1, ..., xk y consideraremos la siguientenotacion

nj : la frecuencia o numero de veces que ocurre el valor xj .

fj : la frecuencia relativa del valor xj , calculada como fj =nj/n, siendo n el numero total de datos.

pj : el porcentaje del valor xj , calculado como pj = 100×fj .

Esta tabla de frecuencias suele ser resumida a traves de:Grafico de bastones: a cada valor posible xj se la representapor una lınea vertical cuya altura es proporcional a lafrecuencia con que ocurre.

Dr. Cristian Bayes FACI PUCP 13 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUANTITATIVO DISCRETO

En este caso la tabla de frecuencias estara constituida por unalista de las posibles valores que puede tomar la variableacompanadas por el numero de veces que ocurre cada uno deestos valores. En este caso asumiremos que la variable X tienek valores distintos x1, ..., xk y consideraremos la siguientenotacion

nj : la frecuencia o numero de veces que ocurre el valor xj .

fj : la frecuencia relativa del valor xj , calculada como fj =nj/n, siendo n el numero total de datos.

pj : el porcentaje del valor xj , calculado como pj = 100×fj .

Esta tabla de frecuencias suele ser resumida a traves de:Grafico de bastones: a cada valor posible xj se la representapor una lınea vertical cuya altura es proporcional a lafrecuencia con que ocurre.

Dr. Cristian Bayes FACI PUCP 13 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Ejemplo:

En un cierto distrito durante un mes se registro el numero deaccidentes de transito por dıa, estos fueron los resultados:

1 2 0 3 1 0 1 0 4 21 1 2 0 1 1 0 3 1 10 2 1 0 4 0 1 2 2 2

Note que la variable numero de accidentes de transito por dıaen un distrito puede tomar los siguientes valores: 0, 1, 2, 3 y 4.

Dr. Cristian Bayes FACI PUCP 14 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Solucion:

A continuacion presentamos la tabla de frecuencias para esteconjunto de datos

Numero de Frecuencia Frecuencia Porcentaje Porcentajeaccidentes nj relativa fj pj acumulado Pj

0 8 0.267 26.7 26.71 11 0.367 36.7 63.42 7 0.233 23.3 86.73 2 0.067 6.7 93.44 2 0.067 6.7 100

Total 30 1 100

Dr. Cristian Bayes FACI PUCP 15 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La informacion contenida en esta tabla se presenta en formagrafica en la siguiente figura

02

46

810

x

Frecue

ncia

0 1 2 3 4

Distribucion de frecuencias del número de accidentes

Figura: Grafico de bastones

Dr. Cristian Bayes FACI PUCP 16 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

¿Que es R?

R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.

Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.

R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.

R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.

El sitio web oficial de R es: http://www.R-project.org

Dr. Cristian Bayes FACI PUCP 17 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

¿Que es R?

R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.

Permite aplicar una variedad de metodos estadısticos basicosy avanzados.

Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.

R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.

R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.

El sitio web oficial de R es: http://www.R-project.org

Dr. Cristian Bayes FACI PUCP 17 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

¿Que es R?

R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.

Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.

R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.

R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.

R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.

El sitio web oficial de R es: http://www.R-project.org

Dr. Cristian Bayes FACI PUCP 17 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

¿Que es R?

R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.

Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.

R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.

R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.

El sitio web oficial de R es: http://www.R-project.org

Dr. Cristian Bayes FACI PUCP 17 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

¿Que es R?

R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.

Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.

R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.

R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.

El sitio web oficial de R es: http://www.R-project.org

Dr. Cristian Bayes FACI PUCP 17 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

¿Que es R?

R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.

Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.

R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.

R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.

El sitio web oficial de R es: http://www.R-project.org

Dr. Cristian Bayes FACI PUCP 17 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

¿Que es R?

R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.

Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.

R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.

R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.

El sitio web oficial de R es: http://www.R-project.org

Dr. Cristian Bayes FACI PUCP 17 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Instalacion de R

R puede ser instalado en Windows, Mac o Linux.

Para instalar el sistema base, visitar el sitio web de R yseguir las instrucciones de instalacion.Adicionalmente al sistema base existen una serie de paque-tes adicionales de contribuyentes. Un paquete es una co-leccion de funciones, ejemplos y documentacion que usual-mente estan enfocados en realizar una tarea especıfica.El sistema base contiene solamente algunos paquetes. Parainstalar un paquete adicional, por ejemplo agricolae, sedebe estar conectado en la internet y escribir:

> install.packages("agricolae")

Si no ha sido configurado antes, aparecera una ventana paraseleccionar el mirror mas cercano, luego todo es automatico.Antes de usar un paquete es necesario cargarlo, por ejemplo:

> library(agricolae)

Dr. Cristian Bayes FACI PUCP 18 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Instalacion de R

R puede ser instalado en Windows, Mac o Linux.Para instalar el sistema base, visitar el sitio web de R yseguir las instrucciones de instalacion.

Adicionalmente al sistema base existen una serie de paque-tes adicionales de contribuyentes. Un paquete es una co-leccion de funciones, ejemplos y documentacion que usual-mente estan enfocados en realizar una tarea especıfica.El sistema base contiene solamente algunos paquetes. Parainstalar un paquete adicional, por ejemplo agricolae, sedebe estar conectado en la internet y escribir:

> install.packages("agricolae")

Si no ha sido configurado antes, aparecera una ventana paraseleccionar el mirror mas cercano, luego todo es automatico.Antes de usar un paquete es necesario cargarlo, por ejemplo:

> library(agricolae)

Dr. Cristian Bayes FACI PUCP 18 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Instalacion de R

R puede ser instalado en Windows, Mac o Linux.Para instalar el sistema base, visitar el sitio web de R yseguir las instrucciones de instalacion.Adicionalmente al sistema base existen una serie de paque-tes adicionales de contribuyentes. Un paquete es una co-leccion de funciones, ejemplos y documentacion que usual-mente estan enfocados en realizar una tarea especıfica.

El sistema base contiene solamente algunos paquetes. Parainstalar un paquete adicional, por ejemplo agricolae, sedebe estar conectado en la internet y escribir:

> install.packages("agricolae")

Si no ha sido configurado antes, aparecera una ventana paraseleccionar el mirror mas cercano, luego todo es automatico.Antes de usar un paquete es necesario cargarlo, por ejemplo:

> library(agricolae)

Dr. Cristian Bayes FACI PUCP 18 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Instalacion de R

R puede ser instalado en Windows, Mac o Linux.Para instalar el sistema base, visitar el sitio web de R yseguir las instrucciones de instalacion.Adicionalmente al sistema base existen una serie de paque-tes adicionales de contribuyentes. Un paquete es una co-leccion de funciones, ejemplos y documentacion que usual-mente estan enfocados en realizar una tarea especıfica.El sistema base contiene solamente algunos paquetes. Parainstalar un paquete adicional, por ejemplo agricolae, sedebe estar conectado en la internet y escribir:

> install.packages("agricolae")

Si no ha sido configurado antes, aparecera una ventana paraseleccionar el mirror mas cercano, luego todo es automatico.

Antes de usar un paquete es necesario cargarlo, por ejemplo:

> library(agricolae)

Dr. Cristian Bayes FACI PUCP 18 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Instalacion de R

R puede ser instalado en Windows, Mac o Linux.Para instalar el sistema base, visitar el sitio web de R yseguir las instrucciones de instalacion.Adicionalmente al sistema base existen una serie de paque-tes adicionales de contribuyentes. Un paquete es una co-leccion de funciones, ejemplos y documentacion que usual-mente estan enfocados en realizar una tarea especıfica.El sistema base contiene solamente algunos paquetes. Parainstalar un paquete adicional, por ejemplo agricolae, sedebe estar conectado en la internet y escribir:

> install.packages("agricolae")

Si no ha sido configurado antes, aparecera una ventana paraseleccionar el mirror mas cercano, luego todo es automatico.Antes de usar un paquete es necesario cargarlo, por ejemplo:

> library(agricolae)

Dr. Cristian Bayes FACI PUCP 18 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La consola del R

En la consola de R es donde se realizan los calculos.

Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.

Una sesion en R es la interaccion entre el usuario y el siste-ma.

Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.

Para obtener el valor de la ultima expresion evaluada tipear.Last.value.

Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.

Dr. Cristian Bayes FACI PUCP 19 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La consola del R

En la consola de R es donde se realizan los calculos.

Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.

Una sesion en R es la interaccion entre el usuario y el siste-ma.

Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.

Para obtener el valor de la ultima expresion evaluada tipear.Last.value.

Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.

Dr. Cristian Bayes FACI PUCP 19 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La consola del R

En la consola de R es donde se realizan los calculos.

Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.

Una sesion en R es la interaccion entre el usuario y el siste-ma.

Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.

Para obtener el valor de la ultima expresion evaluada tipear.Last.value.

Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.

Dr. Cristian Bayes FACI PUCP 19 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La consola del R

En la consola de R es donde se realizan los calculos.

Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.

Una sesion en R es la interaccion entre el usuario y el siste-ma.

Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.

Para obtener el valor de la ultima expresion evaluada tipear.Last.value.

Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.

Dr. Cristian Bayes FACI PUCP 19 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La consola del R

En la consola de R es donde se realizan los calculos.

Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.

Una sesion en R es la interaccion entre el usuario y el siste-ma.

Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.

Para obtener el valor de la ultima expresion evaluada tipear.Last.value.

Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.

Dr. Cristian Bayes FACI PUCP 19 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La consola del R

En la consola de R es donde se realizan los calculos.

Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.

Una sesion en R es la interaccion entre el usuario y el siste-ma.

Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.

Para obtener el valor de la ultima expresion evaluada tipear.Last.value.

Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.

Dr. Cristian Bayes FACI PUCP 19 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

R como calculadora

Si se introduce una expresion matematica, el resultado semostrara en la consola.

> 5/4

[1] 1.25

> log(2) ; cos(pi) ; ceiling(3.2)

[1] 0.6931472

[1] -1

[1] 4Dr. Cristian Bayes FACI PUCP 20 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Objetos y Funciones

Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).

Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.

Llamando una funcion:

nombrefuncion(argumentos separados por comas)

Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.

Dr. Cristian Bayes FACI PUCP 21 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Objetos y Funciones

Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).

Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.

Llamando una funcion:

nombrefuncion(argumentos separados por comas)

Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.

Dr. Cristian Bayes FACI PUCP 21 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Objetos y Funciones

Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).

Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.

Llamando una funcion:

nombrefuncion(argumentos separados por comas)

Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.

Dr. Cristian Bayes FACI PUCP 21 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Objetos y Funciones

Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).

Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.

Llamando una funcion:

nombrefuncion(argumentos separados por comas)

Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).

El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.

Dr. Cristian Bayes FACI PUCP 21 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Objetos y Funciones

Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).

Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.

Llamando una funcion:

nombrefuncion(argumentos separados por comas)

Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.

Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.

Dr. Cristian Bayes FACI PUCP 21 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Objetos y Funciones

Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).

Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.

Llamando una funcion:

nombrefuncion(argumentos separados por comas)

Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.

Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.

Dr. Cristian Bayes FACI PUCP 21 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Objetos y Funciones

Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).

Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.

Llamando una funcion:

nombrefuncion(argumentos separados por comas)

Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.

R DISTINGUE MAYUSCULAS DE MINUSCULAS.

Dr. Cristian Bayes FACI PUCP 21 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Objetos y Funciones

Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).

Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.

Llamando una funcion:

nombrefuncion(argumentos separados por comas)

Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.

Dr. Cristian Bayes FACI PUCP 21 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Ejemplo - Asignar Objetos y Llamado de Funciones

Supongamos que queremos encontrar la media de un con-junto de numeros. Primero se asigna el vector de numeroscon un nombre x y luego se llama a la funcion mean().

> x <- c(0,5,7,9,1,2,8)

> x

[1] 0 5 7 9 1 2 8

> mean(x)

[1] 4.571429

> X

Error: object ’X’ not found

Ahora supongamos que se quiere ordenar un vector y que losnumeros esten en orden descendente. Por defecto R ordenade modo ascendente, por lo que se tiene que cambiar elargumento decreasing por TRUE (el valor por defecto esFALSE).

Dr. Cristian Bayes FACI PUCP 22 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Ejemplo - Asignar Objetos y Llamado de Funciones

Supongamos que queremos encontrar la media de un con-junto de numeros. Primero se asigna el vector de numeroscon un nombre x y luego se llama a la funcion mean().

> x <- c(0,5,7,9,1,2,8)

> x

[1] 0 5 7 9 1 2 8

> mean(x)

[1] 4.571429

> X

Error: object ’X’ not found

Ahora supongamos que se quiere ordenar un vector y que losnumeros esten en orden descendente. Por defecto R ordenade modo ascendente, por lo que se tiene que cambiar elargumento decreasing por TRUE (el valor por defecto esFALSE).

Dr. Cristian Bayes FACI PUCP 22 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

> y <- c(4,2,0,9,5,3,10)

> y

[1] 4 2 0 9 5 3 10

> sort(y)

[1] 0 2 3 4 5 9 10

> sort(y, decreasing=TRUE)

[1] 10 9 5 4 3 2 0

En adelante, para que todos los comandos que escribimospuedan ser directamente copiados a la consola, omitiremos elsımbolo del cursor >.

Dr. Cristian Bayes FACI PUCP 23 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

> y <- c(4,2,0,9,5,3,10)

> y

[1] 4 2 0 9 5 3 10

> sort(y)

[1] 0 2 3 4 5 9 10

> sort(y, decreasing=TRUE)

[1] 10 9 5 4 3 2 0

En adelante, para que todos los comandos que escribimospuedan ser directamente copiados a la consola, omitiremos elsımbolo del cursor >.

Dr. Cristian Bayes FACI PUCP 23 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Retomando los ejemplos con R

Dada la introduccion previa a R, veamos como recrear losejemplos previos en R. El ingreso de los datos lo podemoshacer directamente en R u otro software (por ejemplo Excel)para luego importar estos datos a R. Vemos la primeraestrategia para el ejemplo con x = numero de accidentes.

En la consola de R escribamos

x = c(1, 2, 0, 3, 1, 0, 1, 0, 4, 2, 1, 1, 2, 0, 1,

1, 0, 3, 1, 1, 0, 2, 1, 0, 4, 0, 1, 2, 2, 2)

La distribucion de frecuencias de esta variable se obtiene con elcomando table

tab = table(x)

tab

x

0 1 2 3 4

8 11 7 2 2

Dr. Cristian Bayes FACI PUCP 24 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Retomando los ejemplos con R

Dada la introduccion previa a R, veamos como recrear losejemplos previos en R. El ingreso de los datos lo podemoshacer directamente en R u otro software (por ejemplo Excel)para luego importar estos datos a R. Vemos la primeraestrategia para el ejemplo con x = numero de accidentes.En la consola de R escribamos

x = c(1, 2, 0, 3, 1, 0, 1, 0, 4, 2, 1, 1, 2, 0, 1,

1, 0, 3, 1, 1, 0, 2, 1, 0, 4, 0, 1, 2, 2, 2)

La distribucion de frecuencias de esta variable se obtiene con elcomando table

tab = table(x)

tab

x

0 1 2 3 4

8 11 7 2 2Dr. Cristian Bayes FACI PUCP 24 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

La distribucion de los porcentajes se podrıa obtener con

100*tab/length(x)

x

0 1 2 3 4

26.666667 36.666667 23.333333 6.666667 6.666667

Si queremos tanto las frecuencias absolutas como relativas encolumnas, podemos usar el comando cbind, el cual sirve paraagrupar vectores en columnas.

> cbind(tab,tab/length(x))

tab

0 8 0.26666667

1 11 0.36666667

2 7 0.23333333

3 2 0.06666667

4 2 0.06666667Dr. Cristian Bayes FACI PUCP 25 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Algo interesante a notar es que la tabla de frecuencias es unobjeto (R es un lenguaje orientado a objetos) que se haguardado en la variable tab. Ella tiene un formato de tabla, quepodrıa convertirse en un vector con el comando

tab = as.vector(tab)

tab

[1] 8 11 7 2 2

Esto nos podrıa servir por ejemplo para encontrar lasfrecuencias acumuladas mediante

cumsum(tab)

0 1 2 3 4

8 19 26 28 30

El grafico de bastones asociado a esta distribucion defrecuencias se puede obtener mediante

Dr. Cristian Bayes FACI PUCP 26 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

plot(tab,type="h",ylab="Frecuencia")

title("Distribucion de frecuencias del numero

de accidentes")

Lo que nos da el grafico siguiente:

02

46

810

x

Frecue

ncia

0 1 2 3 4

Distribucion de frecuencias del número de accidentes

Dr. Cristian Bayes FACI PUCP 27 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Veamos ahora el ejemplo para x = Calidad del aire,considerando que la data la copiamos (copy paste) a Exceltoda en un columna con la primera fila Calidad. Grabando estearchivo en formato csv podemos invocar a

x = read.csv(file.choose())

La opcion file.choose() lo direccionara a su PC para que elija elarchivo buscado. Otra posibilidad es colocar entre comillas elnombre del archivo pero este deberıa de estar en su directoriode trabajo.

La distribucion de frecuencias absolutas vendra dada por:

table(x)

x

Bueno Malo Moderado Muy Malo

3 12 14 1

Dr. Cristian Bayes FACI PUCP 28 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Veamos ahora el ejemplo para x = Calidad del aire,considerando que la data la copiamos (copy paste) a Exceltoda en un columna con la primera fila Calidad. Grabando estearchivo en formato csv podemos invocar a

x = read.csv(file.choose())

La opcion file.choose() lo direccionara a su PC para que elija elarchivo buscado. Otra posibilidad es colocar entre comillas elnombre del archivo pero este deberıa de estar en su directoriode trabajo.La distribucion de frecuencias absolutas vendra dada por:

table(x)

x

Bueno Malo Moderado Muy Malo

3 12 14 1

Dr. Cristian Bayes FACI PUCP 28 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

El grafico de barras para la distribucion de x se obtienemediante

barplot(table(x),ylab=#Frecuencia")

title(# Distribucion de frecuencias

del estado de la calidad del aire")

Bueno Malo Moderado Muy Malo

Frecue

ncia

02

46

810

1214

Distribucion de frecuencias del estado de la calidad del aire

Dr. Cristian Bayes FACI PUCP 29 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Otra alternativa al grafico anterior es el grafico circular el cualpuede obtenerse mediante

> pie(table(x))

Bueno

Malo

Moderado

Muy Malo

Dr. Cristian Bayes FACI PUCP 30 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUANTITATIVO CONTINUO

En este caso es necesario agrupar las observaciones en clases.Considerando las clases como intervalos de igual amplitud,podemos seguir el siguiente procedimiento:

Establecer el numero de clases k, usualmente se consideranentre 5 y 10 intervalos, esta es una decision subjetiva ydepende de la experiencia. Una sugerencia es seguir la reglade Sturges: k = 1 + 3.3 log10(n), donde k se aproxima porexceso.

Determinar la amplitud de los datos, A =max − mın.

Determinar el tamano de la clase, c = Ak

. Se debe redondear

por exceso al numero de decimales de los datos.Usar c para construir los intervalos de cada clase, en estecaso consideraremos intervalos cerrados por la derecha yabiertos por la izquierda, con excepcion del primero que escerrado en ambos lados.Construir la tabla, calculando la frecuencia de cada clase.

Dr. Cristian Bayes FACI PUCP 31 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUANTITATIVO CONTINUO

En este caso es necesario agrupar las observaciones en clases.Considerando las clases como intervalos de igual amplitud,podemos seguir el siguiente procedimiento:

Establecer el numero de clases k, usualmente se consideranentre 5 y 10 intervalos, esta es una decision subjetiva ydepende de la experiencia. Una sugerencia es seguir la reglade Sturges: k = 1 + 3.3 log10(n), donde k se aproxima porexceso.Determinar la amplitud de los datos, A =max − mın.

Determinar el tamano de la clase, c = Ak

. Se debe redondear

por exceso al numero de decimales de los datos.Usar c para construir los intervalos de cada clase, en estecaso consideraremos intervalos cerrados por la derecha yabiertos por la izquierda, con excepcion del primero que escerrado en ambos lados.Construir la tabla, calculando la frecuencia de cada clase.

Dr. Cristian Bayes FACI PUCP 31 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUANTITATIVO CONTINUO

En este caso es necesario agrupar las observaciones en clases.Considerando las clases como intervalos de igual amplitud,podemos seguir el siguiente procedimiento:

Establecer el numero de clases k, usualmente se consideranentre 5 y 10 intervalos, esta es una decision subjetiva ydepende de la experiencia. Una sugerencia es seguir la reglade Sturges: k = 1 + 3.3 log10(n), donde k se aproxima porexceso.Determinar la amplitud de los datos, A =max − mın.

Determinar el tamano de la clase, c = Ak

. Se debe redondear

por exceso al numero de decimales de los datos.

Usar c para construir los intervalos de cada clase, en estecaso consideraremos intervalos cerrados por la derecha yabiertos por la izquierda, con excepcion del primero que escerrado en ambos lados.Construir la tabla, calculando la frecuencia de cada clase.

Dr. Cristian Bayes FACI PUCP 31 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUANTITATIVO CONTINUO

En este caso es necesario agrupar las observaciones en clases.Considerando las clases como intervalos de igual amplitud,podemos seguir el siguiente procedimiento:

Establecer el numero de clases k, usualmente se consideranentre 5 y 10 intervalos, esta es una decision subjetiva ydepende de la experiencia. Una sugerencia es seguir la reglade Sturges: k = 1 + 3.3 log10(n), donde k se aproxima porexceso.Determinar la amplitud de los datos, A =max − mın.

Determinar el tamano de la clase, c = Ak

. Se debe redondear

por exceso al numero de decimales de los datos.Usar c para construir los intervalos de cada clase, en estecaso consideraremos intervalos cerrados por la derecha yabiertos por la izquierda, con excepcion del primero que escerrado en ambos lados.

Construir la tabla, calculando la frecuencia de cada clase.

Dr. Cristian Bayes FACI PUCP 31 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Tablas o distribuciones de frecuenciasCASO CUANTITATIVO CONTINUO

En este caso es necesario agrupar las observaciones en clases.Considerando las clases como intervalos de igual amplitud,podemos seguir el siguiente procedimiento:

Establecer el numero de clases k, usualmente se consideranentre 5 y 10 intervalos, esta es una decision subjetiva ydepende de la experiencia. Una sugerencia es seguir la reglade Sturges: k = 1 + 3.3 log10(n), donde k se aproxima porexceso.Determinar la amplitud de los datos, A =max − mın.

Determinar el tamano de la clase, c = Ak

. Se debe redondear

por exceso al numero de decimales de los datos.Usar c para construir los intervalos de cada clase, en estecaso consideraremos intervalos cerrados por la derecha yabiertos por la izquierda, con excepcion del primero que escerrado en ambos lados.Construir la tabla, calculando la frecuencia de cada clase.Dr. Cristian Bayes FACI PUCP 31 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se considera la siguiente notacion:

Lj : Extremo derecho de la clase j.

xj : Marca de clase o punto medio del intervalo de clase j.

nj : Frecuencia de la clase j.

fj = nj

n : Frecuencia relativa de la clase j.

pj = 100 × fj : Porcentaje de la clase j.

Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.

Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.

Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.

Dr. Cristian Bayes FACI PUCP 32 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se considera la siguiente notacion:

Lj : Extremo derecho de la clase j.

xj : Marca de clase o punto medio del intervalo de clase j.

nj : Frecuencia de la clase j.

fj = nj

n : Frecuencia relativa de la clase j.

pj = 100 × fj : Porcentaje de la clase j.

Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.

Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.

Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.

Dr. Cristian Bayes FACI PUCP 32 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se considera la siguiente notacion:

Lj : Extremo derecho de la clase j.

xj : Marca de clase o punto medio del intervalo de clase j.

nj : Frecuencia de la clase j.

fj = nj

n : Frecuencia relativa de la clase j.

pj = 100 × fj : Porcentaje de la clase j.

Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.

Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.

Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.

Dr. Cristian Bayes FACI PUCP 32 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se considera la siguiente notacion:

Lj : Extremo derecho de la clase j.

xj : Marca de clase o punto medio del intervalo de clase j.

nj : Frecuencia de la clase j.

fj = nj

n : Frecuencia relativa de la clase j.

pj = 100 × fj : Porcentaje de la clase j.

Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.

Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.

Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.

Dr. Cristian Bayes FACI PUCP 32 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se considera la siguiente notacion:

Lj : Extremo derecho de la clase j.

xj : Marca de clase o punto medio del intervalo de clase j.

nj : Frecuencia de la clase j.

fj = nj

n : Frecuencia relativa de la clase j.

pj = 100 × fj : Porcentaje de la clase j.

Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.

Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.

Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.

Dr. Cristian Bayes FACI PUCP 32 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se considera la siguiente notacion:

Lj : Extremo derecho de la clase j.

xj : Marca de clase o punto medio del intervalo de clase j.

nj : Frecuencia de la clase j.

fj = nj

n : Frecuencia relativa de la clase j.

pj = 100 × fj : Porcentaje de la clase j.

Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.

Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.

Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.

Dr. Cristian Bayes FACI PUCP 32 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se considera la siguiente notacion:

Lj : Extremo derecho de la clase j.

xj : Marca de clase o punto medio del intervalo de clase j.

nj : Frecuencia de la clase j.

fj = nj

n : Frecuencia relativa de la clase j.

pj = 100 × fj : Porcentaje de la clase j.

Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.

Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.

Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.

Dr. Cristian Bayes FACI PUCP 32 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se considera la siguiente notacion:

Lj : Extremo derecho de la clase j.

xj : Marca de clase o punto medio del intervalo de clase j.

nj : Frecuencia de la clase j.

fj = nj

n : Frecuencia relativa de la clase j.

pj = 100 × fj : Porcentaje de la clase j.

Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.

Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.

Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.

Dr. Cristian Bayes FACI PUCP 32 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Esta tabla de frecuencias suele ser representada graficamente atraves del:

Histograma: Aquı cada clase es representada por una barracuya altura es proporcional a la frecuencia con que ocurre.En este tipo de graficos no se debe dejar espacios entre lasbarras para indicar que se esta presentando informacion deuna variable cuantitativa continua.

Polıgono de frecuencias: Es formada uniendo los puntos me-dios altos de cada barra del histograma.

Grafico de frecuencias acumuladas u ojiva: Utiliza las fre-cuencias acumuladas y los limites superiores de cada inter-valo de clase.

Dr. Cristian Bayes FACI PUCP 33 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Esta tabla de frecuencias suele ser representada graficamente atraves del:

Histograma: Aquı cada clase es representada por una barracuya altura es proporcional a la frecuencia con que ocurre.En este tipo de graficos no se debe dejar espacios entre lasbarras para indicar que se esta presentando informacion deuna variable cuantitativa continua.

Polıgono de frecuencias: Es formada uniendo los puntos me-dios altos de cada barra del histograma.

Grafico de frecuencias acumuladas u ojiva: Utiliza las fre-cuencias acumuladas y los limites superiores de cada inter-valo de clase.

Dr. Cristian Bayes FACI PUCP 33 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Esta tabla de frecuencias suele ser representada graficamente atraves del:

Histograma: Aquı cada clase es representada por una barracuya altura es proporcional a la frecuencia con que ocurre.En este tipo de graficos no se debe dejar espacios entre lasbarras para indicar que se esta presentando informacion deuna variable cuantitativa continua.

Polıgono de frecuencias: Es formada uniendo los puntos me-dios altos de cada barra del histograma.

Grafico de frecuencias acumuladas u ojiva: Utiliza las fre-cuencias acumuladas y los limites superiores de cada inter-valo de clase.

Dr. Cristian Bayes FACI PUCP 33 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Ejemplo:

Se registro el consumo de electricidad en kWh de 50 hogares enun cierto distrito estos fueron los resultados:

589 493 531 355 469 432 415 468 617 426300 439 464 430 403 525 478 392 432 459398 372 488 481 620 484 509 522 488 502596 567 466 477 580 555 520 525 425 650384 497 438 501 521 452 508 462 457 577

Construya una distribucion de frecuencias y muestre estagraficamente.

Dr. Cristian Bayes FACI PUCP 34 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Solucion:

De no tener mayor experiencia o no indicarse, usaremos la reglade Sturges con k = 1 + 3.3 log1 0(50) = 6.6 ≈ 7 clases. El valormınimo de los datos es 300 kWh y el maximo 650 kWh, por latanto la amplitud es de

A = 650 − 300 = 350 kWh

con lo que obtenemos que el ancho de cada intervalo de clasesera de:

c = 350/7 = 50 kWh.

A partir de estos resultados obtenemos la siguiente tabla defrecuencias para este conjunto de datos.

Dr. Cristian Bayes FACI PUCP 35 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Intervalo Marca Frec. Frec. Porcentaje Frec. Frec. Rel. Porcentajeclase de clase relativa acum. acumulada acumulado

xj nj fj pj Nj Fj Pj

[300,350] 325 1 0.02 2 1 0.02 2(350,400] 375 5 0.1 10 6 0.12 12(400,450] 425 9 0.18 18 15 0.3 30(450,500] 475 16 0.32 32 31 0.62 62(500,550] 525 10 0.2 20 41 0.82 82(550,600] 575 6 0.12 12 47 0.94 94(600,650] 625 3 0.06 6 50 1 100

Total 50 1 100

Dr. Cristian Bayes FACI PUCP 36 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se puede observar

Que las frecuencias, van cambiando a partir del valor 1 en elprimer intervalo hasta alcanzar los valores de 9, 16 y 10 enlos intervalos 3, 4 y 5 para luego decrecer en los intervalos6 y 7. Esto sugiere que la mayorıa de los hogares tienen unconsumo de electricidad intermedio entre los intervalos 3, 4y 5 (de 400 a 550 kWh).

Que existen pocos hogares con consumo de electricidad ba-jos o altos. Estos resultados tambien se pueden observar sianalizamos las frecuencias relativas y los porcentajes.Otras posibles interpretaciones que podemos hacer son: so-lamente el 1 % de los hogares tienen consumos por debajode los 350 kWh; el 18 % de los hogares tienen consumosmayores a los 550 kWh. La informacion contenida en estatabla se presenta tambien en forma grafica en la siguientefigura.

Dr. Cristian Bayes FACI PUCP 37 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se puede observar

Que las frecuencias, van cambiando a partir del valor 1 en elprimer intervalo hasta alcanzar los valores de 9, 16 y 10 enlos intervalos 3, 4 y 5 para luego decrecer en los intervalos6 y 7. Esto sugiere que la mayorıa de los hogares tienen unconsumo de electricidad intermedio entre los intervalos 3, 4y 5 (de 400 a 550 kWh).Que existen pocos hogares con consumo de electricidad ba-jos o altos. Estos resultados tambien se pueden observar sianalizamos las frecuencias relativas y los porcentajes.

Otras posibles interpretaciones que podemos hacer son: so-lamente el 1 % de los hogares tienen consumos por debajode los 350 kWh; el 18 % de los hogares tienen consumosmayores a los 550 kWh. La informacion contenida en estatabla se presenta tambien en forma grafica en la siguientefigura.

Dr. Cristian Bayes FACI PUCP 37 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Se puede observar

Que las frecuencias, van cambiando a partir del valor 1 en elprimer intervalo hasta alcanzar los valores de 9, 16 y 10 enlos intervalos 3, 4 y 5 para luego decrecer en los intervalos6 y 7. Esto sugiere que la mayorıa de los hogares tienen unconsumo de electricidad intermedio entre los intervalos 3, 4y 5 (de 400 a 550 kWh).Que existen pocos hogares con consumo de electricidad ba-jos o altos. Estos resultados tambien se pueden observar sianalizamos las frecuencias relativas y los porcentajes.Otras posibles interpretaciones que podemos hacer son: so-lamente el 1 % de los hogares tienen consumos por debajode los 350 kWh; el 18 % de los hogares tienen consumosmayores a los 550 kWh. La informacion contenida en estatabla se presenta tambien en forma grafica en la siguientefigura.

Dr. Cristian Bayes FACI PUCP 37 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

8 CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS

Se puede observar que las frecuencias, van cambiando a partir del valor 1 en el primer intervalo

hasta alcanzar los valores de 9, 16 y 10 en los intervalos 3, 4 y 5 para luego decrecer en los

intervalos 6 y 7. Esto sugiere que la mayorıa de los hogares tienen un consumo de electricidad

intermedio entre los intervalos 3, 4 y 5 (de 400 a 550 kWh). Que existen pocos hogares con

consumo de electricidad bajos o altos. Estos resultados tambien se pueden observar si analizamos

las frecuencias relativas y los porcentajes. Otras posibles interpretaciones que podemos hacer

son: solamente el 1 % de los hogares tienen consumos por debajo de los 350 kWh; el 18 % de los

hogares tienen consumos mayores a los 550 kWh.

La informacion contenida en esta tabla se presenta tambien en forma grafica en la Figura 1.3.

Consumo en kWh

Fre

cuen

cia

300 350 400 450 500 550 600 650

05

1015

●●

300 350 400 450 500 550 600 650

0.0

0.2

0.4

0.6

0.8

1.0

Consumo en kWh

Fre

cuen

cia

rela

tiva

Figura 1.3: Histograma con polıgono de frecuencias y grafico de frecuencias acumuladas

1.3. Medidas de Tendencia Central

En esta seccion estudiaremos estadısticas que son utilizadas para representar el centro de

un conjunto de datos. Consideraremos a partir de ahora en las definiciones que contamos con

una muestra de tamano n denotada por x1, x2, ..., xn.

Media

La media muestral es la suma de todos los datos dividido por el numero de datos. Se suele

denotar por una letra con una barra encima (X). La media muestral estara en las mismas

unidades que los valores de la muestra x1, x2, ..., xn.

X =

n∑

i=1

xi

n=x1 + x2 + ...+ xn

n

A continuacion presentamos algunas caracterısticas de la media:

La media es calculada tomando en cuenta todos los valores de la muestra.

La media puede verse fuertemente afectada por la presencia de valores outlier (observa-

ciones que son muy grandes o muy pequenas con respecto al resto de observaciones).

Figura: Histograma con polıgono de frecuencias y ojiva para el consumode electricidad en los 50 hogares del distrito.

Dr. Cristian Bayes FACI PUCP 38 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

En R el histograma anterior se podrıa obtener mediante

elect=c(

+ 589,493,531,355,469,432,415,468,617,426,

+ 300,439,464,430,403,525,478,392,432,459,

+ 398,372,488,481,620,484,509,522,488,502,

+ 596,567,466,477,580,555,520,525,425,650,

+ 384,497,438,501,521,452,508,462,457,577)

helect = hist(elect)

Ella nos da justamente 7 intervalos, segun el valor por defecto(default) de R. En caso que esto ultimo no ocurra; por citar sidesearamos 6 intervalos, podrıamos escribir:

b=seq(min(elect),max(elect),by = diff(range(elect)))

helect6=hist(elect,breaks=b)

Dr. Cristian Bayes FACI PUCP 39 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Note que helect es un objecto que tiene lo siguiente:

helect

$breaks

[1] 300 350 400 450 500 550 600 650

$counts

[1] 1 5 9 16 10 6 3

$density

[1] 0.0004 0.0020 0.0036 0.0064 0.0040 0.0024 0.0012

$mids

[1] 325 375 425 475 525 575 625

$xname

[1] "elect"

$equidist

[1] TRUE

attr(,"class")

[1] "histogram"

Dr. Cristian Bayes FACI PUCP 40 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Con ello podrıamos por ejemplo construir la distribucion defrecuencias mediante:

htable = cbind(helect$breaks[-1],helect$mids,

helect$counts)

colnames(htable) = c("L_j", "x_j","n_j")

htable

L_j x_j n_j

[1,] 350 325 1

[2,] 400 375 5

[3,] 450 425 9

[4,] 500 475 16

[5,] 550 525 10

[6,] 600 575 6

[7,] 650 625 3

Dr. Cristian Bayes FACI PUCP 41 / 42

CAPITULO 1

Conceptosbasicos

Organizacionde datos

Una breveintroduccional R

Distribucionde frecuenciaspor intervalos

Otra aplicacion serıa obtener la ojiva de esta distribucion con:

bb=helect$breaks

P = c(0,cumsum(helect$counts/length(elect))*100)

plot(bb,P,xlab="Consumos en kWh",ylab="Porcentaje acumulado de hogares")

lines(bb,P,col="red")

title("Ojiva para la distribucion de electricidad en los hogares")

●●

300 350 400 450 500 550 600 650

020

4060

80100

Consumos en kWh

Porce

ntaje a

cumula

do de

hogare

s

Ojiva para la distribución de electricidad en los hogares

Dr. Cristian Bayes FACI PUCP 42 / 42