clase1
DESCRIPTION
CLASE 1TRANSCRIPT
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
CAPITULO 1Organizacion y resumen de datos.
2015
Dr. Cristian Bayes FACI PUCP 1 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Estadıstica
Es un conjunto de metodos cientıficos para la recoleccion,organizacion, analisis e interpretacion de datos con la finalidadde realizar conclusiones y tomar decisiones validas.
Estadıstica Descriptiva: El objetivo de la estadıstica des-criptiva es resumir las principales caracterısticas de un con-junto de datos a traves de tablas, graficos y medidas numeri-cas.
Estadıstica Inferencial: Se encarga del analisis de los datoscon el proposito de realizar conclusiones validas acerca dela poblacion de donde originalmente se recolectaron estosdatos. La Estadıstica inferencial esta basada en la teorıa deprobabilidades.
Dr. Cristian Bayes FACI PUCP 2 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Estadıstica
Es un conjunto de metodos cientıficos para la recoleccion,organizacion, analisis e interpretacion de datos con la finalidadde realizar conclusiones y tomar decisiones validas.
Estadıstica Descriptiva: El objetivo de la estadıstica des-criptiva es resumir las principales caracterısticas de un con-junto de datos a traves de tablas, graficos y medidas numeri-cas.
Estadıstica Inferencial: Se encarga del analisis de los datoscon el proposito de realizar conclusiones validas acerca dela poblacion de donde originalmente se recolectaron estosdatos. La Estadıstica inferencial esta basada en la teorıa deprobabilidades.
Dr. Cristian Bayes FACI PUCP 2 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Poblacion
Es un conjunto de elementos que poseen al menos un atributoen comun, sobre los cuales se desea investigar una o mascaracterısticas. El numero de elementos que conforman unapoblacion sera denotado por la letra N .
Son ejemplos de poblacion:
Las bolsas de cemento producidas en un dıa por una fabrica.
Los hogares de una region.
Los alumnos que estudian Ingenierıa Civil en la PUCP.
Una muestra es, por otro lado, un subconjunto de la poblacion.El numero de elementos que conforman una muestra seradenotado por la letra n. Se dira que una muestra es aleatoria sisus elementos han sido seleccionados mediante unprocedimiento probabilıstico.
Dr. Cristian Bayes FACI PUCP 3 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Poblacion
Es un conjunto de elementos que poseen al menos un atributoen comun, sobre los cuales se desea investigar una o mascaracterısticas. El numero de elementos que conforman unapoblacion sera denotado por la letra N .Son ejemplos de poblacion:
Las bolsas de cemento producidas en un dıa por una fabrica.
Los hogares de una region.
Los alumnos que estudian Ingenierıa Civil en la PUCP.
Una muestra es, por otro lado, un subconjunto de la poblacion.El numero de elementos que conforman una muestra seradenotado por la letra n. Se dira que una muestra es aleatoria sisus elementos han sido seleccionados mediante unprocedimiento probabilıstico.
Dr. Cristian Bayes FACI PUCP 3 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Poblacion
Es un conjunto de elementos que poseen al menos un atributoen comun, sobre los cuales se desea investigar una o mascaracterısticas. El numero de elementos que conforman unapoblacion sera denotado por la letra N .Son ejemplos de poblacion:
Las bolsas de cemento producidas en un dıa por una fabrica.
Los hogares de una region.
Los alumnos que estudian Ingenierıa Civil en la PUCP.
Una muestra es, por otro lado, un subconjunto de la poblacion.El numero de elementos que conforman una muestra seradenotado por la letra n. Se dira que una muestra es aleatoria sisus elementos han sido seleccionados mediante unprocedimiento probabilıstico.
Dr. Cristian Bayes FACI PUCP 3 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Variable
Es el resultado de una medicion o una caracterıstica en loselementos de la poblacion. Una variable suele ser denotada poruna letra mayuscula, por ejemplo: X, Y o Z.
Son ejemplos de variable:
X = Peso de una bolsa de cemento de la produccion de undıa de una fabrica.
Y = Ingreso mensual de un hogar de una region.
Z = Nivel socioeconomico de un hogar de una region.
Se denominara como dato al valor que toma una variable en unelemento de la poblacion. Un conjunto de n datos de unavariable X se suele denotar como x1, x2, ..., xn.
Dr. Cristian Bayes FACI PUCP 4 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Variable
Es el resultado de una medicion o una caracterıstica en loselementos de la poblacion. Una variable suele ser denotada poruna letra mayuscula, por ejemplo: X, Y o Z.Son ejemplos de variable:
X = Peso de una bolsa de cemento de la produccion de undıa de una fabrica.
Y = Ingreso mensual de un hogar de una region.
Z = Nivel socioeconomico de un hogar de una region.
Se denominara como dato al valor que toma una variable en unelemento de la poblacion. Un conjunto de n datos de unavariable X se suele denotar como x1, x2, ..., xn.
Dr. Cristian Bayes FACI PUCP 4 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Variable
Es el resultado de una medicion o una caracterıstica en loselementos de la poblacion. Una variable suele ser denotada poruna letra mayuscula, por ejemplo: X, Y o Z.Son ejemplos de variable:
X = Peso de una bolsa de cemento de la produccion de undıa de una fabrica.
Y = Ingreso mensual de un hogar de una region.
Z = Nivel socioeconomico de un hogar de una region.
Se denominara como dato al valor que toma una variable en unelemento de la poblacion. Un conjunto de n datos de unavariable X se suele denotar como x1, x2, ..., xn.
Dr. Cristian Bayes FACI PUCP 4 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen
Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.
Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:
Nominales: si no existe orden entre las categorıas.Ordinales: si existe orden entre las categorıas.
Dr. Cristian Bayes FACI PUCP 5 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen
Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.
Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.
Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:
Nominales: si no existe orden entre las categorıas.Ordinales: si existe orden entre las categorıas.
Dr. Cristian Bayes FACI PUCP 5 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen
Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.
Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:
Nominales: si no existe orden entre las categorıas.Ordinales: si existe orden entre las categorıas.
Dr. Cristian Bayes FACI PUCP 5 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen
Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.
Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:
Nominales: si no existe orden entre las categorıas.Ordinales: si existe orden entre las categorıas.
Dr. Cristian Bayes FACI PUCP 5 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen
Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.
Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:
Nominales: si no existe orden entre las categorıas.
Ordinales: si existe orden entre las categorıas.
Dr. Cristian Bayes FACI PUCP 5 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numericos con losque se pueden realizar operaciones aritmeticas. Se dividenen
Discretas: son aquellas variables que toman un numero enu-merable finito o infinito de valores. Usualmente se conside-ran numeros enteros.Continuas: son aquellas variables que pueden asumir cual-quier valor dentro de un intervalo de valores, por lo quepueden tomar un numero no enumerable de valores.
Variables cualitativas: Si toma como valores categorıasque representan una clasificacion en la poblacion. Si bienestas puedan representarse por numeros, estos no admitenoperaciones aritmeticas. Las variables cualitativas se deno-minan:
Nominales: si no existe orden entre las categorıas.Ordinales: si existe orden entre las categorıas.
Dr. Cristian Bayes FACI PUCP 5 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se tienen las definiciones siguientes :
Parametro: Es una medida que describe una poblacion. Elparametro resume cierta informacion de una poblacion portanto es numero unico y por los usual desconocido, perode interes. Un parametro suele ser denotado por una letragriega, por ejemplo: µ para la media, σ2 para la varianza yp para una proporcion.
Estadıstica: Es una medida que describe a una muestray es definida como una funcion de las observaciones de lamuestra que no dependan de ningun parametro. Seguiremosla siguiente notacion para los siguientes estadısticas: X parala media muestral, S2 para la variancia muestral, p para laproporcion muestral, mın para el valor mınimo y max parael valor maximo de una muestra.
Dr. Cristian Bayes FACI PUCP 6 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se tienen las definiciones siguientes :
Parametro: Es una medida que describe una poblacion. Elparametro resume cierta informacion de una poblacion portanto es numero unico y por los usual desconocido, perode interes. Un parametro suele ser denotado por una letragriega, por ejemplo: µ para la media, σ2 para la varianza yp para una proporcion.
Estadıstica: Es una medida que describe a una muestray es definida como una funcion de las observaciones de lamuestra que no dependan de ningun parametro. Seguiremosla siguiente notacion para los siguientes estadısticas: X parala media muestral, S2 para la variancia muestral, p para laproporcion muestral, mın para el valor mınimo y max parael valor maximo de una muestra.
Dr. Cristian Bayes FACI PUCP 6 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Estimador: Es una estadıstica que es utilizada para estimarel valor de un parametro.
Estimacion: Es el valor que se obtiene para un estimadorpara una muestra dada.
Ejemplo: Considerando como poblacion los hogares de unacierta region y como variable el ingreso de estos hogares,podemos definir como parametro µ = ingreso promedio de unhogar de esta region y como estimador de este parametro a Xla media muestral. Seleccionados por ejemplo 40 hogares ellanos arroja una estimacion de 3,767.5 um.
Dr. Cristian Bayes FACI PUCP 7 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Estimador: Es una estadıstica que es utilizada para estimarel valor de un parametro.
Estimacion: Es el valor que se obtiene para un estimadorpara una muestra dada.
Ejemplo: Considerando como poblacion los hogares de unacierta region y como variable el ingreso de estos hogares,podemos definir como parametro µ = ingreso promedio de unhogar de esta region y como estimador de este parametro a Xla media muestral. Seleccionados por ejemplo 40 hogares ellanos arroja una estimacion de 3,767.5 um.
Dr. Cristian Bayes FACI PUCP 7 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Estimador: Es una estadıstica que es utilizada para estimarel valor de un parametro.
Estimacion: Es el valor que se obtiene para un estimadorpara una muestra dada.
Ejemplo: Considerando como poblacion los hogares de unacierta region y como variable el ingreso de estos hogares,podemos definir como parametro µ = ingreso promedio de unhogar de esta region y como estimador de este parametro a Xla media muestral. Seleccionados por ejemplo 40 hogares ellanos arroja una estimacion de 3,767.5 um.
Dr. Cristian Bayes FACI PUCP 7 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Estimador: Es una estadıstica que es utilizada para estimarel valor de un parametro.
Estimacion: Es el valor que se obtiene para un estimadorpara una muestra dada.
Ejemplo: Considerando como poblacion los hogares de unacierta region y como variable el ingreso de estos hogares,podemos definir como parametro µ = ingreso promedio de unhogar de esta region y como estimador de este parametro a Xla media muestral. Seleccionados por ejemplo 40 hogares ellanos arroja una estimacion de 3,767.5 um.
Dr. Cristian Bayes FACI PUCP 7 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUALITATIVO
Cuando la variable en estudio es cualitativa, una tabla defrecuencias esta constituida por una lista de las posiblescategorıas acompanadas por el numero de veces que ocurrecada una de ellas. En este caso asumiremos que la variable tienek categorıas diferentes y consideraremos la siguiente notacion:
nj : la frecuencia o numero de veces que ocurre la categorıaj.
fj : la frecuencia relativa o proporcion de la categorıa j,calculada como fj = nj
n , siendo n el numero total de datos.
pj : el porcentaje de la categorıa j, calculado como pj =100 × fj .
Es claro que se cumple que:k
∑j=1
nj = n,k
∑j=1
fj = 1 yk
∑j=1
pj =100 %
Dr. Cristian Bayes FACI PUCP 8 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUALITATIVO
Cuando la variable en estudio es cualitativa, una tabla defrecuencias esta constituida por una lista de las posiblescategorıas acompanadas por el numero de veces que ocurrecada una de ellas. En este caso asumiremos que la variable tienek categorıas diferentes y consideraremos la siguiente notacion:
nj : la frecuencia o numero de veces que ocurre la categorıaj.
fj : la frecuencia relativa o proporcion de la categorıa j,calculada como fj = nj
n , siendo n el numero total de datos.
pj : el porcentaje de la categorıa j, calculado como pj =100 × fj .
Es claro que se cumple que:k
∑j=1
nj = n,k
∑j=1
fj = 1 yk
∑j=1
pj =100 %
Dr. Cristian Bayes FACI PUCP 8 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUALITATIVO
Cuando la variable en estudio es cualitativa, una tabla defrecuencias esta constituida por una lista de las posiblescategorıas acompanadas por el numero de veces que ocurrecada una de ellas. En este caso asumiremos que la variable tienek categorıas diferentes y consideraremos la siguiente notacion:
nj : la frecuencia o numero de veces que ocurre la categorıaj.
fj : la frecuencia relativa o proporcion de la categorıa j,calculada como fj = nj
n , siendo n el numero total de datos.
pj : el porcentaje de la categorıa j, calculado como pj =100 × fj .
Es claro que se cumple que:k
∑j=1
nj = n,k
∑j=1
fj = 1 yk
∑j=1
pj =100 %
Dr. Cristian Bayes FACI PUCP 8 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUALITATIVO
Cuando la variable en estudio es cualitativa, una tabla defrecuencias esta constituida por una lista de las posiblescategorıas acompanadas por el numero de veces que ocurrecada una de ellas. En este caso asumiremos que la variable tienek categorıas diferentes y consideraremos la siguiente notacion:
nj : la frecuencia o numero de veces que ocurre la categorıaj.
fj : la frecuencia relativa o proporcion de la categorıa j,calculada como fj = nj
n , siendo n el numero total de datos.
pj : el porcentaje de la categorıa j, calculado como pj =100 × fj .
Es claro que se cumple que:k
∑j=1
nj = n,k
∑j=1
fj = 1 yk
∑j=1
pj =100 %
Dr. Cristian Bayes FACI PUCP 8 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La informacion contenida en la tabla de frecuencias puede serrepresentada a traves de graficos como:
Grafico de barras: a cada categorıa se la representa por unabarra cuya altura es proporcional a la frecuencia con queocurre. En este tipo de graficos se suele dejar un espacioentre las barras para indicar que se esta presentando infor-macion de una variable cualitativa.
Grafico de sectores circulares: a cada categorıa se la repre-senta por un sector del cırculo proporcional a la frecuenciacon que ocurre.
Dr. Cristian Bayes FACI PUCP 9 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La informacion contenida en la tabla de frecuencias puede serrepresentada a traves de graficos como:
Grafico de barras: a cada categorıa se la representa por unabarra cuya altura es proporcional a la frecuencia con queocurre. En este tipo de graficos se suele dejar un espacioentre las barras para indicar que se esta presentando infor-macion de una variable cualitativa.
Grafico de sectores circulares: a cada categorıa se la repre-senta por un sector del cırculo proporcional a la frecuenciacon que ocurre.
Dr. Cristian Bayes FACI PUCP 9 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Ejemplo:
Durante un mes se monitoreo el estado de la calidad del aire enuna ciudad, estos fueron los resultados:
Bueno Moderado Bueno Malo Moderado MaloMalo Moderado Malo Malo Malo ModeradoModerado Moderado Moderado Malo Muy Malo MaloModerado Moderado Malo Moderado Moderado MaloMalo Moderado Moderado Bueno Moderado Malo
Obtenga su distribucion de frecuencias y los graficos de barras y desectores circulares.
Dr. Cristian Bayes FACI PUCP 10 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Solucion:
Es directo obtener la siguiente distribucion de frecuencias:
j Categorıas Frecuencia Frecuencia relativa Porcentajenj fj pj
1 Bueno 3 0.10 102 Moderado 14 0.467 46.73 Malo 12 0.40 404 Muy Malo 1 0.033 3.3
Total 30 1 100
Dr. Cristian Bayes FACI PUCP 11 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La informacion contenida en esta tabla se presenta de formagrafica en siguiente figura.
1.2. ORGANIZACION DE DATOS 5
Bueno Moderado Malo Muy Malo
0.0
0.1
0.2
0.3
0.4
Bueno10%
Moderado47%
Malo40%
Muy Malo3%
Figura 1.1: Grafico de Barras y de Sectores circulares
Ejemplo 1.8.
En un cierto distrito durante un mes se registro el numero de accidentes de transito por dıa,
estos fueron los resultados:
1 2 0 3 1 0 1 0 4 2
1 1 2 0 1 1 0 3 1 1
0 2 1 0 4 0 1 2 2 2
La variable numero de accidentes de transito por dıa en un distrito puede tomar los siguientes
valores: 0, 1, 2, 3 y 4. A continuacion presentamos la tabla de frecuencias para este conjunto de
datos
Numero de Frecuencia Frecuencia relativa Porcentaje
accidentes nj fj pj
0 8 0.27 27
1 11 0.37 37
2 7 0.23 23
3 2 0.07 7
4 2 0.07 7
Total 30 1.00 100
La informacion contenida en esta tabla se presenta en forma grafica en la Figura 1.2.
Variable cuantitativa continua
Cuando la variable en estudio es cuantitativa continua, para construir una tabla de frecuencias se
agrupan las observaciones en clases y se consideran las frecuencias en cada clase. Consideraremos
las clases como intervalos de igual amplitud, podemos seguir el siguiente procedimiento:
Figura: Grafico de Barras y de Sectores circulares
Dr. Cristian Bayes FACI PUCP 12 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUANTITATIVO DISCRETO
En este caso la tabla de frecuencias estara constituida por unalista de las posibles valores que puede tomar la variableacompanadas por el numero de veces que ocurre cada uno deestos valores. En este caso asumiremos que la variable X tienek valores distintos x1, ..., xk y consideraremos la siguientenotacion
nj : la frecuencia o numero de veces que ocurre el valor xj .
fj : la frecuencia relativa del valor xj , calculada como fj =nj/n, siendo n el numero total de datos.
pj : el porcentaje del valor xj , calculado como pj = 100×fj .
Esta tabla de frecuencias suele ser resumida a traves de:Grafico de bastones: a cada valor posible xj se la representapor una lınea vertical cuya altura es proporcional a lafrecuencia con que ocurre.
Dr. Cristian Bayes FACI PUCP 13 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUANTITATIVO DISCRETO
En este caso la tabla de frecuencias estara constituida por unalista de las posibles valores que puede tomar la variableacompanadas por el numero de veces que ocurre cada uno deestos valores. En este caso asumiremos que la variable X tienek valores distintos x1, ..., xk y consideraremos la siguientenotacion
nj : la frecuencia o numero de veces que ocurre el valor xj .
fj : la frecuencia relativa del valor xj , calculada como fj =nj/n, siendo n el numero total de datos.
pj : el porcentaje del valor xj , calculado como pj = 100×fj .
Esta tabla de frecuencias suele ser resumida a traves de:Grafico de bastones: a cada valor posible xj se la representapor una lınea vertical cuya altura es proporcional a lafrecuencia con que ocurre.
Dr. Cristian Bayes FACI PUCP 13 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUANTITATIVO DISCRETO
En este caso la tabla de frecuencias estara constituida por unalista de las posibles valores que puede tomar la variableacompanadas por el numero de veces que ocurre cada uno deestos valores. En este caso asumiremos que la variable X tienek valores distintos x1, ..., xk y consideraremos la siguientenotacion
nj : la frecuencia o numero de veces que ocurre el valor xj .
fj : la frecuencia relativa del valor xj , calculada como fj =nj/n, siendo n el numero total de datos.
pj : el porcentaje del valor xj , calculado como pj = 100×fj .
Esta tabla de frecuencias suele ser resumida a traves de:Grafico de bastones: a cada valor posible xj se la representapor una lınea vertical cuya altura es proporcional a lafrecuencia con que ocurre.
Dr. Cristian Bayes FACI PUCP 13 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUANTITATIVO DISCRETO
En este caso la tabla de frecuencias estara constituida por unalista de las posibles valores que puede tomar la variableacompanadas por el numero de veces que ocurre cada uno deestos valores. En este caso asumiremos que la variable X tienek valores distintos x1, ..., xk y consideraremos la siguientenotacion
nj : la frecuencia o numero de veces que ocurre el valor xj .
fj : la frecuencia relativa del valor xj , calculada como fj =nj/n, siendo n el numero total de datos.
pj : el porcentaje del valor xj , calculado como pj = 100×fj .
Esta tabla de frecuencias suele ser resumida a traves de:Grafico de bastones: a cada valor posible xj se la representapor una lınea vertical cuya altura es proporcional a lafrecuencia con que ocurre.
Dr. Cristian Bayes FACI PUCP 13 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Ejemplo:
En un cierto distrito durante un mes se registro el numero deaccidentes de transito por dıa, estos fueron los resultados:
1 2 0 3 1 0 1 0 4 21 1 2 0 1 1 0 3 1 10 2 1 0 4 0 1 2 2 2
Note que la variable numero de accidentes de transito por dıaen un distrito puede tomar los siguientes valores: 0, 1, 2, 3 y 4.
Dr. Cristian Bayes FACI PUCP 14 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Solucion:
A continuacion presentamos la tabla de frecuencias para esteconjunto de datos
Numero de Frecuencia Frecuencia Porcentaje Porcentajeaccidentes nj relativa fj pj acumulado Pj
0 8 0.267 26.7 26.71 11 0.367 36.7 63.42 7 0.233 23.3 86.73 2 0.067 6.7 93.44 2 0.067 6.7 100
Total 30 1 100
Dr. Cristian Bayes FACI PUCP 15 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La informacion contenida en esta tabla se presenta en formagrafica en la siguiente figura
02
46
810
x
Frecue
ncia
0 1 2 3 4
Distribucion de frecuencias del número de accidentes
Figura: Grafico de bastones
Dr. Cristian Bayes FACI PUCP 16 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
¿Que es R?
R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.
Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.
R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.
R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.
El sitio web oficial de R es: http://www.R-project.org
Dr. Cristian Bayes FACI PUCP 17 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
¿Que es R?
R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.
Permite aplicar una variedad de metodos estadısticos basicosy avanzados.
Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.
R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.
R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.
El sitio web oficial de R es: http://www.R-project.org
Dr. Cristian Bayes FACI PUCP 17 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
¿Que es R?
R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.
Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.
R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.
R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.
R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.
El sitio web oficial de R es: http://www.R-project.org
Dr. Cristian Bayes FACI PUCP 17 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
¿Que es R?
R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.
Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.
R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.
R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.
El sitio web oficial de R es: http://www.R-project.org
Dr. Cristian Bayes FACI PUCP 17 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
¿Que es R?
R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.
Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.
R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.
R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.
El sitio web oficial de R es: http://www.R-project.org
Dr. Cristian Bayes FACI PUCP 17 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
¿Que es R?
R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.
Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.
R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.
R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.
El sitio web oficial de R es: http://www.R-project.org
Dr. Cristian Bayes FACI PUCP 17 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
¿Que es R?
R es un lenguaje computacional de alto nivel y un programapara realizar analisis estadıstico y graficos.
Permite aplicar una variedad de metodos estadısticos basicosy avanzados.Produce graficos de alta calidad.R es un lenguaje de programacion; es decir, podemos escribirnuevas funciones y extender el uso de R.
R fue inicialmente escrito Ross Ihaka y Robert Gentlemandel Departamento de Estadıstica de la Universidad de Auc-kland en Auckland, Nueva Zelanda.
R es un software open source que es mantenido por mu-chos contribuyentes. El R Core Team esta conformado porunos 17 programadores que son responsables de modificarel codigo fuente de R.
El sitio web oficial de R es: http://www.R-project.org
Dr. Cristian Bayes FACI PUCP 17 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Instalacion de R
R puede ser instalado en Windows, Mac o Linux.
Para instalar el sistema base, visitar el sitio web de R yseguir las instrucciones de instalacion.Adicionalmente al sistema base existen una serie de paque-tes adicionales de contribuyentes. Un paquete es una co-leccion de funciones, ejemplos y documentacion que usual-mente estan enfocados en realizar una tarea especıfica.El sistema base contiene solamente algunos paquetes. Parainstalar un paquete adicional, por ejemplo agricolae, sedebe estar conectado en la internet y escribir:
> install.packages("agricolae")
Si no ha sido configurado antes, aparecera una ventana paraseleccionar el mirror mas cercano, luego todo es automatico.Antes de usar un paquete es necesario cargarlo, por ejemplo:
> library(agricolae)
Dr. Cristian Bayes FACI PUCP 18 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Instalacion de R
R puede ser instalado en Windows, Mac o Linux.Para instalar el sistema base, visitar el sitio web de R yseguir las instrucciones de instalacion.
Adicionalmente al sistema base existen una serie de paque-tes adicionales de contribuyentes. Un paquete es una co-leccion de funciones, ejemplos y documentacion que usual-mente estan enfocados en realizar una tarea especıfica.El sistema base contiene solamente algunos paquetes. Parainstalar un paquete adicional, por ejemplo agricolae, sedebe estar conectado en la internet y escribir:
> install.packages("agricolae")
Si no ha sido configurado antes, aparecera una ventana paraseleccionar el mirror mas cercano, luego todo es automatico.Antes de usar un paquete es necesario cargarlo, por ejemplo:
> library(agricolae)
Dr. Cristian Bayes FACI PUCP 18 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Instalacion de R
R puede ser instalado en Windows, Mac o Linux.Para instalar el sistema base, visitar el sitio web de R yseguir las instrucciones de instalacion.Adicionalmente al sistema base existen una serie de paque-tes adicionales de contribuyentes. Un paquete es una co-leccion de funciones, ejemplos y documentacion que usual-mente estan enfocados en realizar una tarea especıfica.
El sistema base contiene solamente algunos paquetes. Parainstalar un paquete adicional, por ejemplo agricolae, sedebe estar conectado en la internet y escribir:
> install.packages("agricolae")
Si no ha sido configurado antes, aparecera una ventana paraseleccionar el mirror mas cercano, luego todo es automatico.Antes de usar un paquete es necesario cargarlo, por ejemplo:
> library(agricolae)
Dr. Cristian Bayes FACI PUCP 18 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Instalacion de R
R puede ser instalado en Windows, Mac o Linux.Para instalar el sistema base, visitar el sitio web de R yseguir las instrucciones de instalacion.Adicionalmente al sistema base existen una serie de paque-tes adicionales de contribuyentes. Un paquete es una co-leccion de funciones, ejemplos y documentacion que usual-mente estan enfocados en realizar una tarea especıfica.El sistema base contiene solamente algunos paquetes. Parainstalar un paquete adicional, por ejemplo agricolae, sedebe estar conectado en la internet y escribir:
> install.packages("agricolae")
Si no ha sido configurado antes, aparecera una ventana paraseleccionar el mirror mas cercano, luego todo es automatico.
Antes de usar un paquete es necesario cargarlo, por ejemplo:
> library(agricolae)
Dr. Cristian Bayes FACI PUCP 18 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Instalacion de R
R puede ser instalado en Windows, Mac o Linux.Para instalar el sistema base, visitar el sitio web de R yseguir las instrucciones de instalacion.Adicionalmente al sistema base existen una serie de paque-tes adicionales de contribuyentes. Un paquete es una co-leccion de funciones, ejemplos y documentacion que usual-mente estan enfocados en realizar una tarea especıfica.El sistema base contiene solamente algunos paquetes. Parainstalar un paquete adicional, por ejemplo agricolae, sedebe estar conectado en la internet y escribir:
> install.packages("agricolae")
Si no ha sido configurado antes, aparecera una ventana paraseleccionar el mirror mas cercano, luego todo es automatico.Antes de usar un paquete es necesario cargarlo, por ejemplo:
> library(agricolae)
Dr. Cristian Bayes FACI PUCP 18 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La consola del R
En la consola de R es donde se realizan los calculos.
Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.
Una sesion en R es la interaccion entre el usuario y el siste-ma.
Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.
Para obtener el valor de la ultima expresion evaluada tipear.Last.value.
Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.
Dr. Cristian Bayes FACI PUCP 19 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La consola del R
En la consola de R es donde se realizan los calculos.
Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.
Una sesion en R es la interaccion entre el usuario y el siste-ma.
Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.
Para obtener el valor de la ultima expresion evaluada tipear.Last.value.
Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.
Dr. Cristian Bayes FACI PUCP 19 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La consola del R
En la consola de R es donde se realizan los calculos.
Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.
Una sesion en R es la interaccion entre el usuario y el siste-ma.
Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.
Para obtener el valor de la ultima expresion evaluada tipear.Last.value.
Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.
Dr. Cristian Bayes FACI PUCP 19 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La consola del R
En la consola de R es donde se realizan los calculos.
Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.
Una sesion en R es la interaccion entre el usuario y el siste-ma.
Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.
Para obtener el valor de la ultima expresion evaluada tipear.Last.value.
Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.
Dr. Cristian Bayes FACI PUCP 19 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La consola del R
En la consola de R es donde se realizan los calculos.
Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.
Una sesion en R es la interaccion entre el usuario y el siste-ma.
Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.
Para obtener el valor de la ultima expresion evaluada tipear.Last.value.
Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.
Dr. Cristian Bayes FACI PUCP 19 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La consola del R
En la consola de R es donde se realizan los calculos.
Cuando una expresion se introduce en la consola, es poste-riormente evaluada. Dependiendo de la expresion, el sistemapuede responder mediante la salida de resultados a la conso-la o la creacion de un grafico en una ventana nueva. Luegootra expresion es ingresada y evaluada.
Una sesion en R es la interaccion entre el usuario y el siste-ma.
Para obtener la ultima expresion ingresada usar la techa deflecha hacia arriba.
Para obtener el valor de la ultima expresion evaluada tipear.Last.value.
Presionar Esc para detener la evaluacion de la expresion quese esta evaluando.
Dr. Cristian Bayes FACI PUCP 19 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
R como calculadora
Si se introduce una expresion matematica, el resultado semostrara en la consola.
> 5/4
[1] 1.25
> log(2) ; cos(pi) ; ceiling(3.2)
[1] 0.6931472
[1] -1
[1] 4Dr. Cristian Bayes FACI PUCP 20 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Objetos y Funciones
Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).
Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.
Llamando una funcion:
nombrefuncion(argumentos separados por comas)
Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.
Dr. Cristian Bayes FACI PUCP 21 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Objetos y Funciones
Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).
Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.
Llamando una funcion:
nombrefuncion(argumentos separados por comas)
Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.
Dr. Cristian Bayes FACI PUCP 21 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Objetos y Funciones
Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).
Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.
Llamando una funcion:
nombrefuncion(argumentos separados por comas)
Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.
Dr. Cristian Bayes FACI PUCP 21 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Objetos y Funciones
Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).
Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.
Llamando una funcion:
nombrefuncion(argumentos separados por comas)
Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).
El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.
Dr. Cristian Bayes FACI PUCP 21 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Objetos y Funciones
Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).
Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.
Llamando una funcion:
nombrefuncion(argumentos separados por comas)
Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.
Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.
Dr. Cristian Bayes FACI PUCP 21 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Objetos y Funciones
Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).
Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.
Llamando una funcion:
nombrefuncion(argumentos separados por comas)
Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.
Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.
Dr. Cristian Bayes FACI PUCP 21 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Objetos y Funciones
Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).
Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.
Llamando una funcion:
nombrefuncion(argumentos separados por comas)
Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.
R DISTINGUE MAYUSCULAS DE MINUSCULAS.
Dr. Cristian Bayes FACI PUCP 21 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Objetos y Funciones
Comunmente se crean objetos y aplican funciones a estos(las funciones se consideran tambien objetos).
Para asignar un nombre x a un objeto usar x < − objecto,(objecto − > x) o x = objeto.
Llamando una funcion:
nombrefuncion(argumentos separados por comas)
Toda funcion tiene un conjunto formal de argumentos convalores por defecto. Vease la documentacion de la funcioncon ?nombrefuncion o help(nombrefuncion).El llamado a una funcion puede incluir cualquier subconjuntode la lista completa de argumentos.Para especificar un argumento en particular usar el nombredel argumento.Los argumentos pueden no nombrarse si estan inscritos enel orden de la lista de argumentos formales de la funcion.R DISTINGUE MAYUSCULAS DE MINUSCULAS.
Dr. Cristian Bayes FACI PUCP 21 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Ejemplo - Asignar Objetos y Llamado de Funciones
Supongamos que queremos encontrar la media de un con-junto de numeros. Primero se asigna el vector de numeroscon un nombre x y luego se llama a la funcion mean().
> x <- c(0,5,7,9,1,2,8)
> x
[1] 0 5 7 9 1 2 8
> mean(x)
[1] 4.571429
> X
Error: object ’X’ not found
Ahora supongamos que se quiere ordenar un vector y que losnumeros esten en orden descendente. Por defecto R ordenade modo ascendente, por lo que se tiene que cambiar elargumento decreasing por TRUE (el valor por defecto esFALSE).
Dr. Cristian Bayes FACI PUCP 22 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Ejemplo - Asignar Objetos y Llamado de Funciones
Supongamos que queremos encontrar la media de un con-junto de numeros. Primero se asigna el vector de numeroscon un nombre x y luego se llama a la funcion mean().
> x <- c(0,5,7,9,1,2,8)
> x
[1] 0 5 7 9 1 2 8
> mean(x)
[1] 4.571429
> X
Error: object ’X’ not found
Ahora supongamos que se quiere ordenar un vector y que losnumeros esten en orden descendente. Por defecto R ordenade modo ascendente, por lo que se tiene que cambiar elargumento decreasing por TRUE (el valor por defecto esFALSE).
Dr. Cristian Bayes FACI PUCP 22 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
> y <- c(4,2,0,9,5,3,10)
> y
[1] 4 2 0 9 5 3 10
> sort(y)
[1] 0 2 3 4 5 9 10
> sort(y, decreasing=TRUE)
[1] 10 9 5 4 3 2 0
En adelante, para que todos los comandos que escribimospuedan ser directamente copiados a la consola, omitiremos elsımbolo del cursor >.
Dr. Cristian Bayes FACI PUCP 23 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
> y <- c(4,2,0,9,5,3,10)
> y
[1] 4 2 0 9 5 3 10
> sort(y)
[1] 0 2 3 4 5 9 10
> sort(y, decreasing=TRUE)
[1] 10 9 5 4 3 2 0
En adelante, para que todos los comandos que escribimospuedan ser directamente copiados a la consola, omitiremos elsımbolo del cursor >.
Dr. Cristian Bayes FACI PUCP 23 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Retomando los ejemplos con R
Dada la introduccion previa a R, veamos como recrear losejemplos previos en R. El ingreso de los datos lo podemoshacer directamente en R u otro software (por ejemplo Excel)para luego importar estos datos a R. Vemos la primeraestrategia para el ejemplo con x = numero de accidentes.
En la consola de R escribamos
x = c(1, 2, 0, 3, 1, 0, 1, 0, 4, 2, 1, 1, 2, 0, 1,
1, 0, 3, 1, 1, 0, 2, 1, 0, 4, 0, 1, 2, 2, 2)
La distribucion de frecuencias de esta variable se obtiene con elcomando table
tab = table(x)
tab
x
0 1 2 3 4
8 11 7 2 2
Dr. Cristian Bayes FACI PUCP 24 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Retomando los ejemplos con R
Dada la introduccion previa a R, veamos como recrear losejemplos previos en R. El ingreso de los datos lo podemoshacer directamente en R u otro software (por ejemplo Excel)para luego importar estos datos a R. Vemos la primeraestrategia para el ejemplo con x = numero de accidentes.En la consola de R escribamos
x = c(1, 2, 0, 3, 1, 0, 1, 0, 4, 2, 1, 1, 2, 0, 1,
1, 0, 3, 1, 1, 0, 2, 1, 0, 4, 0, 1, 2, 2, 2)
La distribucion de frecuencias de esta variable se obtiene con elcomando table
tab = table(x)
tab
x
0 1 2 3 4
8 11 7 2 2Dr. Cristian Bayes FACI PUCP 24 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
La distribucion de los porcentajes se podrıa obtener con
100*tab/length(x)
x
0 1 2 3 4
26.666667 36.666667 23.333333 6.666667 6.666667
Si queremos tanto las frecuencias absolutas como relativas encolumnas, podemos usar el comando cbind, el cual sirve paraagrupar vectores en columnas.
> cbind(tab,tab/length(x))
tab
0 8 0.26666667
1 11 0.36666667
2 7 0.23333333
3 2 0.06666667
4 2 0.06666667Dr. Cristian Bayes FACI PUCP 25 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Algo interesante a notar es que la tabla de frecuencias es unobjeto (R es un lenguaje orientado a objetos) que se haguardado en la variable tab. Ella tiene un formato de tabla, quepodrıa convertirse en un vector con el comando
tab = as.vector(tab)
tab
[1] 8 11 7 2 2
Esto nos podrıa servir por ejemplo para encontrar lasfrecuencias acumuladas mediante
cumsum(tab)
0 1 2 3 4
8 19 26 28 30
El grafico de bastones asociado a esta distribucion defrecuencias se puede obtener mediante
Dr. Cristian Bayes FACI PUCP 26 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
plot(tab,type="h",ylab="Frecuencia")
title("Distribucion de frecuencias del numero
de accidentes")
Lo que nos da el grafico siguiente:
02
46
810
x
Frecue
ncia
0 1 2 3 4
Distribucion de frecuencias del número de accidentes
Dr. Cristian Bayes FACI PUCP 27 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Veamos ahora el ejemplo para x = Calidad del aire,considerando que la data la copiamos (copy paste) a Exceltoda en un columna con la primera fila Calidad. Grabando estearchivo en formato csv podemos invocar a
x = read.csv(file.choose())
La opcion file.choose() lo direccionara a su PC para que elija elarchivo buscado. Otra posibilidad es colocar entre comillas elnombre del archivo pero este deberıa de estar en su directoriode trabajo.
La distribucion de frecuencias absolutas vendra dada por:
table(x)
x
Bueno Malo Moderado Muy Malo
3 12 14 1
Dr. Cristian Bayes FACI PUCP 28 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Veamos ahora el ejemplo para x = Calidad del aire,considerando que la data la copiamos (copy paste) a Exceltoda en un columna con la primera fila Calidad. Grabando estearchivo en formato csv podemos invocar a
x = read.csv(file.choose())
La opcion file.choose() lo direccionara a su PC para que elija elarchivo buscado. Otra posibilidad es colocar entre comillas elnombre del archivo pero este deberıa de estar en su directoriode trabajo.La distribucion de frecuencias absolutas vendra dada por:
table(x)
x
Bueno Malo Moderado Muy Malo
3 12 14 1
Dr. Cristian Bayes FACI PUCP 28 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
El grafico de barras para la distribucion de x se obtienemediante
barplot(table(x),ylab=#Frecuencia")
title(# Distribucion de frecuencias
del estado de la calidad del aire")
Bueno Malo Moderado Muy Malo
Frecue
ncia
02
46
810
1214
Distribucion de frecuencias del estado de la calidad del aire
Dr. Cristian Bayes FACI PUCP 29 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Otra alternativa al grafico anterior es el grafico circular el cualpuede obtenerse mediante
> pie(table(x))
Bueno
Malo
Moderado
Muy Malo
Dr. Cristian Bayes FACI PUCP 30 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUANTITATIVO CONTINUO
En este caso es necesario agrupar las observaciones en clases.Considerando las clases como intervalos de igual amplitud,podemos seguir el siguiente procedimiento:
Establecer el numero de clases k, usualmente se consideranentre 5 y 10 intervalos, esta es una decision subjetiva ydepende de la experiencia. Una sugerencia es seguir la reglade Sturges: k = 1 + 3.3 log10(n), donde k se aproxima porexceso.
Determinar la amplitud de los datos, A =max − mın.
Determinar el tamano de la clase, c = Ak
. Se debe redondear
por exceso al numero de decimales de los datos.Usar c para construir los intervalos de cada clase, en estecaso consideraremos intervalos cerrados por la derecha yabiertos por la izquierda, con excepcion del primero que escerrado en ambos lados.Construir la tabla, calculando la frecuencia de cada clase.
Dr. Cristian Bayes FACI PUCP 31 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUANTITATIVO CONTINUO
En este caso es necesario agrupar las observaciones en clases.Considerando las clases como intervalos de igual amplitud,podemos seguir el siguiente procedimiento:
Establecer el numero de clases k, usualmente se consideranentre 5 y 10 intervalos, esta es una decision subjetiva ydepende de la experiencia. Una sugerencia es seguir la reglade Sturges: k = 1 + 3.3 log10(n), donde k se aproxima porexceso.Determinar la amplitud de los datos, A =max − mın.
Determinar el tamano de la clase, c = Ak
. Se debe redondear
por exceso al numero de decimales de los datos.Usar c para construir los intervalos de cada clase, en estecaso consideraremos intervalos cerrados por la derecha yabiertos por la izquierda, con excepcion del primero que escerrado en ambos lados.Construir la tabla, calculando la frecuencia de cada clase.
Dr. Cristian Bayes FACI PUCP 31 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUANTITATIVO CONTINUO
En este caso es necesario agrupar las observaciones en clases.Considerando las clases como intervalos de igual amplitud,podemos seguir el siguiente procedimiento:
Establecer el numero de clases k, usualmente se consideranentre 5 y 10 intervalos, esta es una decision subjetiva ydepende de la experiencia. Una sugerencia es seguir la reglade Sturges: k = 1 + 3.3 log10(n), donde k se aproxima porexceso.Determinar la amplitud de los datos, A =max − mın.
Determinar el tamano de la clase, c = Ak
. Se debe redondear
por exceso al numero de decimales de los datos.
Usar c para construir los intervalos de cada clase, en estecaso consideraremos intervalos cerrados por la derecha yabiertos por la izquierda, con excepcion del primero que escerrado en ambos lados.Construir la tabla, calculando la frecuencia de cada clase.
Dr. Cristian Bayes FACI PUCP 31 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUANTITATIVO CONTINUO
En este caso es necesario agrupar las observaciones en clases.Considerando las clases como intervalos de igual amplitud,podemos seguir el siguiente procedimiento:
Establecer el numero de clases k, usualmente se consideranentre 5 y 10 intervalos, esta es una decision subjetiva ydepende de la experiencia. Una sugerencia es seguir la reglade Sturges: k = 1 + 3.3 log10(n), donde k se aproxima porexceso.Determinar la amplitud de los datos, A =max − mın.
Determinar el tamano de la clase, c = Ak
. Se debe redondear
por exceso al numero de decimales de los datos.Usar c para construir los intervalos de cada clase, en estecaso consideraremos intervalos cerrados por la derecha yabiertos por la izquierda, con excepcion del primero que escerrado en ambos lados.
Construir la tabla, calculando la frecuencia de cada clase.
Dr. Cristian Bayes FACI PUCP 31 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Tablas o distribuciones de frecuenciasCASO CUANTITATIVO CONTINUO
En este caso es necesario agrupar las observaciones en clases.Considerando las clases como intervalos de igual amplitud,podemos seguir el siguiente procedimiento:
Establecer el numero de clases k, usualmente se consideranentre 5 y 10 intervalos, esta es una decision subjetiva ydepende de la experiencia. Una sugerencia es seguir la reglade Sturges: k = 1 + 3.3 log10(n), donde k se aproxima porexceso.Determinar la amplitud de los datos, A =max − mın.
Determinar el tamano de la clase, c = Ak
. Se debe redondear
por exceso al numero de decimales de los datos.Usar c para construir los intervalos de cada clase, en estecaso consideraremos intervalos cerrados por la derecha yabiertos por la izquierda, con excepcion del primero que escerrado en ambos lados.Construir la tabla, calculando la frecuencia de cada clase.Dr. Cristian Bayes FACI PUCP 31 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se considera la siguiente notacion:
Lj : Extremo derecho de la clase j.
xj : Marca de clase o punto medio del intervalo de clase j.
nj : Frecuencia de la clase j.
fj = nj
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.
Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.
Dr. Cristian Bayes FACI PUCP 32 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se considera la siguiente notacion:
Lj : Extremo derecho de la clase j.
xj : Marca de clase o punto medio del intervalo de clase j.
nj : Frecuencia de la clase j.
fj = nj
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.
Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.
Dr. Cristian Bayes FACI PUCP 32 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se considera la siguiente notacion:
Lj : Extremo derecho de la clase j.
xj : Marca de clase o punto medio del intervalo de clase j.
nj : Frecuencia de la clase j.
fj = nj
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.
Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.
Dr. Cristian Bayes FACI PUCP 32 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se considera la siguiente notacion:
Lj : Extremo derecho de la clase j.
xj : Marca de clase o punto medio del intervalo de clase j.
nj : Frecuencia de la clase j.
fj = nj
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.
Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.
Dr. Cristian Bayes FACI PUCP 32 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se considera la siguiente notacion:
Lj : Extremo derecho de la clase j.
xj : Marca de clase o punto medio del intervalo de clase j.
nj : Frecuencia de la clase j.
fj = nj
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.
Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.
Dr. Cristian Bayes FACI PUCP 32 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se considera la siguiente notacion:
Lj : Extremo derecho de la clase j.
xj : Marca de clase o punto medio del intervalo de clase j.
nj : Frecuencia de la clase j.
fj = nj
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.
Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.
Dr. Cristian Bayes FACI PUCP 32 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se considera la siguiente notacion:
Lj : Extremo derecho de la clase j.
xj : Marca de clase o punto medio del intervalo de clase j.
nj : Frecuencia de la clase j.
fj = nj
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.
Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.
Dr. Cristian Bayes FACI PUCP 32 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se considera la siguiente notacion:
Lj : Extremo derecho de la clase j.
xj : Marca de clase o punto medio del intervalo de clase j.
nj : Frecuencia de la clase j.
fj = nj
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.
Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.
Dr. Cristian Bayes FACI PUCP 32 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Esta tabla de frecuencias suele ser representada graficamente atraves del:
Histograma: Aquı cada clase es representada por una barracuya altura es proporcional a la frecuencia con que ocurre.En este tipo de graficos no se debe dejar espacios entre lasbarras para indicar que se esta presentando informacion deuna variable cuantitativa continua.
Polıgono de frecuencias: Es formada uniendo los puntos me-dios altos de cada barra del histograma.
Grafico de frecuencias acumuladas u ojiva: Utiliza las fre-cuencias acumuladas y los limites superiores de cada inter-valo de clase.
Dr. Cristian Bayes FACI PUCP 33 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Esta tabla de frecuencias suele ser representada graficamente atraves del:
Histograma: Aquı cada clase es representada por una barracuya altura es proporcional a la frecuencia con que ocurre.En este tipo de graficos no se debe dejar espacios entre lasbarras para indicar que se esta presentando informacion deuna variable cuantitativa continua.
Polıgono de frecuencias: Es formada uniendo los puntos me-dios altos de cada barra del histograma.
Grafico de frecuencias acumuladas u ojiva: Utiliza las fre-cuencias acumuladas y los limites superiores de cada inter-valo de clase.
Dr. Cristian Bayes FACI PUCP 33 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Esta tabla de frecuencias suele ser representada graficamente atraves del:
Histograma: Aquı cada clase es representada por una barracuya altura es proporcional a la frecuencia con que ocurre.En este tipo de graficos no se debe dejar espacios entre lasbarras para indicar que se esta presentando informacion deuna variable cuantitativa continua.
Polıgono de frecuencias: Es formada uniendo los puntos me-dios altos de cada barra del histograma.
Grafico de frecuencias acumuladas u ojiva: Utiliza las fre-cuencias acumuladas y los limites superiores de cada inter-valo de clase.
Dr. Cristian Bayes FACI PUCP 33 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Ejemplo:
Se registro el consumo de electricidad en kWh de 50 hogares enun cierto distrito estos fueron los resultados:
589 493 531 355 469 432 415 468 617 426300 439 464 430 403 525 478 392 432 459398 372 488 481 620 484 509 522 488 502596 567 466 477 580 555 520 525 425 650384 497 438 501 521 452 508 462 457 577
Construya una distribucion de frecuencias y muestre estagraficamente.
Dr. Cristian Bayes FACI PUCP 34 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Solucion:
De no tener mayor experiencia o no indicarse, usaremos la reglade Sturges con k = 1 + 3.3 log1 0(50) = 6.6 ≈ 7 clases. El valormınimo de los datos es 300 kWh y el maximo 650 kWh, por latanto la amplitud es de
A = 650 − 300 = 350 kWh
con lo que obtenemos que el ancho de cada intervalo de clasesera de:
c = 350/7 = 50 kWh.
A partir de estos resultados obtenemos la siguiente tabla defrecuencias para este conjunto de datos.
Dr. Cristian Bayes FACI PUCP 35 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Intervalo Marca Frec. Frec. Porcentaje Frec. Frec. Rel. Porcentajeclase de clase relativa acum. acumulada acumulado
xj nj fj pj Nj Fj Pj
[300,350] 325 1 0.02 2 1 0.02 2(350,400] 375 5 0.1 10 6 0.12 12(400,450] 425 9 0.18 18 15 0.3 30(450,500] 475 16 0.32 32 31 0.62 62(500,550] 525 10 0.2 20 41 0.82 82(550,600] 575 6 0.12 12 47 0.94 94(600,650] 625 3 0.06 6 50 1 100
Total 50 1 100
Dr. Cristian Bayes FACI PUCP 36 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se puede observar
Que las frecuencias, van cambiando a partir del valor 1 en elprimer intervalo hasta alcanzar los valores de 9, 16 y 10 enlos intervalos 3, 4 y 5 para luego decrecer en los intervalos6 y 7. Esto sugiere que la mayorıa de los hogares tienen unconsumo de electricidad intermedio entre los intervalos 3, 4y 5 (de 400 a 550 kWh).
Que existen pocos hogares con consumo de electricidad ba-jos o altos. Estos resultados tambien se pueden observar sianalizamos las frecuencias relativas y los porcentajes.Otras posibles interpretaciones que podemos hacer son: so-lamente el 1 % de los hogares tienen consumos por debajode los 350 kWh; el 18 % de los hogares tienen consumosmayores a los 550 kWh. La informacion contenida en estatabla se presenta tambien en forma grafica en la siguientefigura.
Dr. Cristian Bayes FACI PUCP 37 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se puede observar
Que las frecuencias, van cambiando a partir del valor 1 en elprimer intervalo hasta alcanzar los valores de 9, 16 y 10 enlos intervalos 3, 4 y 5 para luego decrecer en los intervalos6 y 7. Esto sugiere que la mayorıa de los hogares tienen unconsumo de electricidad intermedio entre los intervalos 3, 4y 5 (de 400 a 550 kWh).Que existen pocos hogares con consumo de electricidad ba-jos o altos. Estos resultados tambien se pueden observar sianalizamos las frecuencias relativas y los porcentajes.
Otras posibles interpretaciones que podemos hacer son: so-lamente el 1 % de los hogares tienen consumos por debajode los 350 kWh; el 18 % de los hogares tienen consumosmayores a los 550 kWh. La informacion contenida en estatabla se presenta tambien en forma grafica en la siguientefigura.
Dr. Cristian Bayes FACI PUCP 37 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Se puede observar
Que las frecuencias, van cambiando a partir del valor 1 en elprimer intervalo hasta alcanzar los valores de 9, 16 y 10 enlos intervalos 3, 4 y 5 para luego decrecer en los intervalos6 y 7. Esto sugiere que la mayorıa de los hogares tienen unconsumo de electricidad intermedio entre los intervalos 3, 4y 5 (de 400 a 550 kWh).Que existen pocos hogares con consumo de electricidad ba-jos o altos. Estos resultados tambien se pueden observar sianalizamos las frecuencias relativas y los porcentajes.Otras posibles interpretaciones que podemos hacer son: so-lamente el 1 % de los hogares tienen consumos por debajode los 350 kWh; el 18 % de los hogares tienen consumosmayores a los 550 kWh. La informacion contenida en estatabla se presenta tambien en forma grafica en la siguientefigura.
Dr. Cristian Bayes FACI PUCP 37 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
8 CAPITULO 1. ORGANIZACION Y RESUMEN DE DATOS
Se puede observar que las frecuencias, van cambiando a partir del valor 1 en el primer intervalo
hasta alcanzar los valores de 9, 16 y 10 en los intervalos 3, 4 y 5 para luego decrecer en los
intervalos 6 y 7. Esto sugiere que la mayorıa de los hogares tienen un consumo de electricidad
intermedio entre los intervalos 3, 4 y 5 (de 400 a 550 kWh). Que existen pocos hogares con
consumo de electricidad bajos o altos. Estos resultados tambien se pueden observar si analizamos
las frecuencias relativas y los porcentajes. Otras posibles interpretaciones que podemos hacer
son: solamente el 1 % de los hogares tienen consumos por debajo de los 350 kWh; el 18 % de los
hogares tienen consumos mayores a los 550 kWh.
La informacion contenida en esta tabla se presenta tambien en forma grafica en la Figura 1.3.
Consumo en kWh
Fre
cuen
cia
300 350 400 450 500 550 600 650
05
1015
●●
●
●
●
●
●
●
300 350 400 450 500 550 600 650
0.0
0.2
0.4
0.6
0.8
1.0
Consumo en kWh
Fre
cuen
cia
rela
tiva
Figura 1.3: Histograma con polıgono de frecuencias y grafico de frecuencias acumuladas
1.3. Medidas de Tendencia Central
En esta seccion estudiaremos estadısticas que son utilizadas para representar el centro de
un conjunto de datos. Consideraremos a partir de ahora en las definiciones que contamos con
una muestra de tamano n denotada por x1, x2, ..., xn.
Media
La media muestral es la suma de todos los datos dividido por el numero de datos. Se suele
denotar por una letra con una barra encima (X). La media muestral estara en las mismas
unidades que los valores de la muestra x1, x2, ..., xn.
X =
n∑
i=1
xi
n=x1 + x2 + ...+ xn
n
A continuacion presentamos algunas caracterısticas de la media:
La media es calculada tomando en cuenta todos los valores de la muestra.
La media puede verse fuertemente afectada por la presencia de valores outlier (observa-
ciones que son muy grandes o muy pequenas con respecto al resto de observaciones).
Figura: Histograma con polıgono de frecuencias y ojiva para el consumode electricidad en los 50 hogares del distrito.
Dr. Cristian Bayes FACI PUCP 38 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
En R el histograma anterior se podrıa obtener mediante
elect=c(
+ 589,493,531,355,469,432,415,468,617,426,
+ 300,439,464,430,403,525,478,392,432,459,
+ 398,372,488,481,620,484,509,522,488,502,
+ 596,567,466,477,580,555,520,525,425,650,
+ 384,497,438,501,521,452,508,462,457,577)
helect = hist(elect)
Ella nos da justamente 7 intervalos, segun el valor por defecto(default) de R. En caso que esto ultimo no ocurra; por citar sidesearamos 6 intervalos, podrıamos escribir:
b=seq(min(elect),max(elect),by = diff(range(elect)))
helect6=hist(elect,breaks=b)
Dr. Cristian Bayes FACI PUCP 39 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Note que helect es un objecto que tiene lo siguiente:
helect
$breaks
[1] 300 350 400 450 500 550 600 650
$counts
[1] 1 5 9 16 10 6 3
$density
[1] 0.0004 0.0020 0.0036 0.0064 0.0040 0.0024 0.0012
$mids
[1] 325 375 425 475 525 575 625
$xname
[1] "elect"
$equidist
[1] TRUE
attr(,"class")
[1] "histogram"
Dr. Cristian Bayes FACI PUCP 40 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Con ello podrıamos por ejemplo construir la distribucion defrecuencias mediante:
htable = cbind(helect$breaks[-1],helect$mids,
helect$counts)
colnames(htable) = c("L_j", "x_j","n_j")
htable
L_j x_j n_j
[1,] 350 325 1
[2,] 400 375 5
[3,] 450 425 9
[4,] 500 475 16
[5,] 550 525 10
[6,] 600 575 6
[7,] 650 625 3
Dr. Cristian Bayes FACI PUCP 41 / 42
CAPITULO 1
Conceptosbasicos
Organizacionde datos
Una breveintroduccional R
Distribucionde frecuenciaspor intervalos
Otra aplicacion serıa obtener la ojiva de esta distribucion con:
bb=helect$breaks
P = c(0,cumsum(helect$counts/length(elect))*100)
plot(bb,P,xlab="Consumos en kWh",ylab="Porcentaje acumulado de hogares")
lines(bb,P,col="red")
title("Ojiva para la distribucion de electricidad en los hogares")
●●
●
●
●
●
●
●
300 350 400 450 500 550 600 650
020
4060
80100
Consumos en kWh
Porce
ntaje a
cumula
do de
hogare
s
Ojiva para la distribución de electricidad en los hogares
Dr. Cristian Bayes FACI PUCP 42 / 42