estadistica y diseño de experimentos (pablo otero)
DESCRIPTION
Estadística y Diseño de Experimentos (Pablo Otero)TRANSCRIPT
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 1
INTRODUCCIN
Autor: Pablo Otero
No entiendes realmente algo a menos que seas capaz de explicrselo a tu abuela.
Albert Einstein
Un cientfico debe tomarse la libertad de plantear cualquier cuestin, de dudar de cualquier afirmacin, de corregir errores.
Julius R. Oppenheimer
El experimentador que no sabe lo que est buscando no comprender lo que encuentra. Claude Bernard
Una breve introduccin epistemolgica
Aunque la palabra ciencia proviene de scientia que en latn significa conocimiento, los conocimientos
que poseemos todos nosotros no provienen slo de las ciencias.
De dnde proviene nuestro conocimiento?
1. De la intuicin: muchas veces asumimos cosas como ciertas por pura lgica, sin ningn tipo de
razonamiento ni confirmacin emprica. Este tipo de conocimiento (intuiciones) posee la
particularidad que es muy difcil de ser explicado a otra persona.
2. De nuestra experiencia: el haber vivido diferentes situaciones nos da ciertos conocimientos.
Aunque muchas veces son saberes prcticos, este tipo de conocimiento puede llevarnos a
cometer errores (como nica herramienta nos propone el mtodo de prueba y error) o incluso
puede impedirnos aceptar alguna explicacin cientfica por encontrarla contraria a nuestra
experiencia.
3. De nuestras tradiciones: algunos conocimientos nos son transferidos, los heredamos
culturalmente y no son discutidos ya que siempre se lo has considerado de esa forma.
4. De autoridades: algunos conocimientos provienen de una fuente que, por las razones que sea,
resulta indiscutible y por lo tanto son aceptados como tales. Los llamados principios, doctrinas o
creencias son formas de este tipo de conocimiento. Los preceptos religiosos, la palabra de los
hechiceros y jefes tribales, la orden de un superior en una organizacin militar. Se trata de
dogmas.
5. De las ciencias: algunos conocimientos son adquiridos de forma metdica, objetiva y pueden ser
verificados y contrastados; se trata de los conocimientos cientficos. Este tipo de conocimientos
se caracterizan adems por ser refutables y provisorios.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 2
Buscando algunas definiciones de ciencia, encontr las siguientes:
Conjunto de conocimientos racionales, ciertos o probables, obtenidos metdicamente, sistematizados y verificables
Ciencia es el conocimiento sistematizado, elaborado mediante observaciones, razonamientos y pruebas
metdicamente organizadas. La ciencia utiliza diferentes mtodos y tcnicas para la adquisicin y organizacin de
conocimientos sobre la estructura de un conjunto de hechos objetivos y accesibles a varios observadores, adems de
estar basada en un criterio de verdad y una correccin permanente. La aplicacin de esos mtodos y conocimientos
conduce a la generacin de ms conocimiento objetivo en forma de predicciones concretas, cuantitativas y
comprobables referidas a hechos observables pasados, presentes y futuros. Con frecuencia esas predicciones pueden
formularse mediante razonamientos y estructurarse como reglas o leyes generales, que dan cuenta del
comportamiento de un sistema y predicen cmo actuar dicho sistema en determinadas circunstancias.
Enciclopedia WIKIPEDIA
Si bien este curso no pretende adentrarse en cuestiones epistemolgicas, vamos a destacar el carcter
metdico de la actividad cientfica y sobre todo su relacin con la estadstica. En realidad, el trmino
ciencia tiene un significado doble. Por un lado la ciencia es un producto. Este producto sera el cmulo de
informacin obtenida por las investigaciones llevadas a cabo. Estos conocimientos, que crecen a un ritmo
exponencial, son organizados y divididos en diferentes reas y sirven para el desarrollo de aplicaciones
tecnolgicas y culturales y como base terica para nuevas investigaciones. Pero tambin la ciencia se
refiere al proceso de investigacin. Dado que los problemas cientficos no se inventan, sino que lo descubre
un observador perspicaz, el camino que siga este investigador para resolver este problema es conocido
como el mtodo cientfico.
Es errnea la idea de que existe un slo mtodo cientfico una especie de receta con la cual si o si se
genera conocimiento- y cada vez est ms claro que los mtodos utilizados en las diferentes ciencias no
son iguales. Incluso cada investigacin concreta genera su propio mtodo, que es vlido siempre y cuando
permita validar o refutar la hiptesis planteada. Slo se aceptar un nuevo conocimiento si el camino
recorrido queda claro y puede ser reproducido y verificado.
Bsicamente cualquier mtodo cientfico utilizado debera:
Promover una revisin de hechos y teoras.
Formular una hiptesis lgica y que est sujeta a prueba mediante mtodos experimentales.
Evaluacin objetiva de las hiptesis basndose en los resultados experimentales obtenidos.
Qu relacin tiene esto con la estadstica?
La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa
intrnseca de los mismos; as como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 3
Comprobar objetivamente la veracidad de una hiptesis presenta problemas ya que se hace a partir de
un cierto nmero de eventos, resultados o hechos y no de la totalidad posible de sucesos; entra en juego la
variabilidad. En esta situacin se debe partir de lo particular a lo general lo que constituye un proceso de
inferencia incierto, ya que permite desaprobar hiptesis incorrectas pero no aceptar (definitivamente)
hiptesis correctas.
Si partimos de una parte de la informacin total posible, cualquier inferencia ser incierta, ya que el azar
entra en juego en la obtencin de esos datos e introduce incertidumbre. Lo que se puede hacer mediante
los mtodos estadsticos es medir cuanta incertidumbre hay.
Por lo anteriormente dicho queda claro que la incertidumbre disminuye cuanto ms grande sea el
nmero de casos estudiados. A mayor cantidad de casos estudiados menor incertidumbre, pero tambin
mayor costo, no slo de dinero, sino sobre todo de tiempo y esfuerzo.
En resumen, la estadstica se puede aplicar en el momento de disear un experimento, en el momento
de recolectar los datos, en el momento de analizarlos y en el momento de evaluar la incertidumbre de la las
inferencias extradas.
La estadstica, que puede o no ser considerada una ciencia en s misma, es un conjunto de mtodos
usados para recopilar, presentar, condensar y analizar informacin de los datos extrados de un sistema de
estudio (Figura 1). El objetivo de esto es poder hacer estimaciones, comparaciones y sacar conclusiones que
permitan tomar decisiones a futuro. Dado que la mayora de los mtodos estadsticos poseen una base
terica matemtica, esta disciplina es considerada una rama de esta ciencia formal.
Figura 1: Objetivos de la estadstica.
La estadstica se ocupa de desarrollar mtodos que permitan recopilar datos de forma tal de que estos
sean tiles para los objetivos planteados anteriormente. En la mayora de los estudios en los cuales
participa la estadstica, se trabaja con una parte (muestra) y no con la totalidad de los datos existentes, por
lo que resulta indispensable que la muestra sea representativa, si es que queremos sacar conclusiones
correctas. Es por ello que la variedad de tcnicas de muestreo, censado o encuestado, son estudiadas y
desarrolladas por la estadstica.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 4
Una vez conseguidos los datos es necesario poder presentarlos a otras personas para su comprensin.
Las distintas modalidades de presentacin de datos: grficos, tablas o texto es fundamental, son parte del
estudio de la estadstica.
Adems la estadstica se encarga de los mtodos que permiten condensar los datos obtenidos de forma
tal de poder resumir la informacin en dos o tres valores (media, varianza, etc.), que luego sirven para
describir o comparar.
Qu relacin tenemos con la estadstica?
La estadstica es una ciencia segn la cual todas las mentiras se transforman en cuadros.
La estadstica es la primera de las ciencias inexactas.
La estadstica es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno.
La estadstica, en general, no goza de buena fama, las tres frases anteriores son slo una muestra de lo
que se dice de ella. A pesar de esto los resultados de los mtodos y tcnicas estadsticos aplicados a
diferentes reas de nuestras vidas nos rodean a diario. Los medios de comunicacin publican los resultados
de encuestas pero nunca nos dicen como fueron hechas. Tambin se nos dice que algo subi o baj
mediante algn valor de porcentaje.
Figura 2: A veces interpretamos mal la informacin estadsticao la interpretamos como queremos.
Otra forma de encontrarnos con los resultados estadsticos son los grficos. Muchas veces los grficos
que vemos en diarios y revistas no poseen los mnimos requerimientos para ser interpretados
correctamente. Incluso, en algunos casos se confunde al lector de forma deliberada.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 5
Figura 3: A veces no basta con saber de estadstica para entender algunos datos
La informacin estadstica presentada de forma confusa desborda al lector que lo nico que puede
hacer es quedarse con algn valor como conclusin. Por ltimo si los mtodos y tcnicas usados no son
explicitados las conclusiones que pueden sacarse de una misma informacin pueden ser variadas e
incorrectas.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 6
Figura 4: Este grfico que muestra la composicin de la poblacin econmicamente activa de la Argentina tiene una grave problema
pero difcil de descubrir por un lector apresurado. La suma de los porcentajes de las categoras es de 96%, es decir falta un 4% que no
se sabe a que pertenece. Fuente: http://www.fnm.org.ar/publicaciones/documentos/economia/empleo_no_registrado.html)
Figura 5: Los dos grficos mostrados a continuacin fueron realizados con los mismos datos. Sin embargo el efecto que causan en el
lector es totalmente diferente. La nica diferencia en los datos es la escala del eje vertical.
Para qu necesitamos saber de estadstica?
0
10
20
30
40
2000 2001 2002 2003 2004 2005 2006 2007 2008
De
lito
s
Ao
Cantidad de delitos cada 100 habitantes
18
22
26
30
34
2000 2001 2002 2003 2004 2005 2006 2007 2008
De
lito
s
Ao
Cantidad de delitos cada 100 habitantes
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 7
La principal razn del estudio de la estadstica es que los fenmenos aleatorios tienen una fuerte presencia en nuestro entorno.
Por lo comentado anteriormente, cualquier ciudadano debe poder leer y comprender la informacin
estadstica que se le presenta. La correcta interpretacin de esta informacin es fundamental y requiere de
ciertas nociones mnimas de estadstica. Lamentablemente en muchas ocasiones se presenta informacin
en forma de textos o grficos con errores, en algunos casos intencionales y en otras. Incluso muchas
publicidades abundan en cifras disfrazadas de estadsticas cientficas para vender un producto.
Figura 6: Las publicidades nos bombardean con cifras supuestamente estadsticas y probadas cientficamente. No slo no sabemos
cmo calculan esas cifras sino que en algunos casos como en la publicidad siguiente- nada significan.
La estadstica es til para muchas profesiones, que a priori, parecen desvinculadas de las matemticas.
En las carreras de psicologa, medicina, enfermera y ciencias de la educacin estn incluidas asignaturas
que presentan y desarrollan temticas estadsticas. Si recordamos que los niveles bsicos educativos
poseen como uno de sus objetivos preparar a los alumnos para futuros estudios superiores, la estadstica es
una disciplina a incluir en el currculo.
Los temas de matemticas incluidos en los currculos ayudan a crear una imagen determinista de la
matemtica. Nadie duda que 2 es diferentes de 2.5, ni tampoco que el primer nmero es menor que el
segundo; pero en estadstica 2% no siempre ser significativamente menor que 2.5%. La mayora de las
personas cuando escuchan valores de encuestas se limitan a comparar los nmeros, sin saber que,
dependiendo como fueron tomados esos datos, valores numricamente diferentes podran ser
estadsticamente iguales. Por lo tanto y dado que la estadstica se ocupa de lo que presenta variabilidad
intrnseca, comprender sus mtodos ayuda un razonamiento crtico y a valorar la evidencia objetiva.
En el mundo contemporneo, la educacin cientfica no puede reducirse a una interpretacin unvoca y determinista de los sucesos. Una cultura cientfica eficiente reclama una educacin e n el pensamiento
estadstico y probabilstico. (Santal, 1990)
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 8
Si todos los procesos que ocurrieran a nuestro alrededor fueran determinsticos, la estadstica no
tendra sentido. La realidad es que nos rodean procesos que incluyen cierta aleatoriedad pero que
deseamos comprender y es ah donde la estadstica se vuelve una herramienta til.
La estadstica hace uso de las probabilidades y es por eso que muchas veces los nicos temas vistos en
las escuelas relacionados con la estadstica estn referidos a los juegos de azar. Si bien esto es interesante
para los alumnos, es importante introducir otros campos en los cuales participa la estadstica y que son
parte del entorno social del alumno. Por eso est en el docente buscar ejemplos que sean interesantes y
aplicables al mundo del alumno.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 1
Principales trminos estadsticos
Autor: Pablo A. Otero.
La estadstica, como cualquier otra disciplina, posee un vocabulario especfico. Comenzaremos definiendo uno de
los trminos ms importantes para las investigaciones que conllevan el uso de mtodos o tcnicas estadsticas: Qu
es una poblacin?
Poblacin: Es el conjunto total de unidades o elementos sobre el que se realizan las
observaciones.
Es de vital importancia que conozcamos y definamos la poblacin sobre la cual se har la investigacin, ya que la
descripcin que obtengamos ser particular de esta (a priori no necesariamente coincidir con otras) y todas las
conclusiones que saquemos se deben limitar a la misma. Es un error muy comn extrapolar los resultados obtenidos
de una poblacin a otras.
Figura 1: Poblacin de pinginos
emperadores de la baha X en el ao Y.
Figura 2: Poblacin de personas que
visitaron las playas X en el perodo Y.
Figura 3: Poblacin de pinos en la
localidad J en el ao z.
La cantidad total de unidades o elementos que integran la poblacin se representa con la letra N (mayscula).
Algunas investigaciones se hacen sobre poblaciones con un N conocido (y finito). Pero en otros casos, el tamao de la
poblacin puede ser finito pero desconocido o incluso infinito.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 2
Sern innumerables las veces que nos referiremos a variable a lo largo de este curso, pero Qu es una
variable estadstica?
Variable: es una caracterstica que presenta variabilidad o variacin de un objeto a otro.
Aunque a priori parecera que cualquier cosa podra ser una variable, esto no es as. Si mi pregunta fuera cules
de mis alumnos regula su temperatura corporal (son homeotermos)?; la respuesta es todos!, es decir no hay
variacin al respecto por lo tanto, la capacidad de regular la temperatura de una persona no es una variable; tampoco
lo es la cantidad de cabezas por persona.
Cada unidad o elemento que integra la poblacin es una unidad experimental (u.e.) y cada una de las
observaciones o mediciones que sobre ella se hagan son observaciones individuales (o.i.). En una misma u.e, se
pueden realizar varias o.i.. Por ejemplo, si estoy trabajando con medidas antropomtricas, a cada persona puede
medirle la altura, el peso, etc.
Unidad experimental (u.e.): es la mnima unidad sobre la cual se realizan las observaciones.
Observacin individual (o.i.): determinacin o medida tomada en una unidad experimental.
Segn el tipo de experimento pueden tomarse una o varias o.i. a una misma u.e.
El total de observaciones individuales de una variable se conoce como poblacin estadstica.
Poblacin estadstica: Total de observaciones individuales que se pueden obtener de la
poblacin de estudio.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 3
Si la poblacin posee pocas unidades, tal vez sea posible medir la variable en todas las unidades. En este caso se
estara haciendo un censo. Los censos aportan mejor informacin que las muestras (ya definiremos este trmino)
debido a que abarcan la totalidad de las unidades, mientras que las muestras (como su nombre lo indica) son slo una
porcin de la poblacin.
Censo: consiste en obtener las o.i. del total de unidades experimentales. Es una tcnica
estadstica que trabaja sobre la poblacin total de u.e.
En estadstica a las variables se las identifica mediante una letra mayscula (X,Y,W,B,...). Cada variable posee un
rango o dominio que incluye los valores posibles de la variable. Segn las caractersticas del dominio o rango las
variables son clasificadas en diferentes grupos: cualitativas o cuantitativas.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 4
Las variables cualitativas son las que no se pueden medir mediante el uso de instrumentos y muchas veces se
determinan sus valores por simple observacin. Existen dos tipos de variables cualitativas:
Ordinales: Las variables ordinales implican categoras pero que poseen un orden lgico y preestablecido. Un buen
ejemplo de variable ordinal sera la posicin obtenida en una carrera (ver ejemplo de variable A), o diferentes
categoras que clasifiquen pelculas (ver ejemplo de variable B).
A = {1, 2, 3, etc.}
B = {muy mala, mala, regular, buena, excelente}
Nominales o atributos: Los atributos son variables que toman como valor diferentes estados o categoras. Los
atributos pueden ser dicotmicos o politmicos. En las dicotmicas el atributo puede adoptar slo dos valores
posibles (ver ejemplo de variable C), mientras que en las politmicas existen ms de dos valores posibles (ver ejemplo
de variable D).
Ejemplos:
C = {mujer, varn}
D = {Boca Juniors, River Plate, San Lorenzo, etc.}
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 5
Las variables cuantitativas son las que se pueden medir (cuantificar) por simple conteo o mediante el empleo de algn instrumento (balanza, cinta mtrica, calibre, etc.). Se reconocen dos tipos de variables cuantitativas: continuas o discretas. Las variables continuas son aquellas que entre dos valores es posible encontrar un nmero infinito de valores intermedios, mientras que en las discretas no.
La altura de una persona es un ejemplo de variable continua (ver ejemplo de variable E) ya que entre dos valores de altura existen infinitos posibles. En cambio en las variables discretas (ver ejemplo de variable F) ciertos valores carecen de sentido, por ejemplo si la variable es la cantidad de mesas ocupadas en un restaurant puede ser 1, 2 o 10, pero nunca 2.3 o 5.6.
Ejemplos:
E = Peso de una persona = {23.5 kg, 25.38 kg, 85.9 kg, etc.}
F = Cantidad de mesas ocupadas en un restaurant = {1, 2, 10, etc.}
En el caso de la variable E el rango de valores est acotado por razones fisiolgicas y morfolgicas propias de la especie humana (la altura mxima de una persona fue de 2.72 m.) pero igualmente es un conjunto infinito. En cambio la variable F es un conjunto acotado ya que el restaurant posee un mximo de mesas y adems las mesas no se ocupan por fracciones.
Otra forma de diferenciar estos dos tipos de variables (cualitativas de cuantitativas) es que en una variable
cuantitativa existe una relacin de proporcionalidad entre las observaciones individuales (o.i.). Por ejemplo si un hombre pesa 100 kg y una mujer pesa 50, es correcto afirma que la mujer pesa la mitad que el hombre (o el hombre el doble que la mujer), ya que ambos valores se refieren a mismo patrn que sera en este caso el kilogramo.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 1
Muestreo
Autor: Pablo Otero
En algunas investigaciones es posible obtener una o ms observaciones individuales (o dato) de cada
una de las unidades o individuos de la poblacin. En estos casos lo que se realiza es un censo y
generalmente es posible cuando las poblaciones chicas (N bajo) o en los casos que se disponga de muchos
recursos (tiempo y dems).
Figura 1: Si la poblacin a estudiar es un curso de 26 alumnos, es factible hacer un censo.
Pero en la mayora de los casos el tamao de la poblacin (N) excede la capacidad de trabajo y se debe
tomar una muestra. El muestreo bsicamente implica obtener un conjunto menor (muestra) a partir de uno
mayor (poblacin).Trabajar con una muestra implica ahorrar recursos, pero trae otros problemas. Cualquier
proceso de muestreo implica aceptar una prdida de informacin de la poblacin, pero al mismo tiempo
permite que la tarea sea factible.
Muestra: en un subconjunto representativo de la poblacin. Para poder sacar
conclusiones correctas de la poblacin a partir de la muestra que una muestra, sta
debe ser representativa. Las muestras obtenidas de forma aleatoria, es decir aquellas
que cada unidad muestral tienen la misma probabilidad de ser incluida en la muestra,
son representativas. La aleatoriedad de la muestra elimina los sesgos de muestreo.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 2
Figura 2: Si la poblacin a estudiar es la totalidad de los alumnos de una escuela (por ejemplo N=810), es poco factible hacer un censo y seguramente se deber recurrir a un muestreo.
Dado que los resultados y/o determinaciones obtenidos a partir de esta muestra servirn para hacer
inferencias sobre la poblacin, debemos asegurarnos que la muestra sea representativa. Una forma de
asegurar la representatividad de la muestra es asegurar la aleatoriedad durante el proceso de muestreo. Se
denomina muestreo probabilstico o aleatorio aquel en el cual participa el azar.
Cuando muestreamos sin participacin del azar inevitablemente nos dejamos guiar e intervienen sesgos,
prejuicios y/o preconceptos. La intervencin del azar elimina estos sesgos y permite obtener una muestra
que pueda servir para hacer inferencias sobre la poblacin.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 3
En un muestreo aleatorio todas las unidades o individuos de la poblacin poseen la misma probabilidad
de formar parte de la muestra. Este tipo de mtodo de muestreo asegura la representatividad de la
muestra y son por ellos los ms recomendables.
Que una muestra sea representativa implicar que a partir de ella se pueden extrapolar los resultados y
sacar conclusiones sobre la poblacin.
Aleatoriedad: La aleatoriedad es un campo que se asocia a todo proceso
cuyo resultado no es previsible ms que en razn de la intervencin del azar. El
resultado de todo suceso aleatorio no puede determinarse en ningn caso antes
de que este se produzca.
Qu tipos de muestreo probabilstico o aleatorio existen?
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 4
Muestreos con o sin reemplazo
Lo primero que podemos diferencias entre los tipos de muestreos es que en algunos la unidad
experimental sujeta a mediciones o determinacin es extrada de la poblacin y no es devuelta, con lo cual
no se la puede llegar a medir dos veces. Este tipo de muestreo se llama sin reemplazo. Un ejemplo de este
tipo de muestreo sera colocar trampas en el suelo para capturar insectos. A estas trampas se le coloca
agua con detergente por lo que los insectos mueren dentro de ellas.
En otros muestreos la unidad experimental luego de ser medida es devuelta a la poblacin con lo cual un
tiempo despus podra ser objeto de medicin nuevamente; este tipo de muestreo se llama con
reemplazo. Un ejemplo de este tipo de muestreo sera colocar una red de niebla para cazar pjaros, que
luego de realizarles las mediciones pertinentes son liberados.
Muestreo aleatorio simple
Una forma de realizar un muestreo aleatorio es asignar un nmero a cada unidad o individuo y luego
mediante algn mtodo aleatorio se eligen tantas unidades como sea necesario (recordemos que el
tamao muestral se representa con n y el de la poblacin con N).
Como mtodo de muestreo posee la ventaja que es sencillo de entender, pero la desventaja de que
debemos poseer una lista previa completa de todas las unidades, por eso en general es aplicable slo en
poblaciones pequeas. Por ejemplo, podramos aplicar este mtodo para tomar una muestra aleatoria de
alumnos de una escuela pequea.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 5
Muestreo aleatorio sistemtico
Una variante de muestreo aleatorio que se puede aplicar a poblaciones ms grandes es el muestreo
aleatorio sistemtico. En este caso el que se elige al azar es el primer individuo o unidad (i) y luego se
selecciona el resto de unidades siguiendo intervalos de cada k unidades (es decir los individuos i+k, i+2k,
etc.) Volviendo al ejemplo de una escuela, si tenemos una poblacin de 810 alumnos, con este mtodo
elegimos al azar el primero y luego cada k alumnos elijo los restantes. Cunto vale k?, depende del
tamao de la poblacin y del tamao de las muestra requerido (k=N/n).
Este tipo de muestreo posee un riesgo. Cuando en la poblacin existe cierta periodicidad en los datos y
el valor de k coincide con el periodo, la muestra obtenida no es representativa y la muestra sera menos
variable que la poblacin de la cual se obtuvo.
Un ejemplo de esto podra ocurrir si poseo datos ordenados de parejas (primero el dato de la mujer y
luego del varn). El primer individuo elegido ser al azar y existe la misma probabilidad que sea varn o
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 6
mujer, pero si elijo un valor de k par, luego todos los dems datos sern del mismo sexo que el primero. As
la muestra obtenida ser slo sobre varones o mujeres.
Muestreo aleatorio estratificado
Un muestreo aleatorio estratificado es aquel en el que previamente se separan las unidades o individuos
en categoras y dentro de cada una de ellas se muestrea al azar. Cada una de estas categoras se denomina
estrato y, si estn bien asignados, se asegura la representatividad de los estratos y disminuye la variabilidad
dentro de cada uno de ellos.
Este mtodo adems asegura la representatividad de cada uno de los estratos en la muestra final. El
nico problema de este mtodo es inventar categoras o estratos que nada tienen que ver con la realidad
del problema estudiado. Por ejemplo, si quiero obtener datos de alturas de alumnos, sera una buena idea
dividir a los alumnos en mujeres y varones y muestrear dentro de estos dos estratos al azar. Esto es as
dado que la altura est relacionada con la edad y el sexo de la persona.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 7
Cuntas unidades o individuos muestrear de cada estrato?, las opciones son dos:
tomar la misma cantidad de individuos o unidades en cada estrato independientemente de
cuanto haya en cada uno.
tomar una cantidad proporcional de individuos o unidades segn la representatividad de
cada estrato.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 8
Muestreo aleatorio por conglomerados
Por ltimo el muestreo por conglomerados se realiza mediante la seleccin de grupos de unidades o
individuos. Este mtodo es ideal en poblaciones muy grandes, ya que no se necesitan listados de unidades,
sino de los conglomerados. Por ejemplo, si la cantidad de alumnos es muy grande, se puede hacer un
muestreo seleccionando cursos (seran los conglomerados) de forma que todos los alumnos de esos cursos
formarn parte de la muestra. El problema de este mtodo puede radicar en la forma en que se definieron
los conglomerados. Continuando con el ejemplo de la escuela, si elegimos los cursos al azar estamos
considerando que entre ellos son similares, cuando en realidad es una prctica habitual juntar a alumnos
con una misma caracterstica en un mismo curso, de forma tal que elegir un curso u otro no dar
exactamente lo mismo.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 9
Los muestreos no probabilsticos son aquellos en los cuales el investigador selecciona a los sujetos
mediante el empleo de diferentes criterios. El problema es que estos muestreos son siempre sesgados
aunque el investigador conozca la poblacin. Dentro de lo posible hay que evitar este tipo de muestreo, ya
que impide utilizar con los datos la mayora de las tcnicas paramtricas estadsticas.
Qu tamao (n) debe tener una muestra?
El clculo exacto del tamao de una muestra requiere emplear algunos concomimientos que por ahora
no vimos, pero para adelantar una respuesta podemos decir que:
A mayor tamao de la muestra ms representativa es (cuando n = N, se trata de un censo,
no de una muestra).
Hay que ponderar la cantidad de unidades con la disponibilidad de tiempo y recursos, es
decir muestrear la mayor cantidad de unidades en el tiempo disponible y con los recursos
disponibles.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 1
Precisin y exactitud
Autor: Pablo Otero
Cuando realizamos una medicin o determinacin de una variable o magnitud
cometemos errores.
En cualquier proceso de investigacin que implique la experimentacin cometemos errores y esto es
inevitable. Algunos errores son cometidos en el momento del diseo de la experiencia, otros en la
recoleccin de los datos (proceso de medicin por ejemplo) y otros al analizar los resultados y sacar
conclusiones.
Los errores de diseo pueden evitarse si planeamos con cuidado el experimento, para lo cual
necesitamos conocer lo mximo posible sobre la teora disponible (marco terico adecuado). Los errores
cometidos al analizar los resultados pueden evitarse utilizando correctamente tcnicas adecuadas
(estadsticas o analticas) y acordes a los resultados disponibles.
Los errores que cometemos al recolectar los datos los podemos reducir pero no eliminar del todo, por
eso es importante tratar este tema y ver cmo podemos mejorar las mediciones y estar ms cerca de
encontrar valores ms precisos y exactos.
Una magnitud es todo lo que se puede medir y medir es comparar, por lo tanto el acto de medicin
involucra tres sistemas que interactan entre s: lo que va a medirse, el instrumento y el sistema de
referencia (las unidades patrn).
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 2
Cuando trabajamos con variables cualitativas (ya sean nominales u ordinales) no se utilizan
instrumentos de medicin y la asignacin de una unidad muestral a una categora u otra se basa en la
simple observacin y en criterios fijados previamente. La nica posibilidad de error es que los criterios
empleados para determinar a qu categora pertenece un objeto sean poco claros y ambiguos.
En el caso de las variables cuantitativas se utilizan instrumentos lo cual trae aparejado la posibilidad de
cometer errores de medicin que alteren la precisin y exactitud de las mediciones. Un instrumento de
medicin es cualquier objeto o aparato que pueda ser utilizado para medir.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 3
Existen instrumentos ms complejos que otros, por ejemplo para medir longitudes puedo usar una vara de
madera o una regla milimetrada, pero independientemente de la complejidad que tenga el instrumento
debe poder establecer una proporcionalidad entre lo que queremos medir y alguna unidad patrn (la
unidad patrn en algunos casos podra ser el mismo instrumento).
Un instrumento ser ms sensible cuando sea capaz de medir variaciones ms pequeas en la magnitud y
un instrumento ser ms exacto si los valores obtenidos con l se acercan a los valores reales. De lo
anterior se desprende que lo ideal sera disponer de un instrumento con la sensibilidad adecuada y de gran
exactitud. Cabe destacar que un instrumento puede ser muy sensible y poco exacto, por ejemplo si est
ms construido y su escala no se corresponde con el patrn.
La precisin o poder de resolucin de un instrumento est asociada a la menor divisin de su escala. De
forma tal que una balanza que pesa hasta gramos es ms precisa que una que pesa hasta 10 gramos, o un
calibre es ms preciso que una regla.
Adelantamos que, dado que todo instrumento posee cierta precisin (una mnima divisin de la escala
patrn) su uso conduce a cometer lo que se conoce como error de apreciacin. Se considera que el error
de apreciacin es la mitad de la mnima divisin del instrumento.
Errores que cometemos al hacer mediciones: errores sistemticos, de apreciacin y accidentales
Los errores de medicin no son equivocaciones. Son parte inherente del propio
proceso de medicin.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 4
Error sistemtico. Este tipo de error se produce cuando un instrumento est mal calibrado o es usado en
condiciones de laboratorio diferentes a las cuales fue calibrado. Un error sistemtico muy comn es el
corrimiento del cero del instrumento, es decir que el instrumento no mide 0 cuando la magnitud medida es
nula; esto suele suceder con las balanzas.
Lo bueno de esta situacin es que a veces este tipo de errores se pueden corregir posteriormente si se
verifica el error sumando o restando la diferencia.
Error de apreciacin. Este tipo de error no vara de medicin a medicin y depende del instrumento ya que
est directamente relacionado con su precisin. Mientras mayor precisin o poder de resolucin tenga un
instrumento (ms pequea sea la menor divisin de su escala), menor ser el error de apreciacin. Lo que
tiene de particular este tipo de error es que no puede ser eliminado.
Error accidental. Como su nombre lo indica, los errores accidentales se producen por factores accidentales
o aleatorios como puede ser el uso incorrecto del instrumento por el operador, o por las condiciones
variantes en las que se realiza la medicin.
Este tipo de errores pueden reducirse mediante un uso cuidadoso del operador y mediante la repeticin de
las medidas. Cuando medimos una misma magnitud varias veces no necesariamente obtendremos los
mismos valores. En algunos casos estaremos por arriba del valor real y en otras por debajo. Est
demostrado que el promedio de las mediciones es el valor que ms se acerca al real.
Qu es el error absoluto de una medicin?
El error absoluto de una medicin es la suma de los errores: sistemticos, de apreciacin y accidentales.
Es decir que cuando realizamos una medicin (M) debido a la presencia de estos errores slo podemos
asegurar que el valor real se encuentra en un intervalo definido por:
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 5
Donde corresponde al error absoluto:
Si la magnitud se mide con un instrumento adecuado y sin cometer errores accidentales se puede
considerar que:
En general se utiliza una sola cifra significativa para el error absoluto, redondeando si hubiera sido obtenido
por clculo.
Apliquemos esto a un ejemplo. Supongamos que quiero medir en el alto de un billete (llammoslo x) con
una regla que slo posee sealados los centmetros (resolucin = 1cm). Evidentemente con este
instrumento no podr obtener un valor muy preciso ni exacto del alto del mismo. Con esta regla las
posibles longitudes medidas en centmetros seran todos nmeros enteros (2, 5, 10 cm, etc.). Cuando la uso
para medir el billete, determino que el alto est entre seis y siete centmetros. Pero no puedo dar ms
precisin ya que no hay divisiones menores al centmetro. Si concluyo que mide 6.5 cm sera una medicin
aproximada o a ojo de buen cubero y este resultado tendra un nivel de precisin mayor que la
resolucin del aparato que us (ver ms adelante el tema cifras significativas); el resultado 6.5 cm est en
dcimas de centmetro (milmetros) y la regla posee una resolucin de un centmetro. El valor a informar en
este caso sera x=6 cm, aunque s que no es exactamente el valor real. Lo que s puedo estar seguro, es que
dado que la resolucin de la regla es de 1 cm y el error de apreciacin es 0,5 cm y el intervalo que seguro
contiene al valor real es:
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 6
Figura 1: Si la regla posee marcados slo los centmetros, el
resultado no puede incluir en su cifra milmetros.
Figura 2: La medicin del mismo objeto con una regla milimetrada, si permite dar una cifra con milmetros.
Cmo puedo obtener un valor ms preciso? Usando un instrumento con un poder de resolucin
menor y con menor error de apreciacin, por ejemplo una regla milimetrada. Usando esta regla veo que el
billete de alto casi mide 6.5 cm, y tal vez nos veamos tentados a arriesgar un 6.45 cm. Este valor tendra un
nivel de detalle mayor (dcima de milmetro) que la resolucin de la regla (milmetro). Nuevamente lo que
s puedo estar seguro es que el valor exacto del alto est entre los valores 6.45 y 6.55 cm (que incluye al
valor estimado 6.5 cm).
Por ltimo, si uso un calibre cuya resolucin es la decima de milmetro (y por lo tanto el error de
apreciacin 0.005 cm) obtengo un valor 6.45 cm y dado que la resolucin es la dcima de milmetro, puedo
estar seguro que el valor exacto se encuentra entre 6.445 y 6.455 cm.
Si repasamos los datos en la siguiente tabla:
Resolucin del instrumento (regla) Error de apreciacin Valor obtenido (cm) Intervalo (cm)
1 cm 0.5 cm 6 5.5 6.5
0.1 cm 0.05 cm 6.5 6.45 6.55
0.01 cm 0.005 cm 6.45 6.445 6.455
Cuando medimos, en realidad ms que un resultado preciso y exacto, encontramos
un intervalo que contiene al verdadero valor. Instrumentos ms precisos nos
proporcionan intervalos ms acotados.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 7
Vemos que a medida que aumentamos la resolucin del aparato obtuvimos valores ms precisos
(intervalos ms cortos) y adems si esos instrumentos estn correctamente calibrados o construidos, los
valores se acercarn cada vez ms al alto real del billete, es decir se gan tambin en exactitud. Ntese que
el valor 6.45 cm est incluido en todos los intervalos obtenidos previamente.
Dijimos anteriormente que cuando se descartan los errores sistemticos y accidentales, el error
absoluto era igual al error de apreciacin. Tambin dijimos que los errores de apreciacin no se pueden
eliminar pero si reducir.
Una forma de poder comparar los errores cometidos con diferentes instrumentos (y por lo tanto con
diferentes errores de apreciacin) es calcular el error relativo y porcentual. La frmula es muy sencilla, es el
cociente entre el error absoluto y el valor obtenido:
Ntese que el erro relativo es adimensional. Por ltimo el error porcentual es:
Valor obtenido (cm) Error absoluto (=apreciacin)
Error relativo Error porcentual (%)
6 0.5 cm 0.1 10
6.5 0.05 cm 0.008 0.8
6.45 0.005 cm 0.0008 0.08
Los conceptos: precisin y exactitud se suelen usar como sinnimos y no lo son. Repasmoslos y
remarquemos las diferencias:
La precisin de un instrumento est relacionada con el poder de resolucin, es decir con la mnima
divisin. Si se realizan varias mediciones de una misma magnitud, la precisin se refiere a la dispersin del
conjunto de valores obtenidos en mediciones repetidas. Cuanta menor precisin se tenga al medir, mayor
ser la dispersin de los resultados (mayor el intervalo que incluye al valor real). La falta de precisin o
imprecisin aumenta al cometer errores de apreciacin y accidentales durante el proceso de medicin y
constituyen una fuente de incertidumbre. Esta incertidumbre aumenta con aparatos con poca resolucin y
el descuido en el uso del operador.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 8
La exactitud se refiere a que tan cerca del valor real se encuentra el valor medido. En trminos
estadsticos, la exactitud est relacionada con el sesgo de una estimacin (sesgo = inexactitud), por lo que
cuanto menor sea el sesgo ms exacta ser una estimacin. La inexactitud est asociada a errores
sistemticos debidos a mala calibracin o construccin de un aparato; tambin a malos hbitos del
experimentador al momento de medir. Si se conoce el valor real, la exactitud es la diferencia entre el valor
real y el estimado.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 1
Cifras significativa
Autor: Pablo Otero
Las cifras significativas de un nmero son aquellas que poseen un significado y
aportan alguna informacin.
La manera ms sencilla y amena de abordemos este tema un tanto rido- es mediante ejemplos
sencillos. Si medimos el largo de un objeto con un calibre y obtenemos el valor 15.66 cm y otra persona
mide el mismo objeto con una regla y obtiene el valor de 15.7 cm. Quin posee la medida ms precisa?
Evidentemente la nuestra es ms precisa ya que posee 4 cifras significativas (1, 5, 6 y 6) y la otra estimacin
posee 3 cifras significativas (1, 5 y 7). Hasta aqu parecera que un nmero cuantas ms cifras tiene ms
preciso es y simplemente hay que contarlas para saber cuntas son. Esto es cierto con las cifras del 1 al 9,
pero no siempre cuando aparecen ceros.
Tal como vimos anteriormente, si yo quisiera hacer ms precisa una medicin (15.7 en este caso),
debera conseguir un instrumento con mejor resolucin (en este caso un calibre) y medirlo nuevamente. Si
sigo usando la regla para medir pero simplemente agrego otra cifra a ojo despus del 7 aumentara la
precisin, pero sera un invento!!! En general nadie que trabaje es serio hace esto, excepto con los ceros.
Es muy comn agregar ceros a las nmeros sin darnos cuenta que son igual de inventados que si
agregramos un dos o un nueve. Por ejemplo, medimos algo con una regla y nos da 5.2 cm (cifre con 2 c.s.)
es una prctica comn escribirlo como 5.20 cm. Este cero agregado a la derecha aument la precisin diez
veces, a pesar de que el instrumento sigue siendo una regla (no se transform en un calibre).
Qu conclusiones podemos sacar hasta ahora?
1. Todas las cifras de un nmero diferentes de cero son significativas (23 posee 2 c.s.).
2. En los nmeros decimales, los ceros a la derecha son significativos (5,00 posee 3 c.s.).
Sigamos con los ceros. Si mi peso es 105 kg, el cero del medio es una cifra significativa?, por supuesto,
ya que posee informacin, no es lo mismo 105, que 115 o que 195.
Qu conclusin podemos sacar?
3. Los ceros en posiciones intermedias de un nmero son siempre significativos (105 posee 3
c.s.).
Qu ocurre con los ceros a la izquierda?... ya lo dice el dicho: es un cero a la izquierda.
4. Los ceros a la izquierda no son significativos (0.023 posee 2 c.s. y 0.00210 posee 3 c.s.).
Adems los nmeros que resultan de hecho de contar y derivados a partir de sus clculos poseen
infinitas cifras significativas. Ejemplo: si en este curso hay 15 personas sabemos positivamente que ese
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 2
nmero es exacto. As que podramos escribirlo como 15, 15.0000 o 15.00000000 segn nuestra
conveniencia (ms adelante se entender esto de la conveniencia).
Qu pasa cuando hacemos operaciones entre nmeros (usando o no la calculadora)?
Partamos de un ejemplo, quiero calcular el rea de un patio rectangular y mido sus lados con una cinta
mtrica slo con los centmetros. Los valores obtenidos con 6.10 m x 3.23 m, el rea resultante es 19.703
m2. Pero ac hay un problema con las cifras significativas, tanto 6.10 y 3.23 poseen tres cifras significativas,
pero el resultado posee 5 c.s. por lo tanto el resultado habra que redondearlo a 3 c.s., y el resultado sera
19.7 m2.
Conclusin: En la multiplicacin y divisin: el nmero de cifras significativas en el resultado es
determinado por el nmero original que tenga menos cifras significativas.
Supongamos este otro caso. Compro 25 kilos de harina y deseo repartirlos entre cuatro personas.
Cuntas cifras significativas poseen los nmeros 25 y 4? El nmero 25 posee 2 c.s. y 4?
Si aplico la regla anterior estara cometiendo un error ya que el nmero cuatro en este caso no es un
valor estimado, es un valor exacto que result de contar por lo que tiene infinitas cifras significativas. Es
decir que me conviene escribir para esta cuenta 25 / 4.0 (los dos con 2 c.s.). La operacin 25/4.0 = 6.25. El
nmero 6.25 posee 3 c.s. ms que cualquiera de los otros dos. Eso no puede ser y resultado debera ser
redondeado a la cantidad 6.3.
En el caso de sumar o restar, la cantidad cifras significativas a la derecha de la coma en el resultado est
determinada por la cantidad menor de cifras significativas a la derecha de la coma punto de cualquiera de
los nmeros originales.
Ejemplo
8.4486 + 1.2 = 9.6486 redondeado a 1 c.s. despus de la coma (tal cual 1.2) quedara redondeado a 9.7
Atencin a este ejemplo:
8.024 8.002 = 0.022
Los dos nmeros originales tenan 4 c.s., pero el resultado slo posee 2 c.s. Es decir algunas
sustracciones disminuyen el nmero de cifras significativas, por eso conviene hacer las sumas antes que las
restas.
Ejemplo:
6.03 6.01 + 15.37 =
Lo podemos resolver de dos maneras
1. (6.03 6.01) + 15.37 = 0.02 15.37 = 15.39 = 15.4 (el resultado debe ser redondeado a 15.4 ya
que 0.02 posee 1 c.s.)
2. (6.03 + 15.37) 6.01 = 21.40 6.01 = 15.39 (y no debe ser redondeado ya que ambos nmeros
tenan 2 c.s.)
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 1
Estadstica Descriptiva
Autor: Pablo Otero
El objetivo principal del siguiente mdulo es el estudio y descripcin de una poblacin o muestra a partir de
variables cuantitativas y cualitativas. Veremos qu tipos de grficos se pueden construir y qu valores se
pueden calcular para lograr una descripcin completa de una poblacin o muestra.
Para cumplir esto objetivo, supondremos que hicimos un trabajo de investigacin con un grupo de alumnos
que estaba integrado por todos los alumnos de 15 a 16 aos de una escuela. Este grupo que constituy la
poblacin, est subdividido en los diferentes cursos (a los que denominaremos: A1, A2, etc.). A cada
alumno se le hicieron algunas mediciones, preguntas u determinaciones, y en el caso de ser mayor de 16
aos los datos no fueron tenidos en cuenta. El total de alumnos, que en este caso seran las unidades
experimentales, fue de 324 (N=324).
Las determinaciones que se hicieron sobre cada alumno fueron:
Sexo.
Cuadro de ftbol, por el que hincha o simpatiza.
Cantidad de hermanos.
Altura (medida en cm).
Peso (medido en Kg).
Opinin sobre la utilidad de la educacin que recibe (se definieron tres categoras: nada, poco y mucho).
Una vez realizada las determinaciones en todos los alumnos, lo primero que se hizo fue organizar los
datos para su posterior anlisis.
Una forma de organizar estos datos es construir una matriz (o tabla de doble entrada) que posea en las
columnas las variables y en las filas los casos particulares (datos de cada unidad experimental). Esto se
puede hacer en algn programa de hojas de clculo (tipo Excel) o directamente en algn programa de
anlisis estadstico (tipo G-Stat, Statistix, Statistica, etc.)
A continuacin se muestra cmo quedara la planilla de datos en Excel lista para comenzar a completar
los datos:
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 2
Figura 1: En las columnas las variables y en las filas las unidades experimentales. En la primera columna simplemente se numeraron los casos, esto puede obviarse ya que los programas de anlisis estadstico lo hacen automticamente. Se muestran slo las cuatro primeras filas. Este ejemplo fue
generado con Excel 2007 por lo que puede ser visualmente diferente a lo hecho en Excel 2003.
Una vez ingresados todos los datos tendremos la matriz completa (tendr 324 x 7 datos, es decir 2268
datos).
Variables cualitativas
Comenzaremos describiendo a esta poblacin en base a las variables cualitativas utilizadas.
Las variables cualitativas utilizadas en esta investigacin son:
Sexo: Variable nominal dicotmica.
Cuadro de ftbol del cual es hincha o simpatizante: Variable nominal politmica.
Opinin sobre la utilidad de la educacin que recibe: Variable ordinal (las categoras en orden son:
nada, poco y mucho).
Como podemos ver ninguna de estas variables est asociada naturalmente a valores numricos, ni
pueden ser medidas. Algunas de ellas se determinan por simple observacin (ej.: sexo) y otras mediante
preguntas (cuadro de ftbol y opinin sobre la educacin).
En algunos casos las variables cualitativas pueden ser codificadas con nmeros. Por ejemplo, podemos
dar el cdigo 1 a las mujeres y 2 a los hombres. Esto es vlido y til en algunos casos, pero no deben ser
usados estos cdigos como si fueran variables cuantitativas. Por ejemplo, sera ridculo afirmar que dos
mujeres (2x1) seran iguales a un hombre (1x2).
Lo mismo sucede con las variables ordinales cuando se re-codifican. Veamos un ejemplo, si a las
diferentes criticas de pelculas las identifico con nmeros (muy mala = 1, mala = 2, regular = 3, bueno = 4 y
muy buena = 5) es una forma vlida manejar la informacin. Lo que no puedo decir es que una pelcula
mala (2) es la mitad de buena que una buena (4). Las relaciones de proporcin entre los nmeros utilizados
no son vlidas, simplemente sabemos que 2 es menor que 4, por lo que la primera pelcula recibi peor
crtica que la segunda.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 3
Para cada una de estas variables podemos calcular con qu frecuencia se dan cada una de sus categoras
(i). Esto se realiza por simple conteo (o lo hace el programa especfico si los datos ya fueron cargados). La
informacin obtenida conviene organizarla en tablas como la siguiente:
Tabla 1: Tabla de frecuencias de las categoras de una variable cualitativa.
Sexo Fi fi %
Mujer 175 0.54 54
Varn 149 0.46 46
N 324 1 100
La frecuencia absoluta (Fi) de cada categora es simplemente la cantidad de veces que ocurre; la sumatoria
de todas las Fi es siempre igual a N y las frecuencias absolutas son siempre nmeros enteros.
La frecuencia relativa (fi) se calcula segn la siguiente frmula:
La sumatoria de las frecuencias relativas es siempre igual a 1.
Los valores de porcentaje (%) se obtienen simplemente multiplicando las frecuencias relativas por 100.
La ventaja de usar frecuencias relativas o porcentajes radica en que como son independientes del valor
de N, sirven para comparar dos poblaciones diferentes entre s.
Adems de organizar los datos en forma de tabla, se pueden hacer grficos para describir una variable
de una muestra o poblacin. Para las variables cualitativas los grficos que se pueden hacer son: diagramas
de barras y grfico tipo torta. Ambos grficos son muy comunes y en general no traen problemas para ser
interpretados correctamente.
Diagramas de barras (o grficos de barras): En este tipo de grfico, para cada categora de la variable
cualitativa se dibuja una columna o barra cuya altura es proporcional a la frecuencia (pueden usarse las
frecuencias absolutas, relativas o porcentajes) (Figura 2). Si el grfico est hecho con el propsito de
comparar con otra poblacin, deben usarse frecuencias relativas o porcentajes.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 4
Figura 2: Lo principal en un grfico de barras es que la altura de las barras o columnas debe ser proporcional al valor de frecuencia o porcentaje.
Veamos algunos ejemplos utilizando los datos de la planilla de adolescentes:
Figura 3: Diagrama de barras que muestra la distribucin de sexos para la poblacin de estudio. En este grfico se usaron los valores de porcentaje para el eje vertical.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 5
Figura 4: Diagrama de barras que muestra la cantidad de hinchas de cada club para la poblacin de estudio. En este grfico se usaron los valores de frecuencias absolutas para el eje vertical.
Algunas recomendaciones a la hora de construir este tipo de grficos.
Figura 5: Si el diagrama de barras es sobre una variable ordinal, las categoras en el grfico deben seguir el orden natural, en este caso: nada, poco y mucho.
Si la variable cualitativa es nominal (como los ejemplos mostrados anteriormente) el orden de las categoras no altera los resultados y son vlidas las diferentes alternativas. En cambio en las variables ordinales debe seguirse el orden lgico y natural. Por ejemplo, si graficamos en un diagrama de barras las frecuencias para la variable opinin sobre la utilidad de la educacin, el orden de las categoras posee un orden natural (nada, poco y mucho) y debera ser el orden a usar en el eje del grfico.
El cero debe ser siempre el mnimo del eje de frecuencias o porcentajes. De no ser as se puede engaar al lector del grfico sugiriendo una diferencia entre las alturas de las columnas que no se corresponde con la diferencia en las frecuencias. En la figura 6 se muestra un grfico mal hecho en el cual se cometi este error. En l se puede ver cmo, si nos guiamos por las alturas de las columnas, una de las barras es ms del doble de alta que la otra; pero si verificamos los nmeros notaremos que 33.144 no es el doble de 26.090 (de hecho la relacin es 1.27). Este efecto engaoso se produjo por no incluir el cero en la escala.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 6
Figura 6: Un grfico malintencionado para engaar a los lectores. No incluir al cero en las escalas produce que visualmente un mismo grupo de datos reflejen una realidad diferente.
Si el grfico de barras ser utilizado para realizar comparaciones con los de otra poblacin, resulta imperioso que el mximo de la escala en ambos casos coincida. Si el grfico no se usar para comparaciones, el mximo puede establecerse apenas por sobre el valor mximo de frecuencia o porcentaje. Esto produce que el grfico ocupe la mayor rea posible y sea ms claro. Cuando el valor mximo elegido es mucho ms alto que los valores a graficar, resultan grficos aplastados contra el eje horizontal y sern menos notorias las diferencias (Figura 7).
Figura 7: El mismo grfico con dos escalas verticales diferentes. En la versin de la izquierda el mximo de 100% hace que las diferencias entre los porcentajes de las categoras resulten menos evidentes, adems de ser ms difcil leer la escala. En la versin de la derecha, el valor mximo
utilizado (60%), permite visualizar mejor las diferencias y leer mejor la escala.
La escala vertical deber tener suficientes divisiones como para poder extrapolar el alto de las columnas y obtener aproximadamente los valores de frecuencias. Demasiadas divisiones tampoco son recomendables, ya que dificultan la lectura de los valores en el eje. En algunos grficos se agregan a cada columna el valor de la frecuencia. Esto es redundante con la presencia del eje, pero en algunos grficos sirve para destacar valores.
Por ltimo, ya que no se trata de una variable continua, no se deben graficar las columnas pegadas unas a otras. Por la misma razn si se trazan lneas desde una columna a otra, slo sirven para visualizar mejor las diferencias, pero en ningn caso constituyen dibujos de ecuaciones lineales.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 7
Otra prctica frecuente es utilizar imgenes alusivas al tema del grfico. En estos casos hay que tener en cuenta que, si bien mejoran la presentacin, no deben producir un efecto engaoso y dificultar la interpretacin del grfico. Por ejemplo en el siguiente grfico (Figura 8) se reemplaza la coloracin de la columna por una bombita y, a mayor cantidad de bombitas vendidas mayor el tamao. Lo que no es aconsejable de esta grfico es que la bombita ms grande, no slo es ms alta sino tambin ms ancha. En el caso de las columnas la frecuencia slo est representada por la altura; todas las columnas poseen la misma base. En este grfico el tamao de las bombitas sugiere una diferencia entre las ventas a lo largo de los aos mayor a la real. Otra crtica es: para qu incluir un eje sin valores? Dado que los valores estn puestos arriba de cada bombita, el eje es prescindible.
Figura 8: Mezcla de diagrama de barras y pictograma. En los diagrama de barras la frecuencia nada tiene que ver con el ancho de las columnas. En este caso, adems de variar la altura de las barras tambin vara el ancho. El eje vertical no tiene valores ni escala. Ntese que el variable tiempo
est considerada en este caso como variable nominal: aos.
Si deseamos representar las frecuencias mediante el tipo de grfico ideal es un pictograma. En este tipo de grfico a mayor rea mayor frecuencia, y no se utiliza ningn eje. La ausencia de un eje de referencia hace que sea imprescindible incluir los valores a lado de cada dibujo: En la siguiente figura se muestra un pictograma con las frecuencias de hinchas para cada club (Figura 9).
117 96 34 32 29 16
Figura 9: En los pictogramas la frecuencia puede estar referida al rea de un objeto. En este caso la cantidad de hinchas de cada club est en relacin con el rea de la pelota de ftbol. Si bien suelen ser grficos muy vistosos, es indispensable que se aclare los valores, ya que es muy difcil
deducir las frecuencias a partir de los dibujos.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 8
En la siguiente versin del grfico de las bombitas vendidas (Figura 10) todas las columnas poseen el mismo ancho y la altura del dibujo de las bombitas (a ms altura, ms bombitas) refleja la frecuencia. Dado que cada columna posee el valor sobre ella, se podra prescindir del eje vertical (que adems no tiene valores).
Figura 10: Versin mejorada del grafico de la figura 6. La frecuencia est slo representada por la altura, ya que las bases de las columnas son iguales. Un eje sin valores no tiene sentido y se debera eliminar.
En el siguiente grfico (Figura 11) que muestra los cambios en la produccin de trigo segn los aos, se cometieron algunos errores. El primero es incluir un eje sin valores; carece de sentido y de utilidad. Otro error es que la distancia entre los aos es diferente, se va agrandando a medida que se acerca al ao 1997. Esto sumado al aumento del tamao del dibujo, agranda las diferencias reales entre las producciones en diferentes aos y hace ms visible el valor a destacar.
Figura 11: En este grfico se cometieron errores en ambos ejes. La distancia en los aos del eje horizontal va en aumento hasta la ltima categora, mientras que el eje vertical no posee valores ni escala.
Grficos tipo torta (Pie chart en ingls): En este tipo de grfico (Figura 12), cada categora de la
variable cualitativa recibe una porcin de la torta proporcional a la frecuencia relativa o porcentaje.
Todos los programas de anlisis estadsticos permiten hacer este tipo de grfico, pero si lo deseamos hacer
en forma manual, simplemente hay que considerar que la circunferencia completa (360) representa el
100%, de forma tal que valores diferentes se obtienen simplemente mediante regla de tres simple. En
ningn caso debe suceder que la sumatoria de los porcentajes sea diferente de 100%.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 9
Figura 12: Los grficos de tipo torta son muy fciles de hacer y de interpretar.
Diagramas de barras para ms de una variable cualitativa: A veces la respuesta que buscamos sale de
combinar dos variables cualitativas. Por ejemplo si yo me preguntara: Por qu club hinchan las personas
de distinto sexo?
Para responder esto podra ordenar los datos de frecuencias absolutas en una tabla de doble entrada;
de la siguiente forma:
Boca Juniors River Plate Racing Club San Lorenzo Independiente Otros
Mujer 65 50 13 21 17 9 175
Varn 52 46 21 11 12 7 149
117 96 34 32 29 16 N=324
Si calculamos los porcentajes dividiendo por el total (N=324) y los multiplicamos por cien, obtendremos
para las combinaciones de sexo/club:
Boca Juniors River Plate Racing Club San Lorenzo Independiente Otros
Mujer 20.1 15.4 4.0 6.5 5.2 2.8 54.0
Varn 16.0 14.2 6.5 3.4 3.7 2.2 46.0
36.1 29.6 10.5 9.9 9.0 4.9 100.0
Con estos datos podemos hacer un grfico de barras con dos series (una para cada sexo) (Figura 13).
54%
46%
Distribucin de sexos
mujer varn
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 10
Figura 13: En este grfico de barras, los valores de porcentaje estn divididos en dos series de datos (correspondientes a los sexos). Segn este grfico lo que ms abunda son los hinchas varones de Boca Juniors. Notar que el orden de los clubes de ftbol es arbitrario y si se modifica, las
conclusiones que se pueden extraer del grfico seran las mismas.
Con estos mismos datos podra responder otras preguntas, por ejemplo si me preguntara: por qu club
de futbol hinchan ms las mujeres? Y los hombres?
Como la cantidad de mujeres y varones es diferente (175 vs. 149), para poder comparar y responder la
pregunta convendra independizar los valores del total de hinchas de cada sexo calculando los porcentajes
para cada club por sexo. Para ello dividido el valor de frecuencia absoluta por el total para ese sexo y lo
multiplico por 100. Los resultados seran:
Boca Juniors River Plate Racing Club San Lorenzo Independiente Otros
mujer 37.1 28.6 7.4 12.0 9.7 5.1 100
varn 34.9 30.9 14.1 7.4 8.1 4.7 100
72.0 59.4 21.5 19.4 17.8 9.8
Con estos datos podemos hacer diversos tipos de grficos de barras, a continuacin veremos dos
posibilidades. La primera es hacer un grfico de barras en el cual el eje horizontal tenga dos categoras
principales (sexo en este caso) y para cada uno de los sexos cinco sub-categoras (clubes en este caso). De
esta forma quedaran cinco columnas o barras para cada sexo. El aspecto del grfico ser el siguiente
(Figura 14):
0,0
5,0
10,0
15,0
20,0
25,0Po
rcen
taje
Club de ftbol
Porcentajes de hinchas de clubes de ftbol para ambos sexos
Mujer
Varn
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 11
Figura 14: Para hacer este grfico los valores de porcentaje fueron calculados en relacin a total de cada sexo ya que el objetivo era saber para cada sexo que tipo de hincha era ms frecuente y adems poder comparar entre hombres y mujeres. Segn este grfico, sea mujer o varn, lo ms
frecuentes es que sea hincha de Boca Juniors, seguidos por sus primos River Plate. Entre los varones, el tercer cuadro en cantidad de hinchas es San Lorenzo, mientras que entre las mujeres es Racing Club.
Otra posibilidad es realizar un diagrama de barras de porcentajes acumulados. En este tipo de grfico
las columnas de las categoras a comparar siempre miden 100%, pero se dividen en porciones segn los
porcentajes de la otra variable cualitativa utilizada. Para los mismos datos usados en el grfico anterior,
este tipo de grfico quedara con dos columnas (una por sexo) dividida cada una de ellas en seis porciones
referidas a los porcentajes de cada club. El aspecto del grfico ser el siguiente (Figura 15).
Figura 15: Este grfico resulta ideal para hacer comparaciones ya que las barras siempre son iguales (100%), lo que difiere entre ellas es el alto de las porciones referidas a la segunda variable cualitativa (en este caso los clubes).
Variables cuantitativas
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 12
Continuaremos describiendo a esta poblacin en base a las variables cuantitativas utilizadas.
Recordemos que las variables cuantitativas pueden ser:
En el caso de que la variable cuantitativa sea discreta el tipo de grfico que se puede hacer es similar al
caso de las variables cualitativas. Mostraremos el caso del anlisis de la variable cantidad de hermanos por
alumno. Los datos se pueden organizar y calcular las frecuencias relativas, absolutas y porcentajes de igual
manera que se hizo para las variables cualitativas. La tabla quedara de la siguiente forma:
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 13
Cantidad de hermanos Fi fi % Fi (acum) % (acum)
0 88 0.27 27.2 88 27.2
1 166 0.51 51.2 254 78.4
2 30 0.09 9.3 284 87.7
3 20 0.06 6.2 304 93.9
4 18 0.06 5.6 322 99.5
5 2 0.01 0.6 324 100
N= 324 1 100
Con estos valores podemos hacer diagramas de barras usando las frecuencias absolutas, las relativas o los
porcentajes. El uso de porcentajes permita comparaciones posteriores de este grfico con otros (Figuras 16
y 17).
Figura 16: Diagrama de barras hecho con las frecuencias absolutas.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 14
Figura 17: Diagrama de barras hecho con los porcentajes.
Para las variables discretas se pueden hacer grficos de barras con las frecuencias o porcentajes
acumulados (Figura 18). Las barras no deben tocarse entre s ya que la variable no es continua y no existen
valores intermedios. Este tipo de grficos sirve para ver por debajo de cada valor que porcentaje de las
observaciones est presente.
Figura 18: Diagrama de barras de porcentajes acumulados. Este grfico muestra que casi el 80% de los alumnos poseen hasta un hermano.
Si la variable cuantitativa es continua los tipos de grficos y anlisis que se pueden hacer son muy
diferentes y les dedicaremos especial atencin.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 15
Si bien la mayora de los clculos los har el programa de anlisis estadstico que se vaya a usar (en nuestro
caso el G-Stat) veremos cules son las frmulas y criterios usados en estos clculos. Si as no lo hiciramos,
al usar el programa y obtener los resultados no sabramos que significado tienen.
Utilizaremos para los siguientes ejemplos de clculos y grficos la variable altura de los alumnos, pero lo
mismo se puede hacer para cualquiera de las otras variables.
Si observamos los datos de la variable altura podemos extraer ciertos valores importantes (para ello abrir el
archivo de Excel con los datos correspondientes):
Cantidad de datos (N) 324 Mnimo 141 cm Mximo 192 cm
La diferencia entre el mximo y mnimo se conoce como recorrido muestral (w). En este caso:
w = 192 cm 141 cm = 51 cm.
A diferencia de otros tipos de variables, las variables continuas pueden tomar cualquier tipo de valores
(incluso nmero decimales). Vale la pena recalcar esta diferencia con otras variables con algunos ejemplos.
Si para un alumno se determina que: es varn, que tiene un hermano y que es de boca, son todos datos
que no admiten duda. En cambio si esa misma persona es medida y su altura es 162 cm, esa no es su
verdadera altura; es una estimacin (cuanto medimos ms que una medida exacta obtenemos un intervalo
que incluye la verdadera medida, en este caso el intervalo sera 161.5-162.5 cm).
A la misma persona si la medimos con cinta milimetrada su altura ser 162.5 cm. Los valores son diferentes,
pero la persona es la misma. Es importante que al trabajar con datos de variables continuas recordemos
esto, qu sentido tendra contar las personas que midieron 162 cm si no es el valor exacto?
Debido a lo anteriormente explicado, con las variables cuantitativas se trabaja con intervalos o clases. Cada
intervalo posee un mximo y un mnimo. El valor mnimo de la variable debe quedar incluido en el primer
intervalo o clase, mientras que el valor mximo debe quedar incluido en la ltima clase.
La cantidad de clases a utilizar est en relacin con la cantidad de observaciones o datos. Si bien no hay
frmulas exactas, los siguientes son buenos criterios para saber cuntas clases (valor que llamaremos k)
necesitamos:
En nuestro caso, dado que N = 324, usaremos el segundo caso y k = 9.28 que se redondea a k = 9.
En todos los casos trabajaremos con clases o intervalos de iguales ancho o amplitud; llamaremos al ancho
del intervalo h.
Para obtener el valor de h:
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 16
Para no tener problemas en la inclusin de los valores dentro de los intervalos que se formarn conviene
que el valor de h tenga ms decimales que los usados para los datos. En nuestro caso los datos de altura
son nmeros enteros y usaremos h= 5.667
Veamos cmo armar los intervalos de las clases. Dado que son nueve clases deberemos hacer una tabla con
ms de nueve filas (ver tabla a continuacin). En la primera columna colocaremos la el nmero de clase (1
al 9), en la segunda y tercera los lmites inferior y superior (respectivamente de cada clase). Por ejemplo,
para la clase 1, el lmite inferior es el valor mnimo 141 cm y el mximo es 146.667 (que resulta de hacer
141 + h). Para la clase 2, el mnimo es el mximo de la clase anterior y el mximo ser 152.33 (que resulta
de hacer (146.667 + h); y as sucesivamente. Para que los decimales en los valores de los lmites si las
alturas son nmeros enteros? Justamente para no tener dudas a que clase pertenecen los valores; si
hiciramos los intervalos con nmeros enteros, en qu intervalo incluiramos un valor que coincide con
alguno de los lmites?
Lmite de la clase
Acumuladas
Clase Mnimo Mximo Marca de clase Fi % Fi %
1 141.00 146.67 143.83 5 1.54 5
1.54
2 146.67 152.33 149.50 14 4.32 19
5.86
3 152.33 158.00 155.17 36 11.11 55
16.98
4 158.00 163.67 160.83 67 20.68 122
37.65
5 163.67 169.33 166.50 91 28.09 213
65.74
6 169.33 175.00 172.17 51 15.74 264
81.48
7 175.00 180.67 177.83 45 13.89 309
95.37
8 180.67 186.33 183.50 10 3.09 319
98.46
9 186.33 192.00 189.17 5 1.54 324
100.00
324 100
Cada intervalos tendr un valor en el centro, equidistante del mnimo y el mximo, a ese valor se lo llama
marca de clase (lo simbolizaremos como Xc). Cmo puede calcular la marca de clase de un intervalo?,
simplemente sumndole al mnimo la mitad del ancho del intervalo (h/2).
Una vez armadas las clases podemos calcular la frecuencia absoluta (Fi) para cada una de ellas. Si
utilizamos un software estadstico esta tarea la hace el programa, pero si lo queremos hacer manualmente
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 17
conviene ordenar los datos de menor a mayor y contar cuantos quedan incluidos en cada una de las clases
armadas; luego corroborar que:
Calcular los porcentajes para cada una de las clases ser de gran utilidad para confeccionar grficos y hacer
comparaciones con otras muestras o poblaciones.
Las ltimas dos columnas son valores acumulados de frecuencias y porcentajes. Para calcular la frecuencia
acumulada de cualquier clase, simplemente debemos a la frecuencia de esta clase la suma de todos los
valores de frecuencia anteriores; lo mismo para los porcentajes. Por ejemplo, la frecuencia acumulada de la
cuarta clases es:
( )
La frecuencia acumulada de la ltima clase debe ser igual a N.
Qu tipos de grficos se pueden hacer con estos datos?
Histograma de frecuencias:
Un histograma de frecuencias representa mediante el alto de columnas las frecuencias para cada una de las
clases. A continuacin el histograma de frecuencia elaborado con los datos de la tabla anterior (Figura 19):
Figura 19: Histograma de frecuencias para la variable altura. En este caso en el eje horizontal se rotularon las marcas de clase.
A priori parece similar a un diagrama de barras para una variable cualitativa, pero es bastante diferente.
Primero se puede ver que las columnas se tocan entre si y esto, ms all de un detalle de diseo, es vlido
ya que todos los valores de la variable son posibles. Por otro lado el orden de las clases es el orden natural
de los nmeros y el nico posible, mientras que en un diagrama de barras puede ser modificado y sigue
siendo vlido (excepto que sea de una variable ordinal).
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 18
Si se desea comparar este grfico con otro hecho a partir de los datos de otra poblacin es necesario
emplear las frecuencias relativas (fi) o los porcentajes y adems emplear el mismo valor mximo para el eje
de porcentaje; en ese caso el grafico sera as (Figura 20):
Figura 20: Histograma hecho con los porcentajes para la variable altura. En este caso en el eje horizontal se rotularon las marcas de clase (crculo rojo). La lnea negra que une los valores de porcentaje en cada marca de clase se denomina polgono de frecuencias y ser visto ms adelante.
Los histogramas adems muestran la forma de la distribucin de una variable. Es evidente que la forma de
distribucin de frecuencias est influida por la cantidad de clases (k) utilizadas. Cuando se usan pocas
clases, si bien el trabajo es ms sencillo, el histograma no muestra claramente la distribucin de la variable.
Si la cantidad de clases es excesiva, adems de dificultarse la tarea de tabular y graficar, el histograma
resultante tampoco es claro. Por eso es importante utilizar la cantidad de clases correcta (Figura 21).
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 19
Figura 21: En estos cuatro histogramas se ve como la cantidad de clases utilizadas influye en la forma de forma de la distribucin de frecuencias de la variable. En este caso corresponde a la variable peso y para N=324, la cantidad correcta de clases sera 9, el grfico inferior izquierdo.
Una posibilidad para visualizar mejor la forma de una distribucin es trazar una lnea usando como
coordenadas de los puntos, las marcas de clase y los valores de frecuencias correspondientes (Figura 20).
Esta lnea se denomina polgono de frecuencias y sirve justamente para remarcar la forma de una
distribucin. Dos de las formas ms comunes de distribuciones de frecuencias son las (Figura 22):
Unimodales: Se identifican por que el polgono de frecuencias muestra claramente la presencia de una
clase ms frecuente que las restantes. Entre estas distribuciones est la distribucin normal o Gaussiana de
la cual hablaremos mucho ms adelante. La distribucin de las alturas es claramente unimodal y muy
probablemente normal.
Bimodales: Se identifican por que el polgono de frecuencias muestra claramente la presencia de dos clase
ms frecuente (una tal vez ms que la otra) que las restantes.
Figura 22: Dos formas de distribuciones de frecuencias bsicas.
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 20
Parmetro vs. Estadsticos.
Vimos anteriormente que en algunas ocasiones, una vez definida la poblacin, podemos hacer
observaciones en todas las unidades experimentales (censo). Pero en la mayora de los casos slo podemos
trabajar con una muestra de la poblacin.
A continuacin veremos cmo calcular ciertos valores que describen y dan informacin sobre las variables
estudiadas. Entre estos valores estn la media, la varianza, la moda, etc. En el caso que se calculen a partir
de datos provenientes de toda la poblacin a estos valores se los llama parmetros (se simbolizan con
letras griegas), mientras que si son calculados a partir de una muestra, se los denomina estadsticos (se
simbolizan con letras latinas).
Cuando trabajamos con muestras y no conocemos los parmetros poblacionales deseamos que los
estadsticos sean buenos estimadores de los parmetros. Por bueno estimadores nos referimos a que sean
insesgados y por lo tanto lo ms cercanos al verdadero valor. Un buen muestreo permitir disminuir el
sesgo y aumentar la exactitud del estimador.
Reflejemos estos conceptos en un ejemplo: Si calculamos la altura promedio a partir de los N=324 datos de
los adolescentes, habremos calculado un parmetro ya que utilizamos la totalidad de los datos de la
poblacin definida. Mientras que si calculamos la altura promedio a partir de una muestra, tendremos un
estadstico que ser un buen estimador del parmetro, siempre y cuando la muestra sea representativa.
Qu tipos de estadsticos existen?
Estadstico de Posicin: Son los estadsticos que dividen al conjunto de datos en grupos. Por ejemplo:
percentiles y cuartiles.
Estadstico de centralizacin o tendencia central: Son los valores respecto a los cuales los restantes
tienden a agruparse. Por ejemplo: media, mediana y moda.
Estadstico de dispersin: Son los estadsticos que muestran cun dispersos estn los datos alrededor
de la medida central. Por ejemplo: desviacin tpica, coeficiente de variacin, rango y varianza.
Estadstico de forma: Son los que muestran si existe asimetra o apuntamiento en la distribucin de los
datos.
Estadsticos de posicin:
Percentiles: El percentil de orden k es la observacin que deja por debajo el k% de la poblacin. La forma
ms comn de calcular los percentiles es mediante el uso de programas de anlisis estadsticos, pero
veremos una forma aproximada de hacerlo usando un grfico especial: un histograma de frecuencia o
porcentajes acumulados.
En la tabla de frecuencias para las distintas clases de alturas (ver ms arriba) calculamos los porcentajes
acumulados. Si graficamos estos valores en funcin de los intervalos o clases, obtendremos el siguiente
grfico (Figura 23):
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 21
Figura 23: El histograma de frecuencias o porcentajes acumulados permite entre otras cosas calcular aproximadamente los percentilos.
Claramente se ve como las frecuencias se van sumando hasta llegar al valor de N en la ltima clase. La lnea
negra del grfico es el polgono de frecuencias acumuladas y se traza usando como puntos los mximos de
cada intervalo y los valores de porcentajes acumulados (notar que en este caso no se usa la marca de
clase). Si dejamos slo el polgono de frecuencias acumuladas, el grafico se ver de la siguiente forma
(Figura 24):
Figura 24: El polgono de frecuencias o porcentajes acumulados se obtiene al trazar una lnea entre puntos cuyas coordenadas son los valores de frecuencias acumuladas (o %) y el mximo de cada clase.
Si deseamos conocer el P40 o percentil 40, es decir el valor que acumula el 40% de las observaciones, slo de
vemos extrapolar una lnea desde 40% hasta el polgono y de ah al eje horizontal. El valor obtenido es
aproximado ya que utiliz un mtodo grfico.
Los percentilos que se reparten el 100% en cuatro porciones se llaman cuartiles (Q) y son tres:
1 25
2 50
-
Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia
didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186
Pgina | 22
75
Los percentiles que reparten el 100% en diez porciones se llaman deciles (D) y son nueve:
D1 = P10, D2 = P20.. D9 = P90
El recorrido o rango intercuartil (Figura 25) es la diferencia entre el tercer (Q3) y primer cuartil (Q1),
mientras que el recorrido interdec