estadistica y diseño de experimentos (pablo otero)

64

Upload: pablo-otero

Post on 28-Sep-2015

50 views

Category:

Documents


3 download

DESCRIPTION

Estadística y Diseño de Experimentos (Pablo Otero)

TRANSCRIPT

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 1

    INTRODUCCIN

    Autor: Pablo Otero

    No entiendes realmente algo a menos que seas capaz de explicrselo a tu abuela.

    Albert Einstein

    Un cientfico debe tomarse la libertad de plantear cualquier cuestin, de dudar de cualquier afirmacin, de corregir errores.

    Julius R. Oppenheimer

    El experimentador que no sabe lo que est buscando no comprender lo que encuentra. Claude Bernard

    Una breve introduccin epistemolgica

    Aunque la palabra ciencia proviene de scientia que en latn significa conocimiento, los conocimientos

    que poseemos todos nosotros no provienen slo de las ciencias.

    De dnde proviene nuestro conocimiento?

    1. De la intuicin: muchas veces asumimos cosas como ciertas por pura lgica, sin ningn tipo de

    razonamiento ni confirmacin emprica. Este tipo de conocimiento (intuiciones) posee la

    particularidad que es muy difcil de ser explicado a otra persona.

    2. De nuestra experiencia: el haber vivido diferentes situaciones nos da ciertos conocimientos.

    Aunque muchas veces son saberes prcticos, este tipo de conocimiento puede llevarnos a

    cometer errores (como nica herramienta nos propone el mtodo de prueba y error) o incluso

    puede impedirnos aceptar alguna explicacin cientfica por encontrarla contraria a nuestra

    experiencia.

    3. De nuestras tradiciones: algunos conocimientos nos son transferidos, los heredamos

    culturalmente y no son discutidos ya que siempre se lo has considerado de esa forma.

    4. De autoridades: algunos conocimientos provienen de una fuente que, por las razones que sea,

    resulta indiscutible y por lo tanto son aceptados como tales. Los llamados principios, doctrinas o

    creencias son formas de este tipo de conocimiento. Los preceptos religiosos, la palabra de los

    hechiceros y jefes tribales, la orden de un superior en una organizacin militar. Se trata de

    dogmas.

    5. De las ciencias: algunos conocimientos son adquiridos de forma metdica, objetiva y pueden ser

    verificados y contrastados; se trata de los conocimientos cientficos. Este tipo de conocimientos

    se caracterizan adems por ser refutables y provisorios.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 2

    Buscando algunas definiciones de ciencia, encontr las siguientes:

    Conjunto de conocimientos racionales, ciertos o probables, obtenidos metdicamente, sistematizados y verificables

    Ciencia es el conocimiento sistematizado, elaborado mediante observaciones, razonamientos y pruebas

    metdicamente organizadas. La ciencia utiliza diferentes mtodos y tcnicas para la adquisicin y organizacin de

    conocimientos sobre la estructura de un conjunto de hechos objetivos y accesibles a varios observadores, adems de

    estar basada en un criterio de verdad y una correccin permanente. La aplicacin de esos mtodos y conocimientos

    conduce a la generacin de ms conocimiento objetivo en forma de predicciones concretas, cuantitativas y

    comprobables referidas a hechos observables pasados, presentes y futuros. Con frecuencia esas predicciones pueden

    formularse mediante razonamientos y estructurarse como reglas o leyes generales, que dan cuenta del

    comportamiento de un sistema y predicen cmo actuar dicho sistema en determinadas circunstancias.

    Enciclopedia WIKIPEDIA

    Si bien este curso no pretende adentrarse en cuestiones epistemolgicas, vamos a destacar el carcter

    metdico de la actividad cientfica y sobre todo su relacin con la estadstica. En realidad, el trmino

    ciencia tiene un significado doble. Por un lado la ciencia es un producto. Este producto sera el cmulo de

    informacin obtenida por las investigaciones llevadas a cabo. Estos conocimientos, que crecen a un ritmo

    exponencial, son organizados y divididos en diferentes reas y sirven para el desarrollo de aplicaciones

    tecnolgicas y culturales y como base terica para nuevas investigaciones. Pero tambin la ciencia se

    refiere al proceso de investigacin. Dado que los problemas cientficos no se inventan, sino que lo descubre

    un observador perspicaz, el camino que siga este investigador para resolver este problema es conocido

    como el mtodo cientfico.

    Es errnea la idea de que existe un slo mtodo cientfico una especie de receta con la cual si o si se

    genera conocimiento- y cada vez est ms claro que los mtodos utilizados en las diferentes ciencias no

    son iguales. Incluso cada investigacin concreta genera su propio mtodo, que es vlido siempre y cuando

    permita validar o refutar la hiptesis planteada. Slo se aceptar un nuevo conocimiento si el camino

    recorrido queda claro y puede ser reproducido y verificado.

    Bsicamente cualquier mtodo cientfico utilizado debera:

    Promover una revisin de hechos y teoras.

    Formular una hiptesis lgica y que est sujeta a prueba mediante mtodos experimentales.

    Evaluacin objetiva de las hiptesis basndose en los resultados experimentales obtenidos.

    Qu relacin tiene esto con la estadstica?

    La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa

    intrnseca de los mismos; as como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 3

    Comprobar objetivamente la veracidad de una hiptesis presenta problemas ya que se hace a partir de

    un cierto nmero de eventos, resultados o hechos y no de la totalidad posible de sucesos; entra en juego la

    variabilidad. En esta situacin se debe partir de lo particular a lo general lo que constituye un proceso de

    inferencia incierto, ya que permite desaprobar hiptesis incorrectas pero no aceptar (definitivamente)

    hiptesis correctas.

    Si partimos de una parte de la informacin total posible, cualquier inferencia ser incierta, ya que el azar

    entra en juego en la obtencin de esos datos e introduce incertidumbre. Lo que se puede hacer mediante

    los mtodos estadsticos es medir cuanta incertidumbre hay.

    Por lo anteriormente dicho queda claro que la incertidumbre disminuye cuanto ms grande sea el

    nmero de casos estudiados. A mayor cantidad de casos estudiados menor incertidumbre, pero tambin

    mayor costo, no slo de dinero, sino sobre todo de tiempo y esfuerzo.

    En resumen, la estadstica se puede aplicar en el momento de disear un experimento, en el momento

    de recolectar los datos, en el momento de analizarlos y en el momento de evaluar la incertidumbre de la las

    inferencias extradas.

    La estadstica, que puede o no ser considerada una ciencia en s misma, es un conjunto de mtodos

    usados para recopilar, presentar, condensar y analizar informacin de los datos extrados de un sistema de

    estudio (Figura 1). El objetivo de esto es poder hacer estimaciones, comparaciones y sacar conclusiones que

    permitan tomar decisiones a futuro. Dado que la mayora de los mtodos estadsticos poseen una base

    terica matemtica, esta disciplina es considerada una rama de esta ciencia formal.

    Figura 1: Objetivos de la estadstica.

    La estadstica se ocupa de desarrollar mtodos que permitan recopilar datos de forma tal de que estos

    sean tiles para los objetivos planteados anteriormente. En la mayora de los estudios en los cuales

    participa la estadstica, se trabaja con una parte (muestra) y no con la totalidad de los datos existentes, por

    lo que resulta indispensable que la muestra sea representativa, si es que queremos sacar conclusiones

    correctas. Es por ello que la variedad de tcnicas de muestreo, censado o encuestado, son estudiadas y

    desarrolladas por la estadstica.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 4

    Una vez conseguidos los datos es necesario poder presentarlos a otras personas para su comprensin.

    Las distintas modalidades de presentacin de datos: grficos, tablas o texto es fundamental, son parte del

    estudio de la estadstica.

    Adems la estadstica se encarga de los mtodos que permiten condensar los datos obtenidos de forma

    tal de poder resumir la informacin en dos o tres valores (media, varianza, etc.), que luego sirven para

    describir o comparar.

    Qu relacin tenemos con la estadstica?

    La estadstica es una ciencia segn la cual todas las mentiras se transforman en cuadros.

    La estadstica es la primera de las ciencias inexactas.

    La estadstica es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno.

    La estadstica, en general, no goza de buena fama, las tres frases anteriores son slo una muestra de lo

    que se dice de ella. A pesar de esto los resultados de los mtodos y tcnicas estadsticos aplicados a

    diferentes reas de nuestras vidas nos rodean a diario. Los medios de comunicacin publican los resultados

    de encuestas pero nunca nos dicen como fueron hechas. Tambin se nos dice que algo subi o baj

    mediante algn valor de porcentaje.

    Figura 2: A veces interpretamos mal la informacin estadsticao la interpretamos como queremos.

    Otra forma de encontrarnos con los resultados estadsticos son los grficos. Muchas veces los grficos

    que vemos en diarios y revistas no poseen los mnimos requerimientos para ser interpretados

    correctamente. Incluso, en algunos casos se confunde al lector de forma deliberada.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 5

    Figura 3: A veces no basta con saber de estadstica para entender algunos datos

    La informacin estadstica presentada de forma confusa desborda al lector que lo nico que puede

    hacer es quedarse con algn valor como conclusin. Por ltimo si los mtodos y tcnicas usados no son

    explicitados las conclusiones que pueden sacarse de una misma informacin pueden ser variadas e

    incorrectas.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 6

    Figura 4: Este grfico que muestra la composicin de la poblacin econmicamente activa de la Argentina tiene una grave problema

    pero difcil de descubrir por un lector apresurado. La suma de los porcentajes de las categoras es de 96%, es decir falta un 4% que no

    se sabe a que pertenece. Fuente: http://www.fnm.org.ar/publicaciones/documentos/economia/empleo_no_registrado.html)

    Figura 5: Los dos grficos mostrados a continuacin fueron realizados con los mismos datos. Sin embargo el efecto que causan en el

    lector es totalmente diferente. La nica diferencia en los datos es la escala del eje vertical.

    Para qu necesitamos saber de estadstica?

    0

    10

    20

    30

    40

    2000 2001 2002 2003 2004 2005 2006 2007 2008

    De

    lito

    s

    Ao

    Cantidad de delitos cada 100 habitantes

    18

    22

    26

    30

    34

    2000 2001 2002 2003 2004 2005 2006 2007 2008

    De

    lito

    s

    Ao

    Cantidad de delitos cada 100 habitantes

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 7

    La principal razn del estudio de la estadstica es que los fenmenos aleatorios tienen una fuerte presencia en nuestro entorno.

    Por lo comentado anteriormente, cualquier ciudadano debe poder leer y comprender la informacin

    estadstica que se le presenta. La correcta interpretacin de esta informacin es fundamental y requiere de

    ciertas nociones mnimas de estadstica. Lamentablemente en muchas ocasiones se presenta informacin

    en forma de textos o grficos con errores, en algunos casos intencionales y en otras. Incluso muchas

    publicidades abundan en cifras disfrazadas de estadsticas cientficas para vender un producto.

    Figura 6: Las publicidades nos bombardean con cifras supuestamente estadsticas y probadas cientficamente. No slo no sabemos

    cmo calculan esas cifras sino que en algunos casos como en la publicidad siguiente- nada significan.

    La estadstica es til para muchas profesiones, que a priori, parecen desvinculadas de las matemticas.

    En las carreras de psicologa, medicina, enfermera y ciencias de la educacin estn incluidas asignaturas

    que presentan y desarrollan temticas estadsticas. Si recordamos que los niveles bsicos educativos

    poseen como uno de sus objetivos preparar a los alumnos para futuros estudios superiores, la estadstica es

    una disciplina a incluir en el currculo.

    Los temas de matemticas incluidos en los currculos ayudan a crear una imagen determinista de la

    matemtica. Nadie duda que 2 es diferentes de 2.5, ni tampoco que el primer nmero es menor que el

    segundo; pero en estadstica 2% no siempre ser significativamente menor que 2.5%. La mayora de las

    personas cuando escuchan valores de encuestas se limitan a comparar los nmeros, sin saber que,

    dependiendo como fueron tomados esos datos, valores numricamente diferentes podran ser

    estadsticamente iguales. Por lo tanto y dado que la estadstica se ocupa de lo que presenta variabilidad

    intrnseca, comprender sus mtodos ayuda un razonamiento crtico y a valorar la evidencia objetiva.

    En el mundo contemporneo, la educacin cientfica no puede reducirse a una interpretacin unvoca y determinista de los sucesos. Una cultura cientfica eficiente reclama una educacin e n el pensamiento

    estadstico y probabilstico. (Santal, 1990)

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 8

    Si todos los procesos que ocurrieran a nuestro alrededor fueran determinsticos, la estadstica no

    tendra sentido. La realidad es que nos rodean procesos que incluyen cierta aleatoriedad pero que

    deseamos comprender y es ah donde la estadstica se vuelve una herramienta til.

    La estadstica hace uso de las probabilidades y es por eso que muchas veces los nicos temas vistos en

    las escuelas relacionados con la estadstica estn referidos a los juegos de azar. Si bien esto es interesante

    para los alumnos, es importante introducir otros campos en los cuales participa la estadstica y que son

    parte del entorno social del alumno. Por eso est en el docente buscar ejemplos que sean interesantes y

    aplicables al mundo del alumno.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 1

    Principales trminos estadsticos

    Autor: Pablo A. Otero.

    La estadstica, como cualquier otra disciplina, posee un vocabulario especfico. Comenzaremos definiendo uno de

    los trminos ms importantes para las investigaciones que conllevan el uso de mtodos o tcnicas estadsticas: Qu

    es una poblacin?

    Poblacin: Es el conjunto total de unidades o elementos sobre el que se realizan las

    observaciones.

    Es de vital importancia que conozcamos y definamos la poblacin sobre la cual se har la investigacin, ya que la

    descripcin que obtengamos ser particular de esta (a priori no necesariamente coincidir con otras) y todas las

    conclusiones que saquemos se deben limitar a la misma. Es un error muy comn extrapolar los resultados obtenidos

    de una poblacin a otras.

    Figura 1: Poblacin de pinginos

    emperadores de la baha X en el ao Y.

    Figura 2: Poblacin de personas que

    visitaron las playas X en el perodo Y.

    Figura 3: Poblacin de pinos en la

    localidad J en el ao z.

    La cantidad total de unidades o elementos que integran la poblacin se representa con la letra N (mayscula).

    Algunas investigaciones se hacen sobre poblaciones con un N conocido (y finito). Pero en otros casos, el tamao de la

    poblacin puede ser finito pero desconocido o incluso infinito.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 2

    Sern innumerables las veces que nos referiremos a variable a lo largo de este curso, pero Qu es una

    variable estadstica?

    Variable: es una caracterstica que presenta variabilidad o variacin de un objeto a otro.

    Aunque a priori parecera que cualquier cosa podra ser una variable, esto no es as. Si mi pregunta fuera cules

    de mis alumnos regula su temperatura corporal (son homeotermos)?; la respuesta es todos!, es decir no hay

    variacin al respecto por lo tanto, la capacidad de regular la temperatura de una persona no es una variable; tampoco

    lo es la cantidad de cabezas por persona.

    Cada unidad o elemento que integra la poblacin es una unidad experimental (u.e.) y cada una de las

    observaciones o mediciones que sobre ella se hagan son observaciones individuales (o.i.). En una misma u.e, se

    pueden realizar varias o.i.. Por ejemplo, si estoy trabajando con medidas antropomtricas, a cada persona puede

    medirle la altura, el peso, etc.

    Unidad experimental (u.e.): es la mnima unidad sobre la cual se realizan las observaciones.

    Observacin individual (o.i.): determinacin o medida tomada en una unidad experimental.

    Segn el tipo de experimento pueden tomarse una o varias o.i. a una misma u.e.

    El total de observaciones individuales de una variable se conoce como poblacin estadstica.

    Poblacin estadstica: Total de observaciones individuales que se pueden obtener de la

    poblacin de estudio.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 3

    Si la poblacin posee pocas unidades, tal vez sea posible medir la variable en todas las unidades. En este caso se

    estara haciendo un censo. Los censos aportan mejor informacin que las muestras (ya definiremos este trmino)

    debido a que abarcan la totalidad de las unidades, mientras que las muestras (como su nombre lo indica) son slo una

    porcin de la poblacin.

    Censo: consiste en obtener las o.i. del total de unidades experimentales. Es una tcnica

    estadstica que trabaja sobre la poblacin total de u.e.

    En estadstica a las variables se las identifica mediante una letra mayscula (X,Y,W,B,...). Cada variable posee un

    rango o dominio que incluye los valores posibles de la variable. Segn las caractersticas del dominio o rango las

    variables son clasificadas en diferentes grupos: cualitativas o cuantitativas.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 4

    Las variables cualitativas son las que no se pueden medir mediante el uso de instrumentos y muchas veces se

    determinan sus valores por simple observacin. Existen dos tipos de variables cualitativas:

    Ordinales: Las variables ordinales implican categoras pero que poseen un orden lgico y preestablecido. Un buen

    ejemplo de variable ordinal sera la posicin obtenida en una carrera (ver ejemplo de variable A), o diferentes

    categoras que clasifiquen pelculas (ver ejemplo de variable B).

    A = {1, 2, 3, etc.}

    B = {muy mala, mala, regular, buena, excelente}

    Nominales o atributos: Los atributos son variables que toman como valor diferentes estados o categoras. Los

    atributos pueden ser dicotmicos o politmicos. En las dicotmicas el atributo puede adoptar slo dos valores

    posibles (ver ejemplo de variable C), mientras que en las politmicas existen ms de dos valores posibles (ver ejemplo

    de variable D).

    Ejemplos:

    C = {mujer, varn}

    D = {Boca Juniors, River Plate, San Lorenzo, etc.}

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 5

    Las variables cuantitativas son las que se pueden medir (cuantificar) por simple conteo o mediante el empleo de algn instrumento (balanza, cinta mtrica, calibre, etc.). Se reconocen dos tipos de variables cuantitativas: continuas o discretas. Las variables continuas son aquellas que entre dos valores es posible encontrar un nmero infinito de valores intermedios, mientras que en las discretas no.

    La altura de una persona es un ejemplo de variable continua (ver ejemplo de variable E) ya que entre dos valores de altura existen infinitos posibles. En cambio en las variables discretas (ver ejemplo de variable F) ciertos valores carecen de sentido, por ejemplo si la variable es la cantidad de mesas ocupadas en un restaurant puede ser 1, 2 o 10, pero nunca 2.3 o 5.6.

    Ejemplos:

    E = Peso de una persona = {23.5 kg, 25.38 kg, 85.9 kg, etc.}

    F = Cantidad de mesas ocupadas en un restaurant = {1, 2, 10, etc.}

    En el caso de la variable E el rango de valores est acotado por razones fisiolgicas y morfolgicas propias de la especie humana (la altura mxima de una persona fue de 2.72 m.) pero igualmente es un conjunto infinito. En cambio la variable F es un conjunto acotado ya que el restaurant posee un mximo de mesas y adems las mesas no se ocupan por fracciones.

    Otra forma de diferenciar estos dos tipos de variables (cualitativas de cuantitativas) es que en una variable

    cuantitativa existe una relacin de proporcionalidad entre las observaciones individuales (o.i.). Por ejemplo si un hombre pesa 100 kg y una mujer pesa 50, es correcto afirma que la mujer pesa la mitad que el hombre (o el hombre el doble que la mujer), ya que ambos valores se refieren a mismo patrn que sera en este caso el kilogramo.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 1

    Muestreo

    Autor: Pablo Otero

    En algunas investigaciones es posible obtener una o ms observaciones individuales (o dato) de cada

    una de las unidades o individuos de la poblacin. En estos casos lo que se realiza es un censo y

    generalmente es posible cuando las poblaciones chicas (N bajo) o en los casos que se disponga de muchos

    recursos (tiempo y dems).

    Figura 1: Si la poblacin a estudiar es un curso de 26 alumnos, es factible hacer un censo.

    Pero en la mayora de los casos el tamao de la poblacin (N) excede la capacidad de trabajo y se debe

    tomar una muestra. El muestreo bsicamente implica obtener un conjunto menor (muestra) a partir de uno

    mayor (poblacin).Trabajar con una muestra implica ahorrar recursos, pero trae otros problemas. Cualquier

    proceso de muestreo implica aceptar una prdida de informacin de la poblacin, pero al mismo tiempo

    permite que la tarea sea factible.

    Muestra: en un subconjunto representativo de la poblacin. Para poder sacar

    conclusiones correctas de la poblacin a partir de la muestra que una muestra, sta

    debe ser representativa. Las muestras obtenidas de forma aleatoria, es decir aquellas

    que cada unidad muestral tienen la misma probabilidad de ser incluida en la muestra,

    son representativas. La aleatoriedad de la muestra elimina los sesgos de muestreo.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 2

    Figura 2: Si la poblacin a estudiar es la totalidad de los alumnos de una escuela (por ejemplo N=810), es poco factible hacer un censo y seguramente se deber recurrir a un muestreo.

    Dado que los resultados y/o determinaciones obtenidos a partir de esta muestra servirn para hacer

    inferencias sobre la poblacin, debemos asegurarnos que la muestra sea representativa. Una forma de

    asegurar la representatividad de la muestra es asegurar la aleatoriedad durante el proceso de muestreo. Se

    denomina muestreo probabilstico o aleatorio aquel en el cual participa el azar.

    Cuando muestreamos sin participacin del azar inevitablemente nos dejamos guiar e intervienen sesgos,

    prejuicios y/o preconceptos. La intervencin del azar elimina estos sesgos y permite obtener una muestra

    que pueda servir para hacer inferencias sobre la poblacin.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 3

    En un muestreo aleatorio todas las unidades o individuos de la poblacin poseen la misma probabilidad

    de formar parte de la muestra. Este tipo de mtodo de muestreo asegura la representatividad de la

    muestra y son por ellos los ms recomendables.

    Que una muestra sea representativa implicar que a partir de ella se pueden extrapolar los resultados y

    sacar conclusiones sobre la poblacin.

    Aleatoriedad: La aleatoriedad es un campo que se asocia a todo proceso

    cuyo resultado no es previsible ms que en razn de la intervencin del azar. El

    resultado de todo suceso aleatorio no puede determinarse en ningn caso antes

    de que este se produzca.

    Qu tipos de muestreo probabilstico o aleatorio existen?

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 4

    Muestreos con o sin reemplazo

    Lo primero que podemos diferencias entre los tipos de muestreos es que en algunos la unidad

    experimental sujeta a mediciones o determinacin es extrada de la poblacin y no es devuelta, con lo cual

    no se la puede llegar a medir dos veces. Este tipo de muestreo se llama sin reemplazo. Un ejemplo de este

    tipo de muestreo sera colocar trampas en el suelo para capturar insectos. A estas trampas se le coloca

    agua con detergente por lo que los insectos mueren dentro de ellas.

    En otros muestreos la unidad experimental luego de ser medida es devuelta a la poblacin con lo cual un

    tiempo despus podra ser objeto de medicin nuevamente; este tipo de muestreo se llama con

    reemplazo. Un ejemplo de este tipo de muestreo sera colocar una red de niebla para cazar pjaros, que

    luego de realizarles las mediciones pertinentes son liberados.

    Muestreo aleatorio simple

    Una forma de realizar un muestreo aleatorio es asignar un nmero a cada unidad o individuo y luego

    mediante algn mtodo aleatorio se eligen tantas unidades como sea necesario (recordemos que el

    tamao muestral se representa con n y el de la poblacin con N).

    Como mtodo de muestreo posee la ventaja que es sencillo de entender, pero la desventaja de que

    debemos poseer una lista previa completa de todas las unidades, por eso en general es aplicable slo en

    poblaciones pequeas. Por ejemplo, podramos aplicar este mtodo para tomar una muestra aleatoria de

    alumnos de una escuela pequea.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 5

    Muestreo aleatorio sistemtico

    Una variante de muestreo aleatorio que se puede aplicar a poblaciones ms grandes es el muestreo

    aleatorio sistemtico. En este caso el que se elige al azar es el primer individuo o unidad (i) y luego se

    selecciona el resto de unidades siguiendo intervalos de cada k unidades (es decir los individuos i+k, i+2k,

    etc.) Volviendo al ejemplo de una escuela, si tenemos una poblacin de 810 alumnos, con este mtodo

    elegimos al azar el primero y luego cada k alumnos elijo los restantes. Cunto vale k?, depende del

    tamao de la poblacin y del tamao de las muestra requerido (k=N/n).

    Este tipo de muestreo posee un riesgo. Cuando en la poblacin existe cierta periodicidad en los datos y

    el valor de k coincide con el periodo, la muestra obtenida no es representativa y la muestra sera menos

    variable que la poblacin de la cual se obtuvo.

    Un ejemplo de esto podra ocurrir si poseo datos ordenados de parejas (primero el dato de la mujer y

    luego del varn). El primer individuo elegido ser al azar y existe la misma probabilidad que sea varn o

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 6

    mujer, pero si elijo un valor de k par, luego todos los dems datos sern del mismo sexo que el primero. As

    la muestra obtenida ser slo sobre varones o mujeres.

    Muestreo aleatorio estratificado

    Un muestreo aleatorio estratificado es aquel en el que previamente se separan las unidades o individuos

    en categoras y dentro de cada una de ellas se muestrea al azar. Cada una de estas categoras se denomina

    estrato y, si estn bien asignados, se asegura la representatividad de los estratos y disminuye la variabilidad

    dentro de cada uno de ellos.

    Este mtodo adems asegura la representatividad de cada uno de los estratos en la muestra final. El

    nico problema de este mtodo es inventar categoras o estratos que nada tienen que ver con la realidad

    del problema estudiado. Por ejemplo, si quiero obtener datos de alturas de alumnos, sera una buena idea

    dividir a los alumnos en mujeres y varones y muestrear dentro de estos dos estratos al azar. Esto es as

    dado que la altura est relacionada con la edad y el sexo de la persona.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 7

    Cuntas unidades o individuos muestrear de cada estrato?, las opciones son dos:

    tomar la misma cantidad de individuos o unidades en cada estrato independientemente de

    cuanto haya en cada uno.

    tomar una cantidad proporcional de individuos o unidades segn la representatividad de

    cada estrato.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 8

    Muestreo aleatorio por conglomerados

    Por ltimo el muestreo por conglomerados se realiza mediante la seleccin de grupos de unidades o

    individuos. Este mtodo es ideal en poblaciones muy grandes, ya que no se necesitan listados de unidades,

    sino de los conglomerados. Por ejemplo, si la cantidad de alumnos es muy grande, se puede hacer un

    muestreo seleccionando cursos (seran los conglomerados) de forma que todos los alumnos de esos cursos

    formarn parte de la muestra. El problema de este mtodo puede radicar en la forma en que se definieron

    los conglomerados. Continuando con el ejemplo de la escuela, si elegimos los cursos al azar estamos

    considerando que entre ellos son similares, cuando en realidad es una prctica habitual juntar a alumnos

    con una misma caracterstica en un mismo curso, de forma tal que elegir un curso u otro no dar

    exactamente lo mismo.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 9

    Los muestreos no probabilsticos son aquellos en los cuales el investigador selecciona a los sujetos

    mediante el empleo de diferentes criterios. El problema es que estos muestreos son siempre sesgados

    aunque el investigador conozca la poblacin. Dentro de lo posible hay que evitar este tipo de muestreo, ya

    que impide utilizar con los datos la mayora de las tcnicas paramtricas estadsticas.

    Qu tamao (n) debe tener una muestra?

    El clculo exacto del tamao de una muestra requiere emplear algunos concomimientos que por ahora

    no vimos, pero para adelantar una respuesta podemos decir que:

    A mayor tamao de la muestra ms representativa es (cuando n = N, se trata de un censo,

    no de una muestra).

    Hay que ponderar la cantidad de unidades con la disponibilidad de tiempo y recursos, es

    decir muestrear la mayor cantidad de unidades en el tiempo disponible y con los recursos

    disponibles.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 1

    Precisin y exactitud

    Autor: Pablo Otero

    Cuando realizamos una medicin o determinacin de una variable o magnitud

    cometemos errores.

    En cualquier proceso de investigacin que implique la experimentacin cometemos errores y esto es

    inevitable. Algunos errores son cometidos en el momento del diseo de la experiencia, otros en la

    recoleccin de los datos (proceso de medicin por ejemplo) y otros al analizar los resultados y sacar

    conclusiones.

    Los errores de diseo pueden evitarse si planeamos con cuidado el experimento, para lo cual

    necesitamos conocer lo mximo posible sobre la teora disponible (marco terico adecuado). Los errores

    cometidos al analizar los resultados pueden evitarse utilizando correctamente tcnicas adecuadas

    (estadsticas o analticas) y acordes a los resultados disponibles.

    Los errores que cometemos al recolectar los datos los podemos reducir pero no eliminar del todo, por

    eso es importante tratar este tema y ver cmo podemos mejorar las mediciones y estar ms cerca de

    encontrar valores ms precisos y exactos.

    Una magnitud es todo lo que se puede medir y medir es comparar, por lo tanto el acto de medicin

    involucra tres sistemas que interactan entre s: lo que va a medirse, el instrumento y el sistema de

    referencia (las unidades patrn).

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 2

    Cuando trabajamos con variables cualitativas (ya sean nominales u ordinales) no se utilizan

    instrumentos de medicin y la asignacin de una unidad muestral a una categora u otra se basa en la

    simple observacin y en criterios fijados previamente. La nica posibilidad de error es que los criterios

    empleados para determinar a qu categora pertenece un objeto sean poco claros y ambiguos.

    En el caso de las variables cuantitativas se utilizan instrumentos lo cual trae aparejado la posibilidad de

    cometer errores de medicin que alteren la precisin y exactitud de las mediciones. Un instrumento de

    medicin es cualquier objeto o aparato que pueda ser utilizado para medir.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 3

    Existen instrumentos ms complejos que otros, por ejemplo para medir longitudes puedo usar una vara de

    madera o una regla milimetrada, pero independientemente de la complejidad que tenga el instrumento

    debe poder establecer una proporcionalidad entre lo que queremos medir y alguna unidad patrn (la

    unidad patrn en algunos casos podra ser el mismo instrumento).

    Un instrumento ser ms sensible cuando sea capaz de medir variaciones ms pequeas en la magnitud y

    un instrumento ser ms exacto si los valores obtenidos con l se acercan a los valores reales. De lo

    anterior se desprende que lo ideal sera disponer de un instrumento con la sensibilidad adecuada y de gran

    exactitud. Cabe destacar que un instrumento puede ser muy sensible y poco exacto, por ejemplo si est

    ms construido y su escala no se corresponde con el patrn.

    La precisin o poder de resolucin de un instrumento est asociada a la menor divisin de su escala. De

    forma tal que una balanza que pesa hasta gramos es ms precisa que una que pesa hasta 10 gramos, o un

    calibre es ms preciso que una regla.

    Adelantamos que, dado que todo instrumento posee cierta precisin (una mnima divisin de la escala

    patrn) su uso conduce a cometer lo que se conoce como error de apreciacin. Se considera que el error

    de apreciacin es la mitad de la mnima divisin del instrumento.

    Errores que cometemos al hacer mediciones: errores sistemticos, de apreciacin y accidentales

    Los errores de medicin no son equivocaciones. Son parte inherente del propio

    proceso de medicin.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 4

    Error sistemtico. Este tipo de error se produce cuando un instrumento est mal calibrado o es usado en

    condiciones de laboratorio diferentes a las cuales fue calibrado. Un error sistemtico muy comn es el

    corrimiento del cero del instrumento, es decir que el instrumento no mide 0 cuando la magnitud medida es

    nula; esto suele suceder con las balanzas.

    Lo bueno de esta situacin es que a veces este tipo de errores se pueden corregir posteriormente si se

    verifica el error sumando o restando la diferencia.

    Error de apreciacin. Este tipo de error no vara de medicin a medicin y depende del instrumento ya que

    est directamente relacionado con su precisin. Mientras mayor precisin o poder de resolucin tenga un

    instrumento (ms pequea sea la menor divisin de su escala), menor ser el error de apreciacin. Lo que

    tiene de particular este tipo de error es que no puede ser eliminado.

    Error accidental. Como su nombre lo indica, los errores accidentales se producen por factores accidentales

    o aleatorios como puede ser el uso incorrecto del instrumento por el operador, o por las condiciones

    variantes en las que se realiza la medicin.

    Este tipo de errores pueden reducirse mediante un uso cuidadoso del operador y mediante la repeticin de

    las medidas. Cuando medimos una misma magnitud varias veces no necesariamente obtendremos los

    mismos valores. En algunos casos estaremos por arriba del valor real y en otras por debajo. Est

    demostrado que el promedio de las mediciones es el valor que ms se acerca al real.

    Qu es el error absoluto de una medicin?

    El error absoluto de una medicin es la suma de los errores: sistemticos, de apreciacin y accidentales.

    Es decir que cuando realizamos una medicin (M) debido a la presencia de estos errores slo podemos

    asegurar que el valor real se encuentra en un intervalo definido por:

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 5

    Donde corresponde al error absoluto:

    Si la magnitud se mide con un instrumento adecuado y sin cometer errores accidentales se puede

    considerar que:

    En general se utiliza una sola cifra significativa para el error absoluto, redondeando si hubiera sido obtenido

    por clculo.

    Apliquemos esto a un ejemplo. Supongamos que quiero medir en el alto de un billete (llammoslo x) con

    una regla que slo posee sealados los centmetros (resolucin = 1cm). Evidentemente con este

    instrumento no podr obtener un valor muy preciso ni exacto del alto del mismo. Con esta regla las

    posibles longitudes medidas en centmetros seran todos nmeros enteros (2, 5, 10 cm, etc.). Cuando la uso

    para medir el billete, determino que el alto est entre seis y siete centmetros. Pero no puedo dar ms

    precisin ya que no hay divisiones menores al centmetro. Si concluyo que mide 6.5 cm sera una medicin

    aproximada o a ojo de buen cubero y este resultado tendra un nivel de precisin mayor que la

    resolucin del aparato que us (ver ms adelante el tema cifras significativas); el resultado 6.5 cm est en

    dcimas de centmetro (milmetros) y la regla posee una resolucin de un centmetro. El valor a informar en

    este caso sera x=6 cm, aunque s que no es exactamente el valor real. Lo que s puedo estar seguro, es que

    dado que la resolucin de la regla es de 1 cm y el error de apreciacin es 0,5 cm y el intervalo que seguro

    contiene al valor real es:

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 6

    Figura 1: Si la regla posee marcados slo los centmetros, el

    resultado no puede incluir en su cifra milmetros.

    Figura 2: La medicin del mismo objeto con una regla milimetrada, si permite dar una cifra con milmetros.

    Cmo puedo obtener un valor ms preciso? Usando un instrumento con un poder de resolucin

    menor y con menor error de apreciacin, por ejemplo una regla milimetrada. Usando esta regla veo que el

    billete de alto casi mide 6.5 cm, y tal vez nos veamos tentados a arriesgar un 6.45 cm. Este valor tendra un

    nivel de detalle mayor (dcima de milmetro) que la resolucin de la regla (milmetro). Nuevamente lo que

    s puedo estar seguro es que el valor exacto del alto est entre los valores 6.45 y 6.55 cm (que incluye al

    valor estimado 6.5 cm).

    Por ltimo, si uso un calibre cuya resolucin es la decima de milmetro (y por lo tanto el error de

    apreciacin 0.005 cm) obtengo un valor 6.45 cm y dado que la resolucin es la dcima de milmetro, puedo

    estar seguro que el valor exacto se encuentra entre 6.445 y 6.455 cm.

    Si repasamos los datos en la siguiente tabla:

    Resolucin del instrumento (regla) Error de apreciacin Valor obtenido (cm) Intervalo (cm)

    1 cm 0.5 cm 6 5.5 6.5

    0.1 cm 0.05 cm 6.5 6.45 6.55

    0.01 cm 0.005 cm 6.45 6.445 6.455

    Cuando medimos, en realidad ms que un resultado preciso y exacto, encontramos

    un intervalo que contiene al verdadero valor. Instrumentos ms precisos nos

    proporcionan intervalos ms acotados.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 7

    Vemos que a medida que aumentamos la resolucin del aparato obtuvimos valores ms precisos

    (intervalos ms cortos) y adems si esos instrumentos estn correctamente calibrados o construidos, los

    valores se acercarn cada vez ms al alto real del billete, es decir se gan tambin en exactitud. Ntese que

    el valor 6.45 cm est incluido en todos los intervalos obtenidos previamente.

    Dijimos anteriormente que cuando se descartan los errores sistemticos y accidentales, el error

    absoluto era igual al error de apreciacin. Tambin dijimos que los errores de apreciacin no se pueden

    eliminar pero si reducir.

    Una forma de poder comparar los errores cometidos con diferentes instrumentos (y por lo tanto con

    diferentes errores de apreciacin) es calcular el error relativo y porcentual. La frmula es muy sencilla, es el

    cociente entre el error absoluto y el valor obtenido:

    Ntese que el erro relativo es adimensional. Por ltimo el error porcentual es:

    Valor obtenido (cm) Error absoluto (=apreciacin)

    Error relativo Error porcentual (%)

    6 0.5 cm 0.1 10

    6.5 0.05 cm 0.008 0.8

    6.45 0.005 cm 0.0008 0.08

    Los conceptos: precisin y exactitud se suelen usar como sinnimos y no lo son. Repasmoslos y

    remarquemos las diferencias:

    La precisin de un instrumento est relacionada con el poder de resolucin, es decir con la mnima

    divisin. Si se realizan varias mediciones de una misma magnitud, la precisin se refiere a la dispersin del

    conjunto de valores obtenidos en mediciones repetidas. Cuanta menor precisin se tenga al medir, mayor

    ser la dispersin de los resultados (mayor el intervalo que incluye al valor real). La falta de precisin o

    imprecisin aumenta al cometer errores de apreciacin y accidentales durante el proceso de medicin y

    constituyen una fuente de incertidumbre. Esta incertidumbre aumenta con aparatos con poca resolucin y

    el descuido en el uso del operador.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 8

    La exactitud se refiere a que tan cerca del valor real se encuentra el valor medido. En trminos

    estadsticos, la exactitud est relacionada con el sesgo de una estimacin (sesgo = inexactitud), por lo que

    cuanto menor sea el sesgo ms exacta ser una estimacin. La inexactitud est asociada a errores

    sistemticos debidos a mala calibracin o construccin de un aparato; tambin a malos hbitos del

    experimentador al momento de medir. Si se conoce el valor real, la exactitud es la diferencia entre el valor

    real y el estimado.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 1

    Cifras significativa

    Autor: Pablo Otero

    Las cifras significativas de un nmero son aquellas que poseen un significado y

    aportan alguna informacin.

    La manera ms sencilla y amena de abordemos este tema un tanto rido- es mediante ejemplos

    sencillos. Si medimos el largo de un objeto con un calibre y obtenemos el valor 15.66 cm y otra persona

    mide el mismo objeto con una regla y obtiene el valor de 15.7 cm. Quin posee la medida ms precisa?

    Evidentemente la nuestra es ms precisa ya que posee 4 cifras significativas (1, 5, 6 y 6) y la otra estimacin

    posee 3 cifras significativas (1, 5 y 7). Hasta aqu parecera que un nmero cuantas ms cifras tiene ms

    preciso es y simplemente hay que contarlas para saber cuntas son. Esto es cierto con las cifras del 1 al 9,

    pero no siempre cuando aparecen ceros.

    Tal como vimos anteriormente, si yo quisiera hacer ms precisa una medicin (15.7 en este caso),

    debera conseguir un instrumento con mejor resolucin (en este caso un calibre) y medirlo nuevamente. Si

    sigo usando la regla para medir pero simplemente agrego otra cifra a ojo despus del 7 aumentara la

    precisin, pero sera un invento!!! En general nadie que trabaje es serio hace esto, excepto con los ceros.

    Es muy comn agregar ceros a las nmeros sin darnos cuenta que son igual de inventados que si

    agregramos un dos o un nueve. Por ejemplo, medimos algo con una regla y nos da 5.2 cm (cifre con 2 c.s.)

    es una prctica comn escribirlo como 5.20 cm. Este cero agregado a la derecha aument la precisin diez

    veces, a pesar de que el instrumento sigue siendo una regla (no se transform en un calibre).

    Qu conclusiones podemos sacar hasta ahora?

    1. Todas las cifras de un nmero diferentes de cero son significativas (23 posee 2 c.s.).

    2. En los nmeros decimales, los ceros a la derecha son significativos (5,00 posee 3 c.s.).

    Sigamos con los ceros. Si mi peso es 105 kg, el cero del medio es una cifra significativa?, por supuesto,

    ya que posee informacin, no es lo mismo 105, que 115 o que 195.

    Qu conclusin podemos sacar?

    3. Los ceros en posiciones intermedias de un nmero son siempre significativos (105 posee 3

    c.s.).

    Qu ocurre con los ceros a la izquierda?... ya lo dice el dicho: es un cero a la izquierda.

    4. Los ceros a la izquierda no son significativos (0.023 posee 2 c.s. y 0.00210 posee 3 c.s.).

    Adems los nmeros que resultan de hecho de contar y derivados a partir de sus clculos poseen

    infinitas cifras significativas. Ejemplo: si en este curso hay 15 personas sabemos positivamente que ese

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 2

    nmero es exacto. As que podramos escribirlo como 15, 15.0000 o 15.00000000 segn nuestra

    conveniencia (ms adelante se entender esto de la conveniencia).

    Qu pasa cuando hacemos operaciones entre nmeros (usando o no la calculadora)?

    Partamos de un ejemplo, quiero calcular el rea de un patio rectangular y mido sus lados con una cinta

    mtrica slo con los centmetros. Los valores obtenidos con 6.10 m x 3.23 m, el rea resultante es 19.703

    m2. Pero ac hay un problema con las cifras significativas, tanto 6.10 y 3.23 poseen tres cifras significativas,

    pero el resultado posee 5 c.s. por lo tanto el resultado habra que redondearlo a 3 c.s., y el resultado sera

    19.7 m2.

    Conclusin: En la multiplicacin y divisin: el nmero de cifras significativas en el resultado es

    determinado por el nmero original que tenga menos cifras significativas.

    Supongamos este otro caso. Compro 25 kilos de harina y deseo repartirlos entre cuatro personas.

    Cuntas cifras significativas poseen los nmeros 25 y 4? El nmero 25 posee 2 c.s. y 4?

    Si aplico la regla anterior estara cometiendo un error ya que el nmero cuatro en este caso no es un

    valor estimado, es un valor exacto que result de contar por lo que tiene infinitas cifras significativas. Es

    decir que me conviene escribir para esta cuenta 25 / 4.0 (los dos con 2 c.s.). La operacin 25/4.0 = 6.25. El

    nmero 6.25 posee 3 c.s. ms que cualquiera de los otros dos. Eso no puede ser y resultado debera ser

    redondeado a la cantidad 6.3.

    En el caso de sumar o restar, la cantidad cifras significativas a la derecha de la coma en el resultado est

    determinada por la cantidad menor de cifras significativas a la derecha de la coma punto de cualquiera de

    los nmeros originales.

    Ejemplo

    8.4486 + 1.2 = 9.6486 redondeado a 1 c.s. despus de la coma (tal cual 1.2) quedara redondeado a 9.7

    Atencin a este ejemplo:

    8.024 8.002 = 0.022

    Los dos nmeros originales tenan 4 c.s., pero el resultado slo posee 2 c.s. Es decir algunas

    sustracciones disminuyen el nmero de cifras significativas, por eso conviene hacer las sumas antes que las

    restas.

    Ejemplo:

    6.03 6.01 + 15.37 =

    Lo podemos resolver de dos maneras

    1. (6.03 6.01) + 15.37 = 0.02 15.37 = 15.39 = 15.4 (el resultado debe ser redondeado a 15.4 ya

    que 0.02 posee 1 c.s.)

    2. (6.03 + 15.37) 6.01 = 21.40 6.01 = 15.39 (y no debe ser redondeado ya que ambos nmeros

    tenan 2 c.s.)

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 1

    Estadstica Descriptiva

    Autor: Pablo Otero

    El objetivo principal del siguiente mdulo es el estudio y descripcin de una poblacin o muestra a partir de

    variables cuantitativas y cualitativas. Veremos qu tipos de grficos se pueden construir y qu valores se

    pueden calcular para lograr una descripcin completa de una poblacin o muestra.

    Para cumplir esto objetivo, supondremos que hicimos un trabajo de investigacin con un grupo de alumnos

    que estaba integrado por todos los alumnos de 15 a 16 aos de una escuela. Este grupo que constituy la

    poblacin, est subdividido en los diferentes cursos (a los que denominaremos: A1, A2, etc.). A cada

    alumno se le hicieron algunas mediciones, preguntas u determinaciones, y en el caso de ser mayor de 16

    aos los datos no fueron tenidos en cuenta. El total de alumnos, que en este caso seran las unidades

    experimentales, fue de 324 (N=324).

    Las determinaciones que se hicieron sobre cada alumno fueron:

    Sexo.

    Cuadro de ftbol, por el que hincha o simpatiza.

    Cantidad de hermanos.

    Altura (medida en cm).

    Peso (medido en Kg).

    Opinin sobre la utilidad de la educacin que recibe (se definieron tres categoras: nada, poco y mucho).

    Una vez realizada las determinaciones en todos los alumnos, lo primero que se hizo fue organizar los

    datos para su posterior anlisis.

    Una forma de organizar estos datos es construir una matriz (o tabla de doble entrada) que posea en las

    columnas las variables y en las filas los casos particulares (datos de cada unidad experimental). Esto se

    puede hacer en algn programa de hojas de clculo (tipo Excel) o directamente en algn programa de

    anlisis estadstico (tipo G-Stat, Statistix, Statistica, etc.)

    A continuacin se muestra cmo quedara la planilla de datos en Excel lista para comenzar a completar

    los datos:

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 2

    Figura 1: En las columnas las variables y en las filas las unidades experimentales. En la primera columna simplemente se numeraron los casos, esto puede obviarse ya que los programas de anlisis estadstico lo hacen automticamente. Se muestran slo las cuatro primeras filas. Este ejemplo fue

    generado con Excel 2007 por lo que puede ser visualmente diferente a lo hecho en Excel 2003.

    Una vez ingresados todos los datos tendremos la matriz completa (tendr 324 x 7 datos, es decir 2268

    datos).

    Variables cualitativas

    Comenzaremos describiendo a esta poblacin en base a las variables cualitativas utilizadas.

    Las variables cualitativas utilizadas en esta investigacin son:

    Sexo: Variable nominal dicotmica.

    Cuadro de ftbol del cual es hincha o simpatizante: Variable nominal politmica.

    Opinin sobre la utilidad de la educacin que recibe: Variable ordinal (las categoras en orden son:

    nada, poco y mucho).

    Como podemos ver ninguna de estas variables est asociada naturalmente a valores numricos, ni

    pueden ser medidas. Algunas de ellas se determinan por simple observacin (ej.: sexo) y otras mediante

    preguntas (cuadro de ftbol y opinin sobre la educacin).

    En algunos casos las variables cualitativas pueden ser codificadas con nmeros. Por ejemplo, podemos

    dar el cdigo 1 a las mujeres y 2 a los hombres. Esto es vlido y til en algunos casos, pero no deben ser

    usados estos cdigos como si fueran variables cuantitativas. Por ejemplo, sera ridculo afirmar que dos

    mujeres (2x1) seran iguales a un hombre (1x2).

    Lo mismo sucede con las variables ordinales cuando se re-codifican. Veamos un ejemplo, si a las

    diferentes criticas de pelculas las identifico con nmeros (muy mala = 1, mala = 2, regular = 3, bueno = 4 y

    muy buena = 5) es una forma vlida manejar la informacin. Lo que no puedo decir es que una pelcula

    mala (2) es la mitad de buena que una buena (4). Las relaciones de proporcin entre los nmeros utilizados

    no son vlidas, simplemente sabemos que 2 es menor que 4, por lo que la primera pelcula recibi peor

    crtica que la segunda.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 3

    Para cada una de estas variables podemos calcular con qu frecuencia se dan cada una de sus categoras

    (i). Esto se realiza por simple conteo (o lo hace el programa especfico si los datos ya fueron cargados). La

    informacin obtenida conviene organizarla en tablas como la siguiente:

    Tabla 1: Tabla de frecuencias de las categoras de una variable cualitativa.

    Sexo Fi fi %

    Mujer 175 0.54 54

    Varn 149 0.46 46

    N 324 1 100

    La frecuencia absoluta (Fi) de cada categora es simplemente la cantidad de veces que ocurre; la sumatoria

    de todas las Fi es siempre igual a N y las frecuencias absolutas son siempre nmeros enteros.

    La frecuencia relativa (fi) se calcula segn la siguiente frmula:

    La sumatoria de las frecuencias relativas es siempre igual a 1.

    Los valores de porcentaje (%) se obtienen simplemente multiplicando las frecuencias relativas por 100.

    La ventaja de usar frecuencias relativas o porcentajes radica en que como son independientes del valor

    de N, sirven para comparar dos poblaciones diferentes entre s.

    Adems de organizar los datos en forma de tabla, se pueden hacer grficos para describir una variable

    de una muestra o poblacin. Para las variables cualitativas los grficos que se pueden hacer son: diagramas

    de barras y grfico tipo torta. Ambos grficos son muy comunes y en general no traen problemas para ser

    interpretados correctamente.

    Diagramas de barras (o grficos de barras): En este tipo de grfico, para cada categora de la variable

    cualitativa se dibuja una columna o barra cuya altura es proporcional a la frecuencia (pueden usarse las

    frecuencias absolutas, relativas o porcentajes) (Figura 2). Si el grfico est hecho con el propsito de

    comparar con otra poblacin, deben usarse frecuencias relativas o porcentajes.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 4

    Figura 2: Lo principal en un grfico de barras es que la altura de las barras o columnas debe ser proporcional al valor de frecuencia o porcentaje.

    Veamos algunos ejemplos utilizando los datos de la planilla de adolescentes:

    Figura 3: Diagrama de barras que muestra la distribucin de sexos para la poblacin de estudio. En este grfico se usaron los valores de porcentaje para el eje vertical.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 5

    Figura 4: Diagrama de barras que muestra la cantidad de hinchas de cada club para la poblacin de estudio. En este grfico se usaron los valores de frecuencias absolutas para el eje vertical.

    Algunas recomendaciones a la hora de construir este tipo de grficos.

    Figura 5: Si el diagrama de barras es sobre una variable ordinal, las categoras en el grfico deben seguir el orden natural, en este caso: nada, poco y mucho.

    Si la variable cualitativa es nominal (como los ejemplos mostrados anteriormente) el orden de las categoras no altera los resultados y son vlidas las diferentes alternativas. En cambio en las variables ordinales debe seguirse el orden lgico y natural. Por ejemplo, si graficamos en un diagrama de barras las frecuencias para la variable opinin sobre la utilidad de la educacin, el orden de las categoras posee un orden natural (nada, poco y mucho) y debera ser el orden a usar en el eje del grfico.

    El cero debe ser siempre el mnimo del eje de frecuencias o porcentajes. De no ser as se puede engaar al lector del grfico sugiriendo una diferencia entre las alturas de las columnas que no se corresponde con la diferencia en las frecuencias. En la figura 6 se muestra un grfico mal hecho en el cual se cometi este error. En l se puede ver cmo, si nos guiamos por las alturas de las columnas, una de las barras es ms del doble de alta que la otra; pero si verificamos los nmeros notaremos que 33.144 no es el doble de 26.090 (de hecho la relacin es 1.27). Este efecto engaoso se produjo por no incluir el cero en la escala.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 6

    Figura 6: Un grfico malintencionado para engaar a los lectores. No incluir al cero en las escalas produce que visualmente un mismo grupo de datos reflejen una realidad diferente.

    Si el grfico de barras ser utilizado para realizar comparaciones con los de otra poblacin, resulta imperioso que el mximo de la escala en ambos casos coincida. Si el grfico no se usar para comparaciones, el mximo puede establecerse apenas por sobre el valor mximo de frecuencia o porcentaje. Esto produce que el grfico ocupe la mayor rea posible y sea ms claro. Cuando el valor mximo elegido es mucho ms alto que los valores a graficar, resultan grficos aplastados contra el eje horizontal y sern menos notorias las diferencias (Figura 7).

    Figura 7: El mismo grfico con dos escalas verticales diferentes. En la versin de la izquierda el mximo de 100% hace que las diferencias entre los porcentajes de las categoras resulten menos evidentes, adems de ser ms difcil leer la escala. En la versin de la derecha, el valor mximo

    utilizado (60%), permite visualizar mejor las diferencias y leer mejor la escala.

    La escala vertical deber tener suficientes divisiones como para poder extrapolar el alto de las columnas y obtener aproximadamente los valores de frecuencias. Demasiadas divisiones tampoco son recomendables, ya que dificultan la lectura de los valores en el eje. En algunos grficos se agregan a cada columna el valor de la frecuencia. Esto es redundante con la presencia del eje, pero en algunos grficos sirve para destacar valores.

    Por ltimo, ya que no se trata de una variable continua, no se deben graficar las columnas pegadas unas a otras. Por la misma razn si se trazan lneas desde una columna a otra, slo sirven para visualizar mejor las diferencias, pero en ningn caso constituyen dibujos de ecuaciones lineales.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 7

    Otra prctica frecuente es utilizar imgenes alusivas al tema del grfico. En estos casos hay que tener en cuenta que, si bien mejoran la presentacin, no deben producir un efecto engaoso y dificultar la interpretacin del grfico. Por ejemplo en el siguiente grfico (Figura 8) se reemplaza la coloracin de la columna por una bombita y, a mayor cantidad de bombitas vendidas mayor el tamao. Lo que no es aconsejable de esta grfico es que la bombita ms grande, no slo es ms alta sino tambin ms ancha. En el caso de las columnas la frecuencia slo est representada por la altura; todas las columnas poseen la misma base. En este grfico el tamao de las bombitas sugiere una diferencia entre las ventas a lo largo de los aos mayor a la real. Otra crtica es: para qu incluir un eje sin valores? Dado que los valores estn puestos arriba de cada bombita, el eje es prescindible.

    Figura 8: Mezcla de diagrama de barras y pictograma. En los diagrama de barras la frecuencia nada tiene que ver con el ancho de las columnas. En este caso, adems de variar la altura de las barras tambin vara el ancho. El eje vertical no tiene valores ni escala. Ntese que el variable tiempo

    est considerada en este caso como variable nominal: aos.

    Si deseamos representar las frecuencias mediante el tipo de grfico ideal es un pictograma. En este tipo de grfico a mayor rea mayor frecuencia, y no se utiliza ningn eje. La ausencia de un eje de referencia hace que sea imprescindible incluir los valores a lado de cada dibujo: En la siguiente figura se muestra un pictograma con las frecuencias de hinchas para cada club (Figura 9).

    117 96 34 32 29 16

    Figura 9: En los pictogramas la frecuencia puede estar referida al rea de un objeto. En este caso la cantidad de hinchas de cada club est en relacin con el rea de la pelota de ftbol. Si bien suelen ser grficos muy vistosos, es indispensable que se aclare los valores, ya que es muy difcil

    deducir las frecuencias a partir de los dibujos.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 8

    En la siguiente versin del grfico de las bombitas vendidas (Figura 10) todas las columnas poseen el mismo ancho y la altura del dibujo de las bombitas (a ms altura, ms bombitas) refleja la frecuencia. Dado que cada columna posee el valor sobre ella, se podra prescindir del eje vertical (que adems no tiene valores).

    Figura 10: Versin mejorada del grafico de la figura 6. La frecuencia est slo representada por la altura, ya que las bases de las columnas son iguales. Un eje sin valores no tiene sentido y se debera eliminar.

    En el siguiente grfico (Figura 11) que muestra los cambios en la produccin de trigo segn los aos, se cometieron algunos errores. El primero es incluir un eje sin valores; carece de sentido y de utilidad. Otro error es que la distancia entre los aos es diferente, se va agrandando a medida que se acerca al ao 1997. Esto sumado al aumento del tamao del dibujo, agranda las diferencias reales entre las producciones en diferentes aos y hace ms visible el valor a destacar.

    Figura 11: En este grfico se cometieron errores en ambos ejes. La distancia en los aos del eje horizontal va en aumento hasta la ltima categora, mientras que el eje vertical no posee valores ni escala.

    Grficos tipo torta (Pie chart en ingls): En este tipo de grfico (Figura 12), cada categora de la

    variable cualitativa recibe una porcin de la torta proporcional a la frecuencia relativa o porcentaje.

    Todos los programas de anlisis estadsticos permiten hacer este tipo de grfico, pero si lo deseamos hacer

    en forma manual, simplemente hay que considerar que la circunferencia completa (360) representa el

    100%, de forma tal que valores diferentes se obtienen simplemente mediante regla de tres simple. En

    ningn caso debe suceder que la sumatoria de los porcentajes sea diferente de 100%.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 9

    Figura 12: Los grficos de tipo torta son muy fciles de hacer y de interpretar.

    Diagramas de barras para ms de una variable cualitativa: A veces la respuesta que buscamos sale de

    combinar dos variables cualitativas. Por ejemplo si yo me preguntara: Por qu club hinchan las personas

    de distinto sexo?

    Para responder esto podra ordenar los datos de frecuencias absolutas en una tabla de doble entrada;

    de la siguiente forma:

    Boca Juniors River Plate Racing Club San Lorenzo Independiente Otros

    Mujer 65 50 13 21 17 9 175

    Varn 52 46 21 11 12 7 149

    117 96 34 32 29 16 N=324

    Si calculamos los porcentajes dividiendo por el total (N=324) y los multiplicamos por cien, obtendremos

    para las combinaciones de sexo/club:

    Boca Juniors River Plate Racing Club San Lorenzo Independiente Otros

    Mujer 20.1 15.4 4.0 6.5 5.2 2.8 54.0

    Varn 16.0 14.2 6.5 3.4 3.7 2.2 46.0

    36.1 29.6 10.5 9.9 9.0 4.9 100.0

    Con estos datos podemos hacer un grfico de barras con dos series (una para cada sexo) (Figura 13).

    54%

    46%

    Distribucin de sexos

    mujer varn

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 10

    Figura 13: En este grfico de barras, los valores de porcentaje estn divididos en dos series de datos (correspondientes a los sexos). Segn este grfico lo que ms abunda son los hinchas varones de Boca Juniors. Notar que el orden de los clubes de ftbol es arbitrario y si se modifica, las

    conclusiones que se pueden extraer del grfico seran las mismas.

    Con estos mismos datos podra responder otras preguntas, por ejemplo si me preguntara: por qu club

    de futbol hinchan ms las mujeres? Y los hombres?

    Como la cantidad de mujeres y varones es diferente (175 vs. 149), para poder comparar y responder la

    pregunta convendra independizar los valores del total de hinchas de cada sexo calculando los porcentajes

    para cada club por sexo. Para ello dividido el valor de frecuencia absoluta por el total para ese sexo y lo

    multiplico por 100. Los resultados seran:

    Boca Juniors River Plate Racing Club San Lorenzo Independiente Otros

    mujer 37.1 28.6 7.4 12.0 9.7 5.1 100

    varn 34.9 30.9 14.1 7.4 8.1 4.7 100

    72.0 59.4 21.5 19.4 17.8 9.8

    Con estos datos podemos hacer diversos tipos de grficos de barras, a continuacin veremos dos

    posibilidades. La primera es hacer un grfico de barras en el cual el eje horizontal tenga dos categoras

    principales (sexo en este caso) y para cada uno de los sexos cinco sub-categoras (clubes en este caso). De

    esta forma quedaran cinco columnas o barras para cada sexo. El aspecto del grfico ser el siguiente

    (Figura 14):

    0,0

    5,0

    10,0

    15,0

    20,0

    25,0Po

    rcen

    taje

    Club de ftbol

    Porcentajes de hinchas de clubes de ftbol para ambos sexos

    Mujer

    Varn

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 11

    Figura 14: Para hacer este grfico los valores de porcentaje fueron calculados en relacin a total de cada sexo ya que el objetivo era saber para cada sexo que tipo de hincha era ms frecuente y adems poder comparar entre hombres y mujeres. Segn este grfico, sea mujer o varn, lo ms

    frecuentes es que sea hincha de Boca Juniors, seguidos por sus primos River Plate. Entre los varones, el tercer cuadro en cantidad de hinchas es San Lorenzo, mientras que entre las mujeres es Racing Club.

    Otra posibilidad es realizar un diagrama de barras de porcentajes acumulados. En este tipo de grfico

    las columnas de las categoras a comparar siempre miden 100%, pero se dividen en porciones segn los

    porcentajes de la otra variable cualitativa utilizada. Para los mismos datos usados en el grfico anterior,

    este tipo de grfico quedara con dos columnas (una por sexo) dividida cada una de ellas en seis porciones

    referidas a los porcentajes de cada club. El aspecto del grfico ser el siguiente (Figura 15).

    Figura 15: Este grfico resulta ideal para hacer comparaciones ya que las barras siempre son iguales (100%), lo que difiere entre ellas es el alto de las porciones referidas a la segunda variable cualitativa (en este caso los clubes).

    Variables cuantitativas

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 12

    Continuaremos describiendo a esta poblacin en base a las variables cuantitativas utilizadas.

    Recordemos que las variables cuantitativas pueden ser:

    En el caso de que la variable cuantitativa sea discreta el tipo de grfico que se puede hacer es similar al

    caso de las variables cualitativas. Mostraremos el caso del anlisis de la variable cantidad de hermanos por

    alumno. Los datos se pueden organizar y calcular las frecuencias relativas, absolutas y porcentajes de igual

    manera que se hizo para las variables cualitativas. La tabla quedara de la siguiente forma:

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 13

    Cantidad de hermanos Fi fi % Fi (acum) % (acum)

    0 88 0.27 27.2 88 27.2

    1 166 0.51 51.2 254 78.4

    2 30 0.09 9.3 284 87.7

    3 20 0.06 6.2 304 93.9

    4 18 0.06 5.6 322 99.5

    5 2 0.01 0.6 324 100

    N= 324 1 100

    Con estos valores podemos hacer diagramas de barras usando las frecuencias absolutas, las relativas o los

    porcentajes. El uso de porcentajes permita comparaciones posteriores de este grfico con otros (Figuras 16

    y 17).

    Figura 16: Diagrama de barras hecho con las frecuencias absolutas.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 14

    Figura 17: Diagrama de barras hecho con los porcentajes.

    Para las variables discretas se pueden hacer grficos de barras con las frecuencias o porcentajes

    acumulados (Figura 18). Las barras no deben tocarse entre s ya que la variable no es continua y no existen

    valores intermedios. Este tipo de grficos sirve para ver por debajo de cada valor que porcentaje de las

    observaciones est presente.

    Figura 18: Diagrama de barras de porcentajes acumulados. Este grfico muestra que casi el 80% de los alumnos poseen hasta un hermano.

    Si la variable cuantitativa es continua los tipos de grficos y anlisis que se pueden hacer son muy

    diferentes y les dedicaremos especial atencin.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 15

    Si bien la mayora de los clculos los har el programa de anlisis estadstico que se vaya a usar (en nuestro

    caso el G-Stat) veremos cules son las frmulas y criterios usados en estos clculos. Si as no lo hiciramos,

    al usar el programa y obtener los resultados no sabramos que significado tienen.

    Utilizaremos para los siguientes ejemplos de clculos y grficos la variable altura de los alumnos, pero lo

    mismo se puede hacer para cualquiera de las otras variables.

    Si observamos los datos de la variable altura podemos extraer ciertos valores importantes (para ello abrir el

    archivo de Excel con los datos correspondientes):

    Cantidad de datos (N) 324 Mnimo 141 cm Mximo 192 cm

    La diferencia entre el mximo y mnimo se conoce como recorrido muestral (w). En este caso:

    w = 192 cm 141 cm = 51 cm.

    A diferencia de otros tipos de variables, las variables continuas pueden tomar cualquier tipo de valores

    (incluso nmero decimales). Vale la pena recalcar esta diferencia con otras variables con algunos ejemplos.

    Si para un alumno se determina que: es varn, que tiene un hermano y que es de boca, son todos datos

    que no admiten duda. En cambio si esa misma persona es medida y su altura es 162 cm, esa no es su

    verdadera altura; es una estimacin (cuanto medimos ms que una medida exacta obtenemos un intervalo

    que incluye la verdadera medida, en este caso el intervalo sera 161.5-162.5 cm).

    A la misma persona si la medimos con cinta milimetrada su altura ser 162.5 cm. Los valores son diferentes,

    pero la persona es la misma. Es importante que al trabajar con datos de variables continuas recordemos

    esto, qu sentido tendra contar las personas que midieron 162 cm si no es el valor exacto?

    Debido a lo anteriormente explicado, con las variables cuantitativas se trabaja con intervalos o clases. Cada

    intervalo posee un mximo y un mnimo. El valor mnimo de la variable debe quedar incluido en el primer

    intervalo o clase, mientras que el valor mximo debe quedar incluido en la ltima clase.

    La cantidad de clases a utilizar est en relacin con la cantidad de observaciones o datos. Si bien no hay

    frmulas exactas, los siguientes son buenos criterios para saber cuntas clases (valor que llamaremos k)

    necesitamos:

    En nuestro caso, dado que N = 324, usaremos el segundo caso y k = 9.28 que se redondea a k = 9.

    En todos los casos trabajaremos con clases o intervalos de iguales ancho o amplitud; llamaremos al ancho

    del intervalo h.

    Para obtener el valor de h:

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 16

    Para no tener problemas en la inclusin de los valores dentro de los intervalos que se formarn conviene

    que el valor de h tenga ms decimales que los usados para los datos. En nuestro caso los datos de altura

    son nmeros enteros y usaremos h= 5.667

    Veamos cmo armar los intervalos de las clases. Dado que son nueve clases deberemos hacer una tabla con

    ms de nueve filas (ver tabla a continuacin). En la primera columna colocaremos la el nmero de clase (1

    al 9), en la segunda y tercera los lmites inferior y superior (respectivamente de cada clase). Por ejemplo,

    para la clase 1, el lmite inferior es el valor mnimo 141 cm y el mximo es 146.667 (que resulta de hacer

    141 + h). Para la clase 2, el mnimo es el mximo de la clase anterior y el mximo ser 152.33 (que resulta

    de hacer (146.667 + h); y as sucesivamente. Para que los decimales en los valores de los lmites si las

    alturas son nmeros enteros? Justamente para no tener dudas a que clase pertenecen los valores; si

    hiciramos los intervalos con nmeros enteros, en qu intervalo incluiramos un valor que coincide con

    alguno de los lmites?

    Lmite de la clase

    Acumuladas

    Clase Mnimo Mximo Marca de clase Fi % Fi %

    1 141.00 146.67 143.83 5 1.54 5

    1.54

    2 146.67 152.33 149.50 14 4.32 19

    5.86

    3 152.33 158.00 155.17 36 11.11 55

    16.98

    4 158.00 163.67 160.83 67 20.68 122

    37.65

    5 163.67 169.33 166.50 91 28.09 213

    65.74

    6 169.33 175.00 172.17 51 15.74 264

    81.48

    7 175.00 180.67 177.83 45 13.89 309

    95.37

    8 180.67 186.33 183.50 10 3.09 319

    98.46

    9 186.33 192.00 189.17 5 1.54 324

    100.00

    324 100

    Cada intervalos tendr un valor en el centro, equidistante del mnimo y el mximo, a ese valor se lo llama

    marca de clase (lo simbolizaremos como Xc). Cmo puede calcular la marca de clase de un intervalo?,

    simplemente sumndole al mnimo la mitad del ancho del intervalo (h/2).

    Una vez armadas las clases podemos calcular la frecuencia absoluta (Fi) para cada una de ellas. Si

    utilizamos un software estadstico esta tarea la hace el programa, pero si lo queremos hacer manualmente

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 17

    conviene ordenar los datos de menor a mayor y contar cuantos quedan incluidos en cada una de las clases

    armadas; luego corroborar que:

    Calcular los porcentajes para cada una de las clases ser de gran utilidad para confeccionar grficos y hacer

    comparaciones con otras muestras o poblaciones.

    Las ltimas dos columnas son valores acumulados de frecuencias y porcentajes. Para calcular la frecuencia

    acumulada de cualquier clase, simplemente debemos a la frecuencia de esta clase la suma de todos los

    valores de frecuencia anteriores; lo mismo para los porcentajes. Por ejemplo, la frecuencia acumulada de la

    cuarta clases es:

    ( )

    La frecuencia acumulada de la ltima clase debe ser igual a N.

    Qu tipos de grficos se pueden hacer con estos datos?

    Histograma de frecuencias:

    Un histograma de frecuencias representa mediante el alto de columnas las frecuencias para cada una de las

    clases. A continuacin el histograma de frecuencia elaborado con los datos de la tabla anterior (Figura 19):

    Figura 19: Histograma de frecuencias para la variable altura. En este caso en el eje horizontal se rotularon las marcas de clase.

    A priori parece similar a un diagrama de barras para una variable cualitativa, pero es bastante diferente.

    Primero se puede ver que las columnas se tocan entre si y esto, ms all de un detalle de diseo, es vlido

    ya que todos los valores de la variable son posibles. Por otro lado el orden de las clases es el orden natural

    de los nmeros y el nico posible, mientras que en un diagrama de barras puede ser modificado y sigue

    siendo vlido (excepto que sea de una variable ordinal).

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 18

    Si se desea comparar este grfico con otro hecho a partir de los datos de otra poblacin es necesario

    emplear las frecuencias relativas (fi) o los porcentajes y adems emplear el mismo valor mximo para el eje

    de porcentaje; en ese caso el grafico sera as (Figura 20):

    Figura 20: Histograma hecho con los porcentajes para la variable altura. En este caso en el eje horizontal se rotularon las marcas de clase (crculo rojo). La lnea negra que une los valores de porcentaje en cada marca de clase se denomina polgono de frecuencias y ser visto ms adelante.

    Los histogramas adems muestran la forma de la distribucin de una variable. Es evidente que la forma de

    distribucin de frecuencias est influida por la cantidad de clases (k) utilizadas. Cuando se usan pocas

    clases, si bien el trabajo es ms sencillo, el histograma no muestra claramente la distribucin de la variable.

    Si la cantidad de clases es excesiva, adems de dificultarse la tarea de tabular y graficar, el histograma

    resultante tampoco es claro. Por eso es importante utilizar la cantidad de clases correcta (Figura 21).

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 19

    Figura 21: En estos cuatro histogramas se ve como la cantidad de clases utilizadas influye en la forma de forma de la distribucin de frecuencias de la variable. En este caso corresponde a la variable peso y para N=324, la cantidad correcta de clases sera 9, el grfico inferior izquierdo.

    Una posibilidad para visualizar mejor la forma de una distribucin es trazar una lnea usando como

    coordenadas de los puntos, las marcas de clase y los valores de frecuencias correspondientes (Figura 20).

    Esta lnea se denomina polgono de frecuencias y sirve justamente para remarcar la forma de una

    distribucin. Dos de las formas ms comunes de distribuciones de frecuencias son las (Figura 22):

    Unimodales: Se identifican por que el polgono de frecuencias muestra claramente la presencia de una

    clase ms frecuente que las restantes. Entre estas distribuciones est la distribucin normal o Gaussiana de

    la cual hablaremos mucho ms adelante. La distribucin de las alturas es claramente unimodal y muy

    probablemente normal.

    Bimodales: Se identifican por que el polgono de frecuencias muestra claramente la presencia de dos clase

    ms frecuente (una tal vez ms que la otra) que las restantes.

    Figura 22: Dos formas de distribuciones de frecuencias bsicas.

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 20

    Parmetro vs. Estadsticos.

    Vimos anteriormente que en algunas ocasiones, una vez definida la poblacin, podemos hacer

    observaciones en todas las unidades experimentales (censo). Pero en la mayora de los casos slo podemos

    trabajar con una muestra de la poblacin.

    A continuacin veremos cmo calcular ciertos valores que describen y dan informacin sobre las variables

    estudiadas. Entre estos valores estn la media, la varianza, la moda, etc. En el caso que se calculen a partir

    de datos provenientes de toda la poblacin a estos valores se los llama parmetros (se simbolizan con

    letras griegas), mientras que si son calculados a partir de una muestra, se los denomina estadsticos (se

    simbolizan con letras latinas).

    Cuando trabajamos con muestras y no conocemos los parmetros poblacionales deseamos que los

    estadsticos sean buenos estimadores de los parmetros. Por bueno estimadores nos referimos a que sean

    insesgados y por lo tanto lo ms cercanos al verdadero valor. Un buen muestreo permitir disminuir el

    sesgo y aumentar la exactitud del estimador.

    Reflejemos estos conceptos en un ejemplo: Si calculamos la altura promedio a partir de los N=324 datos de

    los adolescentes, habremos calculado un parmetro ya que utilizamos la totalidad de los datos de la

    poblacin definida. Mientras que si calculamos la altura promedio a partir de una muestra, tendremos un

    estadstico que ser un buen estimador del parmetro, siempre y cuando la muestra sea representativa.

    Qu tipos de estadsticos existen?

    Estadstico de Posicin: Son los estadsticos que dividen al conjunto de datos en grupos. Por ejemplo:

    percentiles y cuartiles.

    Estadstico de centralizacin o tendencia central: Son los valores respecto a los cuales los restantes

    tienden a agruparse. Por ejemplo: media, mediana y moda.

    Estadstico de dispersin: Son los estadsticos que muestran cun dispersos estn los datos alrededor

    de la medida central. Por ejemplo: desviacin tpica, coeficiente de variacin, rango y varianza.

    Estadstico de forma: Son los que muestran si existe asimetra o apuntamiento en la distribucin de los

    datos.

    Estadsticos de posicin:

    Percentiles: El percentil de orden k es la observacin que deja por debajo el k% de la poblacin. La forma

    ms comn de calcular los percentiles es mediante el uso de programas de anlisis estadsticos, pero

    veremos una forma aproximada de hacerlo usando un grfico especial: un histograma de frecuencia o

    porcentajes acumulados.

    En la tabla de frecuencias para las distintas clases de alturas (ver ms arriba) calculamos los porcentajes

    acumulados. Si graficamos estos valores en funcin de los intervalos o clases, obtendremos el siguiente

    grfico (Figura 23):

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 21

    Figura 23: El histograma de frecuencias o porcentajes acumulados permite entre otras cosas calcular aproximadamente los percentilos.

    Claramente se ve como las frecuencias se van sumando hasta llegar al valor de N en la ltima clase. La lnea

    negra del grfico es el polgono de frecuencias acumuladas y se traza usando como puntos los mximos de

    cada intervalo y los valores de porcentajes acumulados (notar que en este caso no se usa la marca de

    clase). Si dejamos slo el polgono de frecuencias acumuladas, el grafico se ver de la siguiente forma

    (Figura 24):

    Figura 24: El polgono de frecuencias o porcentajes acumulados se obtiene al trazar una lnea entre puntos cuyas coordenadas son los valores de frecuencias acumuladas (o %) y el mximo de cada clase.

    Si deseamos conocer el P40 o percentil 40, es decir el valor que acumula el 40% de las observaciones, slo de

    vemos extrapolar una lnea desde 40% hasta el polgono y de ah al eje horizontal. El valor obtenido es

    aproximado ya que utiliz un mtodo grfico.

    Los percentilos que se reparten el 100% en cuatro porciones se llaman cuartiles (Q) y son tres:

    1 25

    2 50

  • Fortalecimiento del uso del laboratorio de ciencias naturales como estrategia

    didctica - Docente: Lic. Pablo Adrin Otero 2015 ISDN N186

    Pgina | 22

    75

    Los percentiles que reparten el 100% en diez porciones se llaman deciles (D) y son nueve:

    D1 = P10, D2 = P20.. D9 = P90

    El recorrido o rango intercuartil (Figura 25) es la diferencia entre el tercer (Q3) y primer cuartil (Q1),

    mientras que el recorrido interdec