manual minitab para el curso

79
UNIVERSIDAD NACIONAL DE INGENIERÍA CENTRO DE EXTENSIÓN Y PROYECCIÓN SOCIAL CEPS UNI Mg. Christian Jacinto Hernández

Upload: giancarlo-coloma

Post on 25-Apr-2015

544 views

Category:

Documents


22 download

TRANSCRIPT

Page 1: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 0

UNIVERSIDAD NACIONAL DE INGENIERÍA CENTRO DE EXTENSIÓN Y PROYECCIÓN SOCIAL

CEPS UNI

Mg. Christian Jacinto Hernández

Page 2: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 1

INDICE 1. CALIDAD EN EL LABORATORIO QUÍMICO 1.1 Introducción ............................................................................................................................................ 5 1.2 Estadística en la Química Analítica .......................................................................................................... 6 1.3 Tipos de errores ...................................................................................................................................... 6 1.4 Población y muestra ................................................................................................................................ 7 2. INTRODUCCIÓN AL MINITAB 2.1 Estadística y Minitab ............................................................................................................................... 9 2.2 Tipos de variables ................................................................................................................................... 9 2.2.1 Categóricas .................................................................................................................................... 9 2.2.2 Numéricos o cuantitativos ............................................................................................................. 9 2.3 Elementos de Minitab ........................................................................................................................... 10 2.4 Entrada, grabación y recuperación de datos ......................................................................................... 11 2.5 Hoja de trabajo ..................................................................................................................................... 12 2.6 Opciones del Menú Calc. ....................................................................................................................... 12 2.7 Opciones del Menú Data ....................................................................................................................... 14 3. ESTADÍSTICA DESCRIPTIVA 3.1 Introducción .......................................................................................................................................... 16 3.2 Parámetros que estiman el valor central ............................................................................................... 16 3.2.1 Media .......................................................................................................................................... 16 3.2.2 Mediana ...................................................................................................................................... 16 3.2.3 Moda .......................................................................................................................................... 16 3.2.4 Otras medidas de posición .......................................................................................................... 16 3.3 Parámetros que estiman la dispersión .................................................................................................. 17 3.3.1 Amplitud o rango ........................................................................................................................ 17 3.3.2 Desviación estándar .................................................................................................................... 17 3.3.3 Varianza ...................................................................................................................................... 17 3.3.4 Desviación estándar relativa ........................................................................................................ 17 3.4 Medida de la forma de distribución ....................................................................................................... 17 3.4.1 Asimetría ..................................................................................................................................... 18 3.4.2 Curtósis ....................................................................................................................................... 18 3.5 Límites de confianza .............................................................................................................................. 19 3.6 Práctica ................................................................................................................................................. 20 4. ENSAYOS DE HIPÓTESIS 4.1 Ensayos de hipótesis ............................................................................................................................. 26 4.2 Tipos de Error I y II ................................................................................................................................ 26 4.2.1 Nivel de significancia ................................................................................................................... 26 4.2.2 P-valor ......................................................................................................................................... 27 4.3 Pasos de la prueba de hipótesis ............................................................................................................ 27 4.4 Prueba paramétricas y no paramétricas ................................................................................................ 27 4.5 Pruebas de normalidad ......................................................................................................................... 28 4.5.1 Gráficos de probabilidad ............................................................................................................. 28 4.5.2 Prueba de Anderson Darling ........................................................................................................ 29 4.5.3 Prueba de Kolmogorov-Smirnov .................................................................................................. 29 4.5.4 Prueba de Shapiro-Wilks ............................................................................................................. 29 Ejercicio 1 ............................................................................................................................................ 29 4.6 Valores anómalos .................................................................................................................................. 30 4.6.1 Límites de confianza .................................................................................................................... 31 4.6.2 Prueba Q de Dixon ...................................................................................................................... 31 4.6.3 Prueba de Cochran ...................................................................................................................... 31 4.6.4 Prueba de Grubbs ....................................................................................................................... 32

Page 3: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 2

4.7 Comparación de Resultados con los ensayos de Hipótesis ..................................................................... 33 4.7.1 Comparación de una media con un valor referencial ................................................................... 33 a. Prueba paramétrica: Prueba t .......................................................................................................... 33 Ejercicio 2 ............................................................................................................................................ 34 b. Prueba no paramétrica: Prueba de Wilcoxon ................................................................................... 35 Ejercicio 3 ............................................................................................................................................ 35 4.7.2 Comparación de dos varianzas .................................................................................................... 36 a. Prueba paramétrica: Test F .............................................................................................................. 36 Ejercicio 4 ............................................................................................................................................ 36 b. Prueba no paramétrica: Test de Barlett y de Levene ........................................................................ 37 Ejercicio 5 ............................................................................................................................................ 38 4.7.3 Comparación de dos medias ....................................................................................................... 40 a. Comparación de dos medias homogéneas ....................................................................................... 40 Ejercicio 6 ............................................................................................................................................ 40 b. Comparación de dos medias heterogéneas ...................................................................................... 42 Ejercicio 7 ............................................................................................................................................ 41 c. prueba no paramétrica: Ensayo de Mann-Whitney ........................................................................... 44 Ejercicio 8 ............................................................................................................................................ 44 4.7.4 Comparación de datos apareados ............................................................................................... 45 Ejercicio 9 ............................................................................................................................................ 45 4.7.5 Comparación de mas de dos medias ........................................................................................... 46 Ejercicio 10 .......................................................................................................................................... 47 a. Prueba no paramétrica: Ensayo de Kruskal-Wallis ............................................................................ 49 Ejercicio 11 .......................................................................................................................................... 49 5. PRUEBAS DE CONTROL 5.1 Introducción .......................................................................................................................................... 51 5.2 Construyendo los gráficos de control .................................................................................................... 52 5.2.1 Etapa preliminar .......................................................................................................................... 53 5.2.2 Etapa de control .......................................................................................................................... 54

5.3 Gráficas de Control X y R .................................................................................................................. 54 5.4 Construcción de las Gráficas de Control ............................................................................................... 54

5.4.1 Gráficas de Control X ............................................................................................................... 54 5.4.2 Gráficas de Control R ................................................................................................................... 55 5.5 Casos Fuera de Control ........................................................................................................................ 55 5.6 Gráficos de sumas acumuladas (CUSUM) ............................................................................................. 57 Ejercicio 1 ................................................................................................................................................... 58 6. REGRESIÓN LINEAL 6.1 Introducción .......................................................................................................................................... 60 6.2 Modelo de Regresión Lineal .................................................................................................................. 60 6.3 Requisitos para la Regresión Lineal ....................................................................................................... 61 6.4 Validación del modelo lineal ................................................................................................................. 61 6.4.1 Cálculo del coeficiente de correlación ......................................................................................... 61 6.4.2 Gráfico de residuales ................................................................................................................... 62 6.4.3 Análisis de la Varianza (ANOVA) .................................................................................................. 62 6.5 Incertidumbre de los Coeficientes de Regresión .................................................................................. 63 6.6 Límite de detección .............................................................................................................................. 64 Ejercicio 1 ................................................................................................................................................... 64 Ejercicio 2 ................................................................................................................................................... 65 REFERENCIAS BIBLIOGRÁFICAS .................................................................................................................. 66 ANEXOS ...................................................................................................................................................... 67

Page 4: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 3

INTRODUCCIÓN

El concepto de calidad no está relacionado sólo al ámbito empresarial, o actividades mercantiles, en donde están involucrados empresarios y clientes. Actualmente se ha convertido en un factor decisivo en cualquier actividad humana, en este sentido, el trabajo en el laboratorio analítico no escapa de esta responsabilidad, ya que sus resultados son decisivos y tienen una gran influencia a nivel comercial, ambiental, sanitario, etc.

La química analítica genera una gran cantidad de resultados que deben cumplir

ciertos criterios según las normas de calidad en el laboratorio, entre los mas principales la trazabilidad y comparabilidad entre laboratorios, es decir, nuestros resultados deben ser comparables con los de otros laboratorios, de esta manera el cliente está conforme con lo obtenido. Es aquí donde interviene la estadística, ya que nuestros resultados no están libres de errores, la estadística hace cálculos de incertidumbre para los diferentes casos de evaluación de la trazabilidad y comparabilidad de los resultados.

Actualmente se hace necesario tener conocimientos de las diferentes herramientas

estadísticas y como aplicarlas para las diversas situaciones del tratamiento de los datos químicos. Es así que se ha creado este curso, en donde el uso de Programas o Paquetes estadísticos se ha hecho indispensable. Minitab, es uno de estos programas estadísticos muy utilizados en los laboratorios químicos, debido a su fácil uso y trabajar con muchas herramientas estadísticas que son las más recurridas en el laboratorio químico; además de ser compatible con Excel, la hoja de cálculo universalmente utilizada por nosotros.

En la primera parte trataré la importancia de las herramientas estadísticas en el

trabajo de calidad en el laboratorio químico, luego describiremos las características de Minitab que es necesario reconocer antes de su aplicación en el tratamiento de datos químicos. Luego veremos como la estadística descriptiva y la inferencial (ensayos de hipótesis) nos ayudan a verificar los diferentes casos de trazabilidad y comparabilidad de resultados, la estadística descriptiva nos evalúa una serie de datos, y los ensayos de hipótesis hace las comparaciones y nos permiten hacer la toma de decisiones. Por último veremos las herramientas del control estadístico de la calidad, para evaluar la consistencia de nuestros resultados en el tiempo; y, las rectas de regresión, para también aplicarlos a casos de comparabilidad y curvas de calibración.

Finalmente, es mi deseo que este curso sea útil y aprovechado por todos aquellos

que de alguna forma están involucrados en el trabajo del laboratorio químico, y no solo en los laboratorios de ensayo, sino también, es muy útil en el trabajo de investigación.

Christian Jacinto Hernández

Page 5: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 4

CAPÍTULO PRIMERO

CALIDAD EN EL

LABORATORIO QUÍMICO

Page 6: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 5

1.1 Introducción

a calidad tiene y tendrá una consideración creciente en ámbitos sociales, científicos y tecnológicos. En el último tramo del siglo XX puede afirmarse que es

una preocupación constante para empresarios, tecnólogos y usuarios en general.

La química analítica es la Ciencia Metrológica Química cuya misión fundamental es la generación de información cualitativa, cuantitativa y estructural sobre cualquier tipo de materia o sistema. La relación entre calidad y laboratorio puede tener diferentes enfoques. Por una parte debe considerarse la Calidad Externa referido a los productos o sistemas que son los objetivos del ente público o privado del cual depende el laboratorio. La Calidad Interna del laboratorio analítico comprende la calidad del trabajo que se realiza y la calidad de los resultados que se generan. Esta última acepción es la mas utilizada para definir la calidad en los laboratorios analíticos.

Entonces la Calidad del Laboratorio Analítico puede definirse como el conjunto de características de información generada que satisfacen las demandas/exigencias del organismo público/privado del que depende y/o del cliente o usuario.

Las propiedades analíticas pueden considerarse divididas en dos grupos según su importancia relativa: las denominadas básicas como exactitud, precisión, sensibilidad, selectividad y rapidez; y las complementarias tales como coste, grado de participación humana (automatización), robustez, seguridad para el personal, etc.

Figura 1.1. Criterios de Calidad en el Laboratorio Químico

Con el uso de materiales de referencia y comparaciones interlaboratorios o pruebas de aptitud se puede otorgar trazabilidad y comparabilidad a las mediciones que realizan diferentes laboratorios. La experiencia y conocimiento actual nos permite establecer que para controlar y asegurar la calidad de los resultados de mediciones, nunca serán suficiente las medidas que se tomen y se deberá establecer una relación de costo beneficio entre los requerimientos de información y la certeza de la misma, toda vez que las mediciones siempre están sujetas a un grado de incertidumbre. Es así que se requiere también de armonización de los sistemas y/o procesos de medición a nivel nacional regional e internacional, que aseguren el uso de:

L

Representatividad Exactitud

Muestreo Precisión Selectividad Sensibilidad

Calidad de los

resultados analíticos

Calidad en el Trabajo

Analítico

Fuera del

laboratorio

En el laboratorio

Page 7: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 6

Procedimientos armonizados de validación de métodos analíticos que permitan asegurar la comparabilidad de los parámetros tales como límites de detección, límites de cuantificación, sensibilidad, etc.

Procedimientos para determinar la incertidumbre. Procedimientos para establecer la trazabilidad. Materiales de referencia, y Participación en pruebas de aptitud.

Asimismo, los laboratorios de análisis pueden suscribirse al uso de sistemas de control

y aseguramiento de la calidad que presentan sus lineamientos bajo normas o guías, tales como la ISO/IEC 17025 que describe los requerimientos generales para la competencia de laboratorios de ensayo y calibración.

Finalmente, y en orden a establecer la comparabilidad de las mediciones se requiere de la aplicación y uso correcto del proceso analítico, establecer una adecuada cadena de trazabilidad y establecer la conmutatividad entre la muestra real y el uso de materiales de referencia. 1.2 Estadística en la química analítica

La Química Analítica en su papel de ciencia metrológica química tiene una amplia

vinculación con la estadística. Ello se desarrolla, básicamente a través de lo que se denomina como Quimiometría, que es la aplicación de métodos matemáticos, estadísticos, gráficos o similares para maximizar la información química que puede extraerse de un conjunto de datos.

Las medidas experimentales generan la información analítica, y es un hecho que

cualquier medida está sujeta a una variabilidad y esta se va extender a los resultados y a la información final en forma de una incertidumbre. En este contexto, uno de los objetivos más inmediatos de la estadística es la estimación del valor más probable con su variabilidad correspondiente. 1.3 Tipos de errores

La variabilidad de las medidas puede deberse a errores experimentales, estos pueden

clasificarse en sistemáticos y aleatorios. Los errores sistemáticos, o también llamados errores determinados, son errores

constantes que se pueden detectar y corregir. Un ejemplo podría ser el uso de un medidor de pH estandarizado incorrectamente. Los errores sistemáticos siempre afectan en el mismo sentido y pueden detectarse utilizando estándares. La característica clave del error sistemático es que, tomando precauciones y trabajando con esmero, puede detectarse y corregirse.

El error aleatorio también se denomina como error indeterminado. Se debe a las limitaciones naturales para realizar las mediciones. Como su nombre lo indica, el error

Page 8: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 7

aleatorio es a veces positivo y a veces negativo. Siempre existe, no puede ser corregido y es la limitante definitiva de las determinaciones experimentales.

1.4 Población y Muestra

Uno de los intereses fundamentales del analista es la obtención de valores que sean

una buena estimación del valor verdadero y el error asociado conlleva dicha estimación. Para ello se deben llevar a cabo repeticiones del proceso analítico y se han de introducir conceptos estadísticos.

Dentro del contexto de un laboratorio, la población consiste en todas las posibles determinaciones que puedan llevarse a cabo, mientras que la muestra es solo una pequeña parte, es decir las determinaciones que realmente se llevan a cabo.

Figura 1.2. Ejemplo de Población y Muestra

Cuando la frecuencia con que aparece cada valor en una serie de repeticiones suficientemente grande varía en forma de campana o curva gaussiana, se dice que existe una distribución normal (ver figura ). Esta curva se caracteriza por el valor del mensurando que aparece con mayor frecuencia y por los puntos de inflexión situados a ambos lados del lado central. Como la curva es simétrica, el valor es el mismo a ambos lados. Estos puntos característicos coinciden respectivamente con la media aritmética, que sería la mejor estimación del valor medio, y la desviación estándar. Figura 1.3. Curva de Distribución Normal

Page 9: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 8

CAPÍTULO SEGUNDO

INTRODUCCIÓN AL MINITAB

Page 10: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 9

2.1 Estadística y Minitab

a Estadística es una rama de las Matemáticas que facilita la toma de decisiones en base al análisis de una serie de datos recolectados, y posteriormente procesados

y clasificados. Para facilitar el cálculo estadístico, uno de los mejores paquetes de herramientas estadísticas es Minitab.

Minitab es un software con un diseño muy intuitivo que ofrece un potente conjunto de utilidades enfocadas al cálculo estadístico. 2.2 Tipos de Variables

Antes de empezar a utilizar Minitab conozcamos como se clasifican las variables ya que

es importante al ingresarlos en cualquier software estadístico. Se le llama variable a una característica que toma un valor para cada “individuo” de una “población”. Las variables pueden ser de dos tipos: 2.2.1 Categóricas

Las variables categóricas se refieren a características o cualidades que no pueden ser medidas con números. Podemos distinguir dos tipos: Variable categórica nominal

Una variable cualitativa nominal presenta modalidades no numéricas que no admiten un criterio de orden. Por ejemplo: - El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo. Variable categórica ordinal o variable cuasicuantitativa

Una variable cualitativa ordinal presenta modalidades no númericas, en las que existe un orden. Por ejemplo: - La nota en un examen: suspenso, aprobado, notable, sobresaliente. - Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ... - Medallas de una prueba deportiva: oro, plata, bronce. 2.2.2 Numéricos o cuantitativos

Una variable numérica o cuantitativa es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos:

Variable discreta

Una variable discreta es aquella que toma valores aislados, es decir no admite valores intermedios entre dos valores específicos. Por ejemplo: - El número de hermanos de 5 amigos: 2, 1, 0, 1, 3. Variable continua

Una variable continua es aquella que puede tomar valores comprendidos entre dos números. Por ejemplo: - La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.

L

Page 11: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 10

2.3 Elementos de Minitab Al ejecutar Minitab 15 aparece la pantalla de la Figura 2.1

Figura 2.1. Componentes de la Ventana de Minitab

Esta pantalla inicial presenta los siguientes elementos:

En la primera línea aparece la barra de título con el nombre de la ventana y los botones de minimizar, maximizar y cerrar.

La barra de menús con los 10 menús que contienen. La barra de herramientas donde, mediante botones con iconos, se representan

algunas de las operaciones más habituales. Si pasamos el puntero del ratón por cualquiera de ellos, aparecerá en la pantalla un texto indicando la función que se activa.

La ventana de sesión (Sesión) es la parte donde aparecen los resultados de los análisis realizados. También sirve para escribir instrucciones, como forma alternativa al uso de los menús.

La hoja de datos (Hoja de trabajo) tiene el aspecto de una hoja de cálculo, con filas y columnas. Las columnas se denominan C1, C2, . . ., tal como está escrito, pero también se les puede dar un nombre, escribiéndolo debajo de C1, C2, . . . Cada columna es una variable y cada fila corresponde a una observación o caso.

En la parte inferior aparece (minimizada) la ventana de proyecto (Proyect Manager). En Minitab un proyecto incluye la hoja de datos, el contenido de la ventana de sesión, los gráficos que se hayan realizado, los valores de las constantes y de las matrices que se hayan creado, etc.

Para activar la Ventana de sesión o la Hoja de datos podemos hacerlo a través de los

iconos de la Barra de herramientas:

Figura 2.2. Botones de Ventana de Sesión y Hojas de Datos

Barra de Menú Barra de

Herramientas

Ventana de

Sesión

Hoja de

Datos

Ventana de

proyecto

Page 12: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 11

2.4 Entrada, grabación y recuperación de datos Antes de realizar ningún análisis estadístico es necesario tener un conjunto de datos

en uso, para lo cual podemos proceder de cuatro formas: Escribirlos a través del teclado. Obtenerlos desde un archivo. Pegarlos. Generarlos por patrón o de forma aleatoria. Una vez introducidos los datos, estos pueden guardarse en un fichero para poder ser

utilizados en cualquier otro momento. Para guardar únicamente la ventana de datos hay que seleccionar: Archivo > Guardar hoja de trabajo actual (Ver Figura 2.2). Si queremos guardar toda la información actual del programa (la hoja de datos, el contenido de la ventana de sesión, los gráficos que se hayan realizado, los valores de las constantes y de las matrices que se hayan creado, etc.) usaremos la opción Archivo > Guardar Proyecto o Guardar Proyecto como. Es muy importante diferenciar entre ficheros de datos (.mtw) y ficheros de proyectos (.mpj).

Figura 2.3. Ventana para Guardar una hoja de Trabajo

Un archivo sólo puede ser recuperado de la forma en que fue grabado. Si se ha

grabado como hoja de datos (.mtw) se recupera con la opción Archivo > Abrir hoja de trabajo (Ver Figura 2.4). Si se ha grabado como proyecto de Minitab (.mpj) se recupera con la opción Archivo > Abrir Proyecto .

Importante: Las Hojas de Excel (extensión .xls) se abre con la opción Hoja de trabajo. Minitab se entiende muy bien con Excel, puede importar una hoja de datos de Excel usando la

opción Archivo > Abrir hoja de trabajo …

Page 13: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 12

Figura 2.4. Ventana para Abrir una hoja de trabajo

2.5 Hoja de Trabajo

Los datos están ordenados en columnas, que también se denominan variables. El

número y el nombre de las columnas aparecen en la parte superior de cada columna. Cada fila de la hoja de trabajo representa un caso, que es información acerca de un pedido de libros.

Figura 2.5. Componentes de una Hoja de Trabajo

2.6 Opciones del Menú Calc

Para construir una nueva variable mediante transformaciones de otras ya existentes,

se tiene que elegir la opción Calc > Calculadora con lo que se abre la figura siguiente:

Columna con datos

de fecha/hora

Columna con datos

numéricos Columna con

datos de texto

Nombre de

Columna

Número de

Fila

Page 14: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 13

Figura 2.6. Ventana de la opción Calculadora

Abramos el archivo Pulse.mtw para continuar. Calculemos la media geométrica de las variables Pulso1 y Pulso2 (raíz cuadrada del producto de ambas variables). Para ello, seleccionamos la opción Calc > Calculadora; en Almacenar resultado en variable tenemos que teclear la posición de la columna que contendrá los resultados; o el nombre que queremos darle a dicha columna. En Expresión tenemos que colocar la operación que se realiza para determinar la media geométrica indicada: SQRT( 'Pulso1' * 'Pulso2' ) (También podemos escribirlo a través del cuadro de Funciones). Por último, pulsamos en Aceptar.

La opción Calc > Estadísticas de columnas calcula, para una columna (o variable), uno de los estadísticos según la siguiente figura:

Figura 2.7. Ventana de la opción Estadísticas de Columnas

Vamos a determinar la mediana de los datos de la columna Alto y a guardar el

resultado en una constante que vamos a denominar Mediana. Para ello, seleccionamos Calc > Estadísticas de columnas; activamos la opción Mediana; hacemos clic en el recuadro que hay a la derecha de Variable de entrada y seleccionamos (haciendo doble clic sobre su nombre) la columna Alto; en Almacenar resultado en tecleamos Mediana y pulsamos en Aceptar. Minitab guarda esta constante también como K1. Esta constante se puede consultar, en cualquier momento, en la ventana Proyect Manager y puede ser utilizada en cálculos posteriores:

Nombre de la columna en la que aparecerá el resultado

Expresión que se va a calcular

Columna que tienen nombre y/o datos

Cálculos disponibles

Columna sobre la que se hará el cálculo

Constante (K1, K2…) en la que se

desea almacenar el resultado

Page 15: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 14

Figura 2.8. Ventana del Project Manager

2.7 Opciones del Menú Data Sólo se explicarán algunas de las opciones más utilizadas del menú Datos.

a. Apilamiento de columnas Con la opción Datos > Apilar columnas se pueden apilar varias columnas en una sola. Opcionalmente se puede indicar de que columna procede cada valor mediante una nueva variable (subíndices). b. Desapilamiento de columnas La opción Datos > Desafilar columnas permite separar una columna en varias según los valores de la columna de alguna variable (que contiene los subíndices). Esta opción es la contraria de la explicada en el apartado anterior. c. Ordenación de los datos La opción Datos > Ordenar, ordena los datos de una columna según los resultados de una o varias columnas. Lo normal es ordenar una columna según los resultados de dicha columna.

d. Ordenación por rangos La opción Datos > Clasificar crea una nueva columna que indica la posición que ocuparía cada dato si los ordenáramos de menor a mayor. Cuando dos o más valores de la columna son iguales (empates) se asigna a cada uno de ellos el rango medio de los rangos que tendrían si fueran distintos. e. Codificación o clasificación de datos La opción Datos > Codificar permite la clasificación o codificación de los datos de una columna. Se puede codificar transformando datos numéricos en datos numéricos, datos numéricos en datos de texto, datos de texto en datos de texto, datos de texto en datos numéricos, etc.

Page 16: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 15

CAPÍTULO TERCERO

ESTADÍSTICA DESCRIPTIVA

Page 17: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 16

3.1 Introducción

a estadística descriptiva se puede definir como los métodos estadísticos que pretenden describir las características más importantes de un conjunto de datos,

sea que provenga de una muestra o de una población. Utiliza técnicas estadísticas, como la representación gráfica, cuadros estadísticos, medidas de posición y de variabilidad. 3.2 Parámetros que Estiman el Valor Central

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un

valor representativo. Son medidas estadísticas que se usan para describir como se puede resumir la localización de los datos. Ubican e identifican el punto alrededor del cual se centran los datos. Las medidas de tendencia central nos indican hacia donde se inclinan se agrupan más los datos. Las más utilizadas son: la media aritmética la mediana y la moda.

3.2.1 Media o Simplemente Promedio ( x ) Es el promedio aritmético de un conjunto de valores. La media muestral es:

n

x

x

n

1ii

3.2.2 Mediana (m) Es el valor que ocupa la posición central de un conjunto de observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50% son menores.

3.2.3 Moda (mo) Es el valor, clase o categoría que ocurre con mayor ocurrencia. 3.2.4 Otras medidas de posición: Percentiles: Son 99 valores que dividen a un conjunto de datos en 100 partes iguales. Cuartiles: Son 3 valores Q1; Q2 y Q3 que dividen a los datos en 4 partes iguales Deciles: Son 9 valores D1, D2; D3; D4; D5; D6; D7; D8 y D9 que dividen a un conjunto de datos en 10 partes iguales.

En metrología se adopta un valor de referencia como valor de verdadero convencional xr, que si es conocido, y por tanto tiene existencia real. Es importante la comparación de

valores experimentales con el valor de referencia. La diferencia entre el valor medio ( x ) y el valor de referencia xr, es una medida del error, y que reciben el nombre de sesgo o veracidad.

L

Page 18: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 17

3.3 Parámetros que Estiman la Dispersión Las medidas de dispersión cuantifican la variabilidad de un conjunto de datos respecto

al valor central. Las medidas más utilizadas son: Rango, Varianza, Desviación estándar, Desviación Estándar Relativa, Rango Intercuartílico. 3.3.1 Amplitud o Rango Se define como la diferencia existente entre el valor mayor y el menor de un conjunto de datos.

minmax xxR

3.3.2 Desviación Estándar Mide la variabilidad de los datos respecto al promedio, se expresa en las mismas unidades en que venga dada la variable. La desviación estándar muestral es:

3.3.3 Variancia El cuadrado de la desviación estándar se denomina varianza. Las varianzas son aditivas si existen varias causas independientes de variación en un proceso global. La varianza muestral se expresa “s2”. 3.3.4 Desviación Estándar Relativa (RDS) Es una medida de variabilidad de los datos que se expresa en porcentaje en la cual se compara la desviación estándar con el respectivo valor del promedio de los datos.

La estimación de la dispersión es una medida de la precisión de nuestros

resultados. La precisión se puede evaluar en dos condiciones diferentes, como repetibilidad (los datos se obtienen en la misma sesión de trabajo) o reproducibilidad (en sesiones diferentes de trabajo). En algunos casos también conviene trabajar en condiciones de reproducibilidad intermedia, es decir mismo laboratorio, pero diferentes días y analistas. 3.4 Medida de la Forma de Distribución

Las medidas de distribución nos permiten identificar la forma en que se separan o

aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen

1 -n

)X(X

S

n

1i

2__

i

100

X

S RDS x

__

Page 19: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 18

dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico. Sus principales medidas son la Asimetría y la Curtosis. 3.4.1 Asimetría Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a su valor promedio tomado como centro de gravedad. El coeficiente de asimetría de Fisher es:

Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los

valores, ( X ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta ecuación se interpretan:

(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe

aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5).

(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en la parte izquierda que en la derecha de la media.

(g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir más en la parte derecha de la media.

Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia

que separa la aglomeración de los valores con respecto a la media.

Figura 3.1. Tipos de Curvas asimétricas 3.4.2 Curtosis Evalúa el grado de apuntamiento de la distribución, el coeficiente de curstosis es:

Page 20: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 19

Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( X ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan:

(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante

difícil encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.).

(g2 > 0) la distribución es Leptocúrtica. (g2 < 0) la distribución es Platicúrtica.

Figura 3.2. Tipos de Curvas curtósicas

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente. 3.5 Límites de confianza

Es la probabilidad de que el verdadero valor del parámetro estimado en la población

se sitúe en el intervalo de confianza obtenido. El límite de confianza se denota por (1-α), aunque habitualmente suele expresarse con un porcentaje ((1-α)·100%). Es habitual tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores α de 0,05 y 0,01 respectivamente.

Para una distribución normal y a un nivel de confianza dado, los límites de confianza

están dado por:

x z x zn n

Cuando el tamaño de la muestra disminuye, la ecuación se modifica para calcular los

límites de confianza, que ahora sería:

s

x tn

Donde t es el parámetro de Student que está tabulado para un cierto nivel de

significación y el número de grados de libertad de la serie de resultados considerada. Existen también tablas de t de una o de dos colas, según el acotamiento de las curvas de distribución se produzca solo en uno o en los dos extremos de la curva.

Page 21: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 20

3.6 Práctica Para practicar esta opción, podemos abrir el fichero de datos (Worksheet) Pulso.mtw.

Recordemos que su contenido fue recogido en una clase de 92 alumnos. De cada estudiante se observó su pulso antes de correr, Pulse1; su pulso después de correr, Pulse2; si corrió o no, Corrió (1=Sí corrió, 2=No corrió); si es fumador o no, Fuma (1=Sí fuma, 2=No fuma); el sexo, Sexo (1=Hombre, 2=Mujer); su altura en pulgadas, Alto; su peso en libras, Peso; y su nivel de actividad física, Actividad (0=Ninguna actividad, 1=Baja, 2=Media, 3=Alta). Vamos a calcular los estadísticos descriptivos más importantes para Pulso1, Alto y Peso: Estadísticas > Estadísticas básicas > Mostrar Estadísticas Descriptivas

En la Ventana de Sesión nos salen los resultados para cada una de las variables:

Resultados para: Pulso.MTW

Estadísticas descriptivas: Pulso1, Alto, Peso Variable Media Desv.Est. Varianza CoefVar Mínimo Q1 Mediana Q3

Pulso1 72.87 11.01 121.19 15.11 48.00 64.00 71.00 80.00

Alto 68.717 3.659 13.390 5.33 61.000 66.000 69.000 72.000

Peso 145.15 23.74 563.56 16.35 95.00 125.00 145.00 156.50

N para

Variable Máximo IQR Modo moda Sesgo Kurtosis

Pulso1 100.00 16.00 68 11 0.40 -0.44

Alto 75.000 6.000 68, 69 10 -0.22 -0.80

Peso 215.00 31.50 150, 155 10 0.37 -0.07

Figura 3.3. Ventana Mostrar estadísticas descriptivas

Page 22: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 21

Para observar los Histogramas y Diagramas de Cajas para las tres variables. Seleccionar un gráfico, luego en el Menú Editor > Herramienta de diseño seleccionamos las gráficas que deseamos agrupar, luego Finalizar.

1009080706050

20

15

10

5

0

Pulso1

Fre

cu

en

cia

Media 72.87

Desv.Est. 11.01

N 92

757269666360

10.0

7.5

5.0

2.5

0.0

Alto

Fre

cu

en

cia

Media 68.72

Desv.Est. 3.659

N 92

220200180160140120100

16

12

8

4

0

Peso

Fre

cu

en

cia

Media 145.2

Desv.Est. 23.74

N 92

Histograma (con curva normal) de Pulso1 Histograma (con curva normal) de Alto

Histograma (con curva normal) de Peso

Figura 3.4. Histogramas con ajuste a la Curva Normal

Los histogramas agrupan los datos en intervalos, representando sobre ellos

rectángulos de área proporcional a la frecuencia absoluta de cada intervalo. Los resultados muestran que los datos Pulso1 y Peso poseen una distribución normal, los datos de Alto poseen una Curtosis negativa, que indica una distribución platicúrtica.

Los Diagramas de Caja se muestran a continuación:

100

75

50

Pu

lso

1

76

72

68

64

60

Alt

o

200

175

150

125

100

Pe

so

Gráfica de caja de Pulso1 Gráfica de caja de Alto

Gráfica de caja de Peso

Figura 3.5. Diagrama de Cajas de Bigotes

Page 23: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 22

Los diagramas de cajas o de bigotes representan los valores mínimo y máximo (extremos de los bigotes), los cuartiles Q1 y Q3 (extremos de la caja) y la mediana. Dentro de la caja tendremos el 50% de los datos de la muestra y en cada bigote tendremos el 25% de los datos más extremos. Este gráfico nos permite visualizar tanto el valor central como la dispersión de los datos, y es muy útil a la hora de comparar datos de distintas muestras o grupos.

Con la misma hoja de datos, podemos calcular los estadísticos de la variable Pulso2 (Pulso después de correr) separando sus resultados según los valores de la variable Corrió (¿corrió o no corrió?). Para ello, seleccionamos Estadísticas > Estadísticas básicas > Mostrar Estadísticas Descriptivas; en el recuadro Variables del cuadro de diálogo resultante seleccionamos la variable Pulso2; y en Por variables (opcional) seleccionamos la variable Corrió.

Figura 3.6. Ventana de Mostrar Estadísticas descriptivas En consecuencia, en la ventana de sesión aparecen los resultados de los

mencionados estadísticos de la variable Pulso2 separados para cada grupo de resultados de la variable Corrió. Observemos los resultados de los histogramas y diagramas de cajas:

1401201008060

25

20

15

10

5

0

1401201008060

1

Pulso2

Fre

cu

en

cia

2

Media 92.51

Desv.Est. 18.94

N 35

1

Media 72.32

Desv.Est. 9.948

N 57

2

Histograma (con curva normal) de Pulso2 por Corrió

Variable de panel: Corrió 21

140

130

120

110

100

90

80

70

60

50

Corrió

Pu

lso

2

Gráfica de caja de Pulso2

Figura 3.7. Histogramas y Diagrama de cajas para cada variable

Este tipo de análisis nos permite comparar el efecto de correr o no correr en la

medida del Pulso después de correr. La media del pulso de las personas que han corrido

Page 24: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 23

es 92,51 (mediana 88) y de las que no han corrido es 72,32 (mediana 70), aparentemente hay una diferencia significativa; pero también tendríamos que evaluar su dispersión a través de la comparación con la desviación estándar. En el Capítulo 3 se realizarán los procedimientos correctos para la comparación.

Otro procedimiento para realizar un estudio estadístico mas rápido es: Estadísticas > Estadísticas básicas > Resumen de Gráficas. Estudiaremos la influencia de en el pulso de las personas que Fuma (=1) y no Fuman (=2), para ello en Variables seleccionar Pulso1, y en Por Variables (opcional) escoger Fuma a un Nivel de Confianza de 95 %. Se obtienen dos gráficas:

1009080706050

Mediana

Media

85807570

1er cuartil 66.000

Mediana 71.000

3er cuartil 89.500

Máximo 100.000

69.768 80.232

68.000 85.310

10.668 18.366

A -cuadrado 0.66

V alor P 0.075

Media 75.000

Desv .Est. 13.493

V arianza 182.074

Sesgo 0.090785

Kurtosis -0.877135

N 28

Mínimo 48.000

Prueba de normalidad de A nderson-Darling

Interv alo de confianza de 95% para la media

Interv alo de confianza de 95% para la mediana

Interv alo de confianza de 95% para la desv iación estándarIntervalos de confianza de 95%

Resumen para Pulso1Fuma = 1

1009080706050

Mediana

Media

74727068

1er cuartil 64.000

Mediana 71.000

3er cuartil 78.000

Máximo 96.000

69.514 74.361

68.000 74.000

8.264 11.750

A -cuadrado 0.60

V alor P 0.113

Media 71.938

Desv .Est. 9.702

V arianza 94.123

Sesgo 0.476358

Kurtosis -0.328525

N 64

Mínimo 54.000

Prueba de normalidad de A nderson-Darling

Interv alo de confianza de 95% para la media

Interv alo de confianza de 95% para la mediana

Interv alo de confianza de 95% para la desv iación estándarIntervalos de confianza de 95%

Resumen para Pulso1Fuma = 2

Figura 3.8. Diagrama de Resumen de gráficas

Estos resultados son útiles ya que muestran unos estadísticos que evalúan la

normalidad (prueba de Anderson–Darling) y los intervalos de confianza al nivel de confianza dado.

Además de los gráficos que se obtienen por los procedimientos que ya hemos

visto, una opción importante de todos los gráficos creados a través del menú Gráfica es

Page 25: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 24

que haciendo clic sobre ellos con el botón derecho del ratón y activando la opción Actualizar gráfica automáticamente del menú contextual que aparece, el gráfico cambia automáticamente al modificar los datos con que se han construido (ya sea añadiendo, modificando o eliminando). Las opciones que aparecen en el menú Gráfica se muestran a continuación:

Figura 3.9. ventana del Menú Grafica

Queda como ejercicio al lector que practique hacer estas gráficas, especialmente la

de Gráfica de dispersión, Gráfica de matriz, Histograma, Gráfica de cajas y Gráfica de barras con los datos de la hoja de trabajo Pulso.mtw.

Page 26: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 25

CAPÍTULO CUARTO

ENSAYOS DE HIPÓTESIS

Page 27: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 26

4.1 Ensayos de Hipótesis

nsayar una hipótesis es realizar una comparación entre un dato o un descriptor muestral y un valor de referencia, o bien, entre dos o mas descriptores muestrales.

La comparación se realiza formulando una hipótesis llamada “hipótesis nula”, Ho, que establece que los parámetros son iguales. Al rechazarse la hipótesis nula aparece la hipótesis alternativa, que debe ser contrastado con la hipótesis nula.

Ejemplos de hipótesis nulas:

Igualdad de dos varianzas: Ho : 2

1s = 2

2s .

Igualdad de dos medias: Ho : 1x = 2x .

Igualdad de una media muestral y un valor de referencia, Ho : 1x = rx .

Igualdad de varias medias muestrales, Ho : 1x = 2x = 3x = … = nx

La decisión de aceptar o rechazar Ho se toma estableciendo previamente su “nivel de

significación crítico” o “límite de decisión c”. Para cualquier ensayo de hipótesis se

calcula directamente la “significación observada”, o. En este caso, Ho se rechaza si o es

menor que la significación previamente adoptada como límite de decisión, c.

4.2 Tipos de Error I (error ) y Error II (error )

El Error o de tipo I, cuando la hipótesis nula, siendo cierta, se rechaza incorrectamente, este tipo de error se llama también “falso positivo” y se puede aplicar

cuando se quiere verificar la ausencia de un analito. El Error o de tipo II, cuando se acepta la hipótesis nula, cuando en realidad es falsa.

Tabla 4.1. Resumen de las alternativas de decisión con respecto a Ho

Decisión es Ho realmente verdadera Ho realmente falsa

No rechazar Ho Decisión correcta Error tipo II

Rechazar Ho Error tipo I Decisión correcta

Se observa que cuando el error II aumenta el error I se reduce. Debido a esto suele

adoptarse el valor de compromiso c = 0.05 a no ser que se diga lo contrario.

4.2.1 Nivel de significancia

Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a correr el riesgo de cometer un error de tipo I se llama nivel de significancia.

Esta probabilidad se denota por ó p, se suele especificar antes de la muestra, de manera que los resultados no influyan en nuestra elección.

En la práctica es frecuente un nivel de significancia de 0.05 ó 0.01, si bien se usan otros valores. Si, por ejemplo, se escoge un nivel de significancia del 5% ó 0.05 al diseñar una regla de decisión entonces hay unas cinco oportunidades entre cien de rechazar la

E

Page 28: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 27

hipótesis cuando debiera haberse aceptado; es decir, tenemos un 95% de confianza de que hemos adoptado la decisión correcta. En tal caso decimos que la hipótesis a sido rechazada al nivel de significancia 0.05 lo cual quiere decir que la hipótesis tiene una probabilidad del 5% de ser falsa. 4.2.2 P-valor

El P-valor nos muestra la probabilidad de haber obtenido el resultado que hemos logrado si suponemos que la hipótesis nula es cierta. Se rechaza la hipótesis nula si el P-valor asociado al resultado observado es igual o menor que el nivel de significación establecido, convencionalmente 0.05 ó 0.01, punto que se llama potencia del contraste. 4.3 Pasos de la Prueba de Hipótesis

Para realizar un ensayo de hipótesis, se debe realizar los siguientes procedimientos:

Expresar la hipótesis nula y la hipótesis alternativa Especificar el nivel de significancia Determinar el tamaño de la muestra Establecer los valores críticos que establecen las regiones de rechazo de las de no

rechazo. El tamaño de la región crítica está determinada por el nivel bajo de significación α, y su ubicación está determinada por la hipótesis alternativa.

Determinar la prueba estadística. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística

apropiada. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no

rechazo. Determinar la decisión estadística. Expresar la decisión estadística en términos del problema.

Hoy en día, pruebas de hipótesis se realiza generalmente mediante los diferentes

programas (por ejemplo, Minitab). En este caso, el procedimiento se limita a calcular el P-valor para un determinado conjunto de datos, después de seleccionar una prueba estadística apropiada. El P-valor se compara con el valor supuesto del nivel de significación α. Si el P-valor calculado es menor que el valor α (p <α), la hipótesis nula Ho se rechaza. De lo contrario, la hipótesis nula no se rechaza. 4.4 Pruebas Paramétricas y no Paramétricas

Hay dos clases de pruebas estadísticas: Las paramétricas y las no paramétricas. Las Pruebas Paramétricas tienen mayor capacidad para detectar una relación real o

verdadera entre dos variables, si es que la misma existe. Por ello, exigen que los datos a los que se aplican, cumplan tres requisitos:

Variable numérica: Que la variable de estudio (dependiente) esté medida en una

escala que sea por lo menos de intervalo.

Page 29: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 28

Normalidad: Que los valores de la variable dependiente sigan una distribución normal; por lo menos, en la población a la que pertenece la muestra. Prueba estadística: Kolmogorov – Smirnov o de Anderson – Darling.

Homocedasticidad: Que las varianzas de la variable dependiente en los grupos que se comparan sean aproximadamente iguales (homogeneidad de las varianzas). Prueba estadística: Test de Levene o de Barlett.

Las pruebas estadísticas no paramétricas, no hacen a los datos ninguna de las

exigencias que les hacen las pruebas estadísticas paramétricas; por eso se les denomina "pruebas estadísticas libres de distribución". 4.5 Prueba de la Normalidad

Antes de realizar cualquier análisis estadístico se deben tener presentes las condiciones de aplicación del mismo. En casi todos los análisis estadísticos, la asunción de normalidad es un común denominador, por lo que es un requisito importante evaluar si los datos tienen una distribución normal o no la tienen. Para tal fin, hay pruebas gráficas (Gráficos de Probabilidad) y estadísticas formales (Prueba de Anderson-Darling, Kolmogorov-Smirnov, Shapiro-Wilks, entre otros) para evaluar la normalidad de los datos.

Cuando se demuestra que un conjunto de resultados no sigue la distribución normal

existen diversas posibilidades. En primer lugar se pueden llevar a cabo distintas pruebas estadísticas que permitan indicar la presencia de observaciones discrepantes (outliers), en segundo lugar se pueden intentar una transformación de los datos de tal forma que los resultados transformados se adecuen a una distribución normal. Si ambas posibilidades no resultan satisfactorias será incorrecto llevar a cabo pruebas pensadas para distribuciones de datos normales y se tendrán que intentar ensayos no Paramétricos.

Las transformaciones de datos no sólo se utilizan para llevar la distribución a la

normalidad sino que también se usan para igualar las varianzas de distintos conjuntos de observaciones. Entre las más usuales figuran la transformación logarítmica, la extracción de la raíz cuadrada o la sustitución de los resultados por sus valores recíprocos. 4.5.1 Gráficos de Probabilidad

Consiste en enfrentar, en un mismo gráfico, los datos que han sido observados frente a los datos teóricos que se obtendrían de una distribución gaussiana. Si la distribución de la variable coincide con la normal, los puntos se concentrarán en torno a una línea recta, aunque conviene tener en cuenta que siempre tenderá a observarse mayor variabilidad en los extremos.

En los gráficos P-P se confrontan las proporciones acumuladas de una variable con las

de una distribución normal. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles respecto a los cuantiles de la distribución normal.

Page 30: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 29

4.5.2 Prueba de Anderson-Darling

Es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica. La fórmula para el estadístico A determina si los datos vienen de una distribución con función acumulativa F. Es una de las herramientas estadísticas más potentes para la detección de la mayoría de las desviaciones de normalidad. 4.5.3 Prueba de Kolmogorov-Smirnov

Es una prueba no paramétrica que se basa en la idea de comparar la función de distribución acumulada de los datos observados con la de una distribución normal, midiendo la máxima distancia entre ambas curvas.

La prueba Kolmogórov-Smirnov es más sensible a los valores cercanos a la mediana

que a los extremos de la distribución. La prueba de Anderson-Darling proporciona igual sensibilidad con valores extremos. 4.5.4 Prueba de Shapiro-Wilks

La prueba de Shapiro-Wilks se basa en estudiar el ajuste de los datos graficados sobre un gráfico probabilístico en el que cada dato es un punto cuyo valor de abscisa es el valor observado de probabilidad para un valor determinado de la variable, y el de ordenada el valor esperado de probabilidad. Ejercicio 1:

Abramos el archivo Pulso.mtw. Hagamos primero la gráfica de normalidad: Estadísticas > Estadísticas básicas > Prueba de normalidad:

Figura 4.1. Ventana de la Prueba de Normalidad y resultado obtenido

Los puntos obtenidos se ajustan aproximadamente a la recta, además el estadístico de Anderson-Darling que es 0,523, y el P-valor de 0,179 mayor a 0,05, indica que los datos tienen una distribución normal.

2252001751501251007550

99.9

99

95

90

80

7060504030

20

10

5

1

0.1

Peso

Po

rce

nta

je

Media 145.2

Desv.Est. 23.74

N 92

AD 0.523

Valor P 0.179

Gráfica de probabilidad de PesoNormal

Page 31: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 30

Otro procedimiento que ya hemos visto es utilizando el menú Estadísticas, que es mas rápido: Estadísticas > Estadísticas básicas > Resumen de Gráficas (ver Figura 3.7).

Otro procedimiento mediante el menú Grafica: Gráfica > Gráfica de probabilidad > Individual

Figura 4.2. Ventanas de la Gráfica Probabilidad.

Figura 4.3. Gráfica de Probabilidad de la variable Peso

Los datos deben estar en el rango del intervalo de confianza para considerarlo que tienen una distribución normal. 4.6 Valores anómalos

A veces, al observar un conjunto de valores de una serie de datos, aparecen valores "extraños" de cuya "validez" o representatividad cabe dudar. Por esta razón estas medidas se denominan resultados discrepantes, anómalos, atípicos (outliers).

25020015010050

99.9

99

95

90

80

7060504030

20

10

5

1

0.1

Peso

Po

rce

nta

je

Media 145.2

Desv.Est. 23.74

N 92

AD 0.523

Valor P 0.179

Gráfica de probabilidad de PesoNormal - 95% de IC

click

Page 32: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 31

4.6.1 Límites de Confianza

Comprueba si un determinado conjunto de resultados incluye un resultado(s) con un grave error. Procedimiento: Excluir del conjunto de resultados el dato considerado como atípico. Calcular los extremos del intervalo de confianza para un resultado único, basado en la

fórmula siguiente:

2m crít

ng x t SD

n

donde xm es la media para una serie sin atípicos; SD es la desviación estándar para una

serie sin atípicos; n es el tamaño total de una serie, junto con un resultado incierto; tcrit es el parámetro crítico de la prueba de la t de Student, leer para f = n - 2 grados de libertad Inferencia:

Si un resultado incierto cae fuera de los límites del intervalo de confianza, se rechaza, de lo contrario, es compensada para cálculos futuros, y los valores de xm y SD son calculados de nuevo. 4.6.2 Prueba Q de Dixon

Comprueba si un determinado conjunto de resultados incluye un resultado atípico. Procedimiento: Ordenar los resultados en una secuencia creciente: x1, . . . , xn. Calcular el valor del rango R de acuerdo con la fórmula: R = xn - x1. Calcular el valor de los parámetros Q1 y Qn de acuerdo a las fórmulas:

2 11

x xQ

R 1n n

n

x xQ

R

Comparar el valor obtenido con el valor del Qcrít (ver Anexo ), leer para el nivel de

significancia seleccionado y el número de grados de libertad f = n. Inferencia:

Si uno de los parámetros calculados excede el valor crítico Qcrit, entonces el resultado de la cual se calculó (xn o x1) debe ser rechazado como consecuencia de un grave error y sólo entonces xm y SD debe ser calculado. 4.6.3 Prueba de Cochran

Detecta los atípicos de una serie de datos para la prueba de variabilidad intralaboratorio. La prueba evalúa valores extremos de un solo lado, ya que el criterio de la prueba examina sólo la mayor desviación estándar.

Page 33: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 32

Requerimientos: El número de resultados en una serie es mayor o igual a 2, pero sólo cuando el número

de laboratorios de comparación es mayor que 2. Los conjuntos de datos tienen la misma cantidad. Procedimiento: Calcular las desviaciones estándar para cada uno de los conjuntos de comparación de

los resultados. Calcular el valor del parámetro C mediante la fórmula:

2

max

2

1

p

i

i

SDC

SD

donde SDmax es la máxima desviación estándar en el conjunto investigado (entre los

laboratorios investigados), SDi es la desviación estándar para una serie determinada (datos de un laboratorio), y p es el número de desviaciones estándar (el número de laboratorios comparados). Luego se compara el valor calculado de C con el valor crítico para un valor de n dado, el número de resultados en una serie, y p el número de laboratorios (ver Anexo ). Inferencia: Si el valor del parámetro de prueba calculado es menor o igual al valor crítico

correspondiente al nivel de significancia α = 0.05, entonces el resultado investigado se considera correcto.

Si el valor numérico de un parámetro de la prueba respectiva es mayor que el valor crítico correspondiente al nivel de significancia α = 0.05 y menor o igual al valor crítico correspondiente al nivel de significancia α = 0.01, entonces el resultado es un valor incierto.

Si el valor del parámetro de prueba es mayor que el valor crítico correspondiente al nivel de significancia α = 0.01, entonces el resultado investigado se considera un valor atípico.

4.6.4 Prueba de Grubbs

Detecta valores atípicos de un conjunto dado de datos para la prueba de la variabilidad entre laboratorios. Requerimientos: El número de resultados en la serie es mayor o igual a 2, pero sólo cuando el número

de laboratorios de comparación es mayor que 2. El mismo número de resultados en los conjuntos de los resultados. Con un solo uso, permite la detección de un valor atípico, por lo que debe repetirse

hasta que no se observan valores atípicos en los resultados restantes Procedimiento: Calcular la desviación estándar para el conjunto de resultados. Ordenar el conjunto de datos xi para i = 1, 2,. . . , p en una sucesión creciente.

Page 34: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 33

μ X :H__

0 ) μ ( μ X X :H____

0

) μ ( μ X X :H____

a

Calcular el valor del parámetro Gp de acuerdo a la relación:

p m

p

x xG

SD

donde xp es el valor en el conjunto de resultados considerados como un valor atípico,

xm es la media, y SD es la desviación estándar. Comparar el valor de Gp calculado con el valor crítico para un valor de p dado, el número de laboratorios (ver Anexo ).

Inferencia: Si el valor del parámetro de prueba calculado es menor o igual al valor crítico

correspondiente al nivel de significancia α = 0.05, entonces el resultado investigado se considera correcto.

Si el valor numérico de un parámetro de ensayo correspondiente es mayor que el valor crítico correspondiente al nivel de significancia α = 0.05, y menor o igual al valor crítico correspondiente al nivel de significancia α = 0.01, entonces el resultado es un valor incierto.

Si el valor del parámetro de prueba es mayor que el valor crítico correspondiente al nivel de significancia α = 0.01, entonces el resultado investigado se considera un valor atípico, a partir del rechazo de este valor del conjunto de resultados, la prueba para la serie de p - 1 resultados pueden llevarse a cabo de nuevo, y el curso de acción debe continuar hasta que no haya valores atípicos más en el conjunto de resultados.

4.7 Comparación de Resultados con los Ensayos de Hipótesis

La demostración de la trazabilidad es un requisito petrológico básico para los resultados de un laboratorio. Para ello es necesario disponer de materiales de referencia con valores bien establecidos o bien comparar con métodos alternativos considerados como referencias. La comparación respecto a muestras con valores de referencia se lleva a cabo mediante los Ensayos de Hipótesis, mientras que la comparación con métodos alternativos de referencia puede realizarse mediante análisis de regresión (Capítulo 6). 4.7.1 Comparación de una Media con un Valor Referencial a. Prueba Paramétrica: Prueba t

Esta prueba se utiliza con frecuencia para demostrar la trazabilidad de los resultados obtenidos en el laboratorio. Hipótesis: Contraste bilateral: Contraste unilateral:

El cálculo del texperimental: exp/

xt

s n

μ X :H__

a

Page 35: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 34

Decisión: Ejercicio 2: En el ciclismo profesional, un hematocrito superior al 50 % implica sanción por dopaje con

EPO (eritropoyetina). Para la siguiente serie de medidas se quiere decidir para = 0,05 si se ha sobrepasado el límite legal: 51,9, 50,6, 50,8, 49,3, 50,0, 51,2, 51,7, 50,9.

Ho: x = 50 %

H1: x ≠ 50 % (prueba de dos colas)

= 0,05 Estadísticas > Estadísticas básicas > t de 1 muestra

Figura 4.4. Ventana para la prueba t El resultado que se obtiene con nuestros datos es:

El P-valor es menor que nuestro valor de significancia 0,05, por lo que se dice que se rechaza la Ho, entonces hay diferencias significativas a un 95 % de confianza entre la media y el valor referencial de 50 %.

Contraste Decisión

texp < tTabla Aceptamos Ho

texp ≥ tTabla Rechazamos Ho

Usamos esta opción cuando no tenemos todos los valores de la muestra sino solamente su media y desviación tipo

T de una muestra: EPO Prueba de mu = 50 vs. no = 50

Media del

Error

Variable N Media Desv.Est. estándar IC de 95% T P

EPO 8 50.800 0.855 0.302 (50.085, 51.515) 2.65 0.033

Dos colas Una cola

Page 36: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 35

μ Me :H0 ) μe ( μ M Me :H0

) μMe ( μ Me :Ha

b. Prueba no Paramétrica: Prueba de Wilcoxon Prueba si la mediana (Me) de la muestra es igual a un valor de referencia. Hipótesis: Contraste bilateral: Contraste unilateral:

Ejercicio 3: Se encontró que los niveles de plomo en sangre (en pg/mL) de siete niños eran 104, 79, 98, 150, 87, 136, y 101. ¿Podrían proceder estos datos de una población que se supone es simétrica, con una mediana de 95 pg/mL?

Ho : Me = 95 pg/mL H1 : Me ≠ 95 pg/mL (prueba de dos colas)

= 0,05 Estadística > No paramétricos > Wilcoxon de 1 muestra

Figura 4.5. Ventana de la Prueba de Wilcoxon

Se obtienen los resultados: Evaluamos el P-valor 0,353 que es mayor que el nivel de significancia crítico 0,05, por lo que aceptamos la Ho. A un nivel de confianza del 95 %, los datos provienen de una población con mediana 95 pg/mL.

μ Me :Ha

Prueba de clasificación con signos de Wilcoxon: Plomo Prueba de la mediana = 95.00 vs. la mediana no = 95.00

Número

de Estadística Mediana

N prueba de Wilcoxon P estimada

Plomo 7 7 20.0 0.353 103.3

Page 37: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 36

4.7.2 Comparación de dos varianzas

Existen situaciones en las que se debe comparar la distribución de dos poblaciones y analizar si tienen el mismo nivel de precisión o cuál es más precisa. Incluso para comparar valores medios entre muestras se requiere, en múltiples ocasiones, una comparación previa de sus varianzas. a. Prueba Paramétrica: Test F

Es una prueba sencilla para comparar dos varianzas 2

1s y 2

2s , es decir se quiere

comparar la precisión de dos métodos de análisis, de dos analistas, de dos instrumentos, etc.

Ho : 2

1s = 2

2s (homogéneas u homocedásticas)

H1 : 2

1s > 2

2s (ensayo de un lado)

H1 : 2

1s ≠ 2

2s (ensayo de dos lados)

El estadístico Fexp es: 2

1exp 2

2

sF

s

Con grados de libertad del numerador, t1 = (n1-1) y del denominador, t2 = (n2-1). Si Fexp > F se rechaza la hipótesis nula Ho. Ejercicio 4: Las dos series de n1 = 10 y n2 = 9 se han obtenido midiendo un estándar de As(III) en dos espectrofotómetros de absorción atómica. Se desea saber si los dos instrumentos dan varianzas iguales o distintas. Serie 1: 325, 333, 322, 322, 314, 323, 323, 327, 325, 321 Serie 2: 312, 311, 307, 316, 310, 314, 309, 310, 311 Comparemos las varianzas de las dos series mediante el Menú Estadísticas: Estadísticas > Estadísticas básicas > 2 Varianzas

Figura 4.6. Ventana de la opción 2 varianzas.

Se utiliza cuando los datos se encuentran en una columna.

Se utiliza cuando se tiene solo las varianzas y número de datos.

Page 38: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 37

El resultado obtenido

Serie 2

Serie 1

108642

Intervalos de confianza de Bonferroni de 95% para Desv.Est.

Serie 2

Serie 1

335330325320315310

Datos

Estadística de prueba 3.26

Valor P 0.111

Estadística de prueba 0.84

Valor P 0.371

Prueba F

Prueba de Levene

Prueba de igualdad de varianzas para Serie 1, Serie 2

Figura 4.7. Resultados de la prueba de varianzas

Los resultados obtenidos muestran los valores de varianzas de ambas series de

datos, y el P-valor para la prueba F es mayor a 0,05, por lo que se mantiene la Ho, es decir la varianzas son iguales a un Nivel de Confianza del 95 %. b. Prueba No Paramétrica: Test de Bartlett y de Levene

Minitab calcula y muestra una estadística de prueba y P-valor tanto para la prueba de Bartlett, como para la prueba de Levene donde, respectivamente, la hipótesis nula corresponde a varianzas iguales. Si sólo hay dos niveles, se realiza una prueba F en lugar de la prueba de Bartlett. Utilice la prueba de Bartlett cuando los datos provengan de distribuciones normales, la

prueba de Bartlett no es sólida cuando los datos se apartan de la normalidad. Utilice la prueba de Levene cuando los datos provengan de distribuciones continuas,

pero no necesariamente distribuciones normales. Este método considera las distancias de las observaciones con respecto a la mediana de la muestra en lugar de la media de la muestra, esto hace que la prueba sea más sólida para las muestras más pequeñas.

Prueba de varianzas iguales: Serie 1, Serie 2 Intervalos de confianza de Bonferroni de 95% para desviaciones estándares

N Inferior Desv.Est. Superior

Serie 1 10 3.14841 4.81318 9.69207

Serie 2 9 1.70898 2.66667 5.68492

Prueba F (distribución normal)

Estadística de prueba = 3.26, valor p = 0.111

Prueba de Levene (cualquier distribución continua)

Estadística de prueba = 0.84, valor p = 0.371

Page 39: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 38

Ejercicio 5: Ensayar los datos de la determinación de sulfatos en aguas por electroforesis capilar.

Serie 1 Serie 2 Serie 3

23 25 26 24 23 26 25

51 54 47 48 53 49 52

95 106 98

104 102 97 96

Primero realizamos unas pruebas estadísticas para verificar la normalidad de los datos. Estadísticas > Estadísticas básicas > Resumen gráfico

Figura 4.8. Resultados del Resumen Gráfico

La prueba de Anderson-Darling nos dan un P-valor mayor a 0,05, lo que indica que los datos provienen de una población normal.

Para realizar la prueba de varianzas con la Prueba de Bartlett, Minitab requiere que los datos estén apilados en una columna, entonces primero haremos esta operación a través del Menú Datos: Datos > Apilar > Columnas

26252423

Mediana

Media

26252423

1er cuartil 23.000

Mediana 25.000

3er cuartil 26.000

Máximo 26.000

23.395 25.748

23.000 26.000

0.820 2.802

A -cuadrado 0.38

V alor P 0.302

Media 24.571

Desv .Est. 1.272

V arianza 1.619

Sesgo -0.22190

Kurtosis -1.71488

N 7

Mínimo 23.000

Prueba de normalidad de A nderson-Darling

Interv alo de confianza de 95% para la media

Interv alo de confianza de 95% para la mediana

Interv alo de confianza de 95% para la desv iación estándarIntervalos de confianza de 95%

Resumen para Serie 1

54525048

Mediana

Media

54.052.551.049.548.0

1er cuartil 48.000

Mediana 51.000

3er cuartil 53.000

Máximo 54.000

48.133 53.010

47.733 53.267

1.699 5.806

A -cuadrado 0.20

V alor P 0.790

Media 50.571

Desv .Est. 2.637

V arianza 6.952

Sesgo -0.11222

Kurtosis -1.63776

N 7

Mínimo 47.000

Prueba de normalidad de A nderson-Darling

Interv alo de confianza de 95% para la media

Interv alo de confianza de 95% para la mediana

Interv alo de confianza de 95% para la desv iación estándarIntervalos de confianza de 95%

Resumen para Serie 2

105.0102.5100.097.595.0

Mediana

Media

105.0102.5100.097.595.0

1er cuartil 96.000

Mediana 98.000

3er cuartil 104.000

Máximo 106.000

95.765 103.664

95.733 104.533

2.752 9.404

A -cuadrado 0.33

V alor P 0.404

Media 99.714

Desv .Est. 4.271

V arianza 18.238

Sesgo 0.47321

Kurtosis -1.65003

N 7

Mínimo 95.000

Prueba de normalidad de A nderson-Darling

Interv alo de confianza de 95% para la media

Interv alo de confianza de 95% para la mediana

Interv alo de confianza de 95% para la desv iación estándarIntervalos de confianza de 95%

Resumen para Serie 3

Page 40: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 39

Obtenemos la siguiente ventana, llenamos los datos como se indica:

Figura 4.9. Ventana de la opción apilar columnas.

Observamos que los datos se han apilado en la columna C4, y en C5 están los

títulos de cada dato. Ahora hacemos la prueba de varianzas del Menú Estadísticas: Estadísticas > ANOVA > Prueba de varianzas iguales:

Figura 4.10. Ventana de la opción de la prueba de Varianzas Iguales

Los resultados obtenidos:

Prueba de varianzas iguales: C4 vs. C5 Intervalos de confianza de Bonferroni de 95% para desviaciones estándares

C5 N Inferior Desv.Est. Superior

Serie 1 7 0.74995 1.27242 3.4525

Serie 2 7 1.55406 2.63674 7.1544

Serie 3 7 2.51705 4.27061 11.5877

Prueba de Bartlett (distribución normal)

Estadística de prueba = 6.96, valor p = 0.031

Prueba de Levene (cualquier distribución continua)

Estadística de prueba = 2.97, valor p = 0.077

Page 41: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 40

Serie 3

Serie 2

Serie 1

121086420

C5

Intervalos de confianza de Bonferroni de 95% para Desv.Est.

Estadística de prueba 6.96

Valor P 0.031

Estadística de prueba 2.97

Valor P 0.077

Prueba de Bartlett

Prueba de Levene

Prueba de igualdad de varianzas para C4

Figura 4.11. Resultados de la Prueba de Varianzas

La Prueba de Bartlett que corresponde para esta serie de datos que provienen de

datos normales, dan un P-valor de 0,031, lo cual indica que los datos difieren en sus varianzas a un Nivel de Confianza del 95 %. Este tipo de datos también se le llama Heterogéneos o Heterocedásticos. Si poseen varianzas iguales son Homogéneos o Homocedásticos. 4.7.3 Comparación de dos medias

A veces en el Laboratorio se quiere comparar las medias de dos muestras para comparar dos métodos de análisis, o dos analistas, las respuestas de dos instrumentos, etc. Primero se debe conocer si los datos son homogéneos o heterogéneos para realizar la prueba t.

a. Comparación de dos medias homogéneas

Con la prueba F se comprueba si los datos son homogéneos. Si es así se puede hallar la varianza promedio: Entonces:

Ho : 1x = 2x

H1 : 1x > 2x (ensayo de un lado)

H1 : 1x ≠ 2x (ensayo de dos lados) El to se calcula: para n1 + n2 – 2 grados de libertad

2 22 1 1 2 2

1 2

( 1) ( 1)

2

n s n ss

n n

1 2

1

22

1 2

1 1

o

x xt

sn n

Page 42: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 41

Ejercicio 6:

Las dos series de n1 = 10 y n2 = 9 del cuadro se han obtenido midiendo un estándar de As(III) en dos espectrofotómetros de absorción atómica. Las medias de las dos series difieren significativamente a un nivel de confianza del 95 %?. Serie 1: 325, 333, 322, 322, 314, 323, 323, 327, 325, 321 Serie 2: 312, 311, 307, 316, 310, 314, 309, 310, 311

La prueba de varianza ya se realizó en el Ejercicio 4, por lo que datos son homogéneos. En el Menú Estadísticas de Minitab; Estadísticas > Estadísticas básicas > t de 2 muestras

La Ho : 1x = 2x , y la H1 : 1x ≠ 2x (ensayo de dos lados).

Figura 4.12. Ventana t de 2 muestras. Obtenemos los resultados en la Ventana de sesión de Minitab

Prueba T e IC de dos muestras: Serie 1, Serie 2 T de dos muestras para Serie 1 vs. Serie 2

Media del

Error

N Media Desv.Est. estándar

Serie 1 10 323.50 4.81 1.5

Serie 2 9 311.11 2.67 0.89

Diferencia = mu (Serie 1) - mu (Serie 2)

Estimado de la diferencia: 12.39

IC de 95% para la diferencia: (8.56, 16.22)

Prueba T de diferencia = 0 (vs. no =): Valor T = 6.82 Valor P = 0.000 GL = 17

Ambos utilizan Desv.Est. agrupada = 3.9511

Cuando no se tienen las muestras y solo se conoce su tamaño, media y desviación estándar.

Cuando todas las muestras están en una sola columna.

Prueba de dos colas

Page 43: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 42

En los resultados de la Ventana de Sesión se obtiene la diferencia entre las medias, y con el P-valor que es menor a 0,05 rechazamos la Ho, es decir a un nivel de confianza de 95 % hay diferencias significativas entre las medias de las dos series de datos. b. Comparación de dos medias heterogéneas

Si la prueba F confirma que los datos son heterogéneos, entonces:

Ho : 1x = 2x

H1 : 1x > 2x (ensayo de un lado)

H1 : 1x ≠ 2x (ensayo de dos lados) El to se obtiene:

Para hallar los grados de libertad, se utiliza la fórmula aproximada: Ejercicio 7:

Los datos de la siguiente tabla proporcionan la concentración de tiol (mM) en el plasma sanguíneo de dos grupos de voluntarios, siendo el primer grupo “normal” y el segundo sufriendo artritis reumatoide. Se pide hallar si la media de tiol las personas normales es significativamente menor al de las personas con reumatoide a un nivel de significancia de 0,05

Normal Reumatoide

1,84 1,92 1,94 1,92 1,85 1,91 2,07

2,81 4,06 3,62 3,27 3,27 3,76

Realicemos una Prueba F para evaluar si los datos :

Figura 4.13. Ventana de 2 varianzas para la prueba F

1 2

12 2 21 2

1 2

o

x xt

s s

n n 22 2

1 2

1 2

2 22 2

1 2

1 2

1 2

2

1 1

s s

n n

s s

n n

n n

Page 44: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 43

Los resultados en la Ventana de Sesión: El P-valor indica que las varianzas de las series son distintas. Luego la comparación de medias es de datos heterogéneos. En el menú Estadísticas: Estadísticas > Estadísticas básicas > t de 2 muestras

La Ho : normalx = reumatoidex , y la H1 : normalx < reumatoidex (ensayo de un lado).

Figura 4.14. Ventana de t de 2 muestras. Los resultados en la Ventana de sesión:

Prueba de varianzas iguales: Normal, Reumatoide

Intervalos de confianza de Bonferroni de 95% para desviaciones estándares

N Inferior Desv.Est. Superior

Normal 7 0.045941 0.075593 0.19015

Reumatoide 6 0.258273 0.440488 1.26021

Prueba F (distribución normal)

Estadística de prueba = 0.03, valor p = 0.001

Prueba de Levene (cualquier distribución continua)

Estadística de prueba = 12.25, valor p = 0.005

Prueba T e IC de dos muestras: Normal, Reumatoide

T de dos muestras para Normal vs. Reumatoide

Media del

Error

N Media Desv.Est. estándar

Normal 7 1.9214 0.0756 0.029

Reumatoide 6 3.465 0.440 0.18

Diferencia = mu (Normal) - mu (Reumatoide)

Estimado de la diferencia: -1.544

Límite superior 95% de la diferencia: -1.177

Prueba T de diferencia = 0 (vs. <): Valor T = -8.48 Valor P = 0.000 GL = 5

Quitar el check

Prueba de una cola:

Page 45: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 44

El resultado del P-valor menor a 0,05 indica que se rechaza la Ho, es decir hay diferencias significativas entre las medias de los dos resultados. Luego la concentración de tiol en el plasma sanguíneo para personas normales es significativamente menor al de personas con reumatoide. c. Prueba no Paramétrica: Ensayo de Mann - Whitney

Es la contraparte no paramétrica de la prueba t de dos muestras. Realiza una prueba de hipótesis de la igualdad de dos medianas de población y calcula la estimación del punto y el intervalo de confianza correspondientes. Ho : Me1 = Me2 H1 : Me1 ≠ Me2 (ensayo de dos colas) H1 : Me1 < Me2 ó Me1 > Me2 (ensayo de una cola) Ejercicio 8:

Se analizó una muestra de material fotográfico de desecho mediante EAA para conocer el nivel de plata, proporcionando para cinco determinaciones sucesivas los valores 9.8, 10.2, 10.7, 9.5 y 10.5 mg/mL. Después de recibir el tratamiento químico se volvieron a analizar por el mismo procedimiento. Los resultados obtenidos para las cinco determinaciones sucesivas fueron las siguientes: 7.7, 9.7, 8.0, 9.9 y 9.0 mg/mL. ¿Hay una evidencia de que el tratamiento traiga consigo una reducción significativa en los niveles de plata? Compararemos la mediana de los niveles de plata antes del tratamiento, y si disminuye después del tratamiento. Ho : Meantes = Medespués H1 : Meantes > Medespués (prueba de una cola) Estadísticas > No paramétricos > Mann-Whitney

Figura 4.15. Ventana de la Prueba de Mann-Whitney

Page 46: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 45

Los resultados en la Ventana de Sesión:

Minitab calcula las medianas de muestra de los datos ordenados como 9 y 10,2. El 96,3 % de intervalo de confianza para la diferencia en medianas de la población, (ETA1 - ETA2) es [-0,099 – 2,700]. La estadística de prueba W = 37,0 tiene un valor p de 0,0301.

Debido a que el P-valor es menor que el nivel elegido de 0,05, se concluye que se puede rechazar la Ho. Por lo tanto, a un nivel de confianza del 95 % hay disminución significativa de los niveles de plata debido al tratamiento. 4.7.4 Comparación de datos apareados

Se utiliza para comparar dos conjuntos de resultados cada uno, cuyos datos en función de algún criterio objetivo, se pueden reunir de dos en dos formando parejas: (x1, y1), (x2, y2), …, (xn, yn).

Se halla la diferencia, di = xi – yi, para cada pareja (con su signo) y se calcula la media

aritmética dx de las diferencias y su desviación estándar sd.

Ho : dx = 0

H1 : dx ≠ 0 El estadístico to: Los grados de libertad: (n-1) Ejercicio 9:

El desgaste de un motor se puede evaluar a partir del análisis del aceite lubricante, que se va enriqueciendo de ciertos metales. En un ensayo de comparación de motores, se tomaron muestras de aceite de lubricante a distintos tiempos de funcionamiento. Se desea saber si uno de los motores se desgasta mas rápidamente que el otro, o si por el contrario el desgaste es el mismo.

Horas Sn, motor 1 Sn, motor 2

100 200 300 500 750

1000

0,218 0,312 0,365 0,373 0,379 0,383

0,244 0,299 0,353 0,379 0,388 0,394

Prueba de Mann-Whitney e IC: Antes, Después N Mediana

Antes 5 10.200

Después 5 9.000

La estimación del punto para ETA1-ETA2 es 1.200

96.3 El porcentaje IC para ETA1-ETA2 es (-0.099,2.700)

W = 37.0

Prueba de ETA1 = ETA2 vs. ETA1 > ETA2 es significativa en 0.0301

d

o

d

x nt

s

Page 47: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 46

Los datos forman pares de los resultados de Sn en ambos motores para cada tiempo en horas. La prueba es de datos apareados. Estadísticas > Estadísticas > t apareada

Figura 4.16. Ventana de la t pareada. Los resultados en la Ventana de sesión:

El resultado del P-valor mayor a 0,05 indica que las diferencias entre los resultados de cada par no se diferencian significativamente de cero, por lo que no hay diferencia siginificativa en cada par a un nivel de confianza del 95 %. 4.7.5 Comparación de mas de dos medias (ANOVA)

Es una herramienta estadística que permite comparar simultáneamente varias medias muestrales a partir de la comparación de las varianzas. Es muy útil cuando se quiere hacer comparaciones interlaboratorio entre las medias de los resultados de cada laboratorio. El análisis de las hipótesis es:

Ho : 1x = 2x = 3x = 4x = … H1 : al menos una de ellas es diferente a las demás

IC y Prueba T pareada: Sn, motor 1, Sn, motor 2 T pareada para Sn, motor 1 - Sn, motor 2

Media del

Error

N Media Desv.Est. estándar

Sn, motor 1 6 0.3383 0.0644 0.0263

Sn, motor 2 6 0.3428 0.0596 0.0243

Diferencia 6 -0.00450 0.01487 0.00607

IC de 95% para la diferencia media:: (-0.02010, 0.01110)

Prueba t de diferencia media = 0 (vs. no = 0): Valor T = -0.74 Valor P = 0.492

Diferencia 0

Page 48: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 47

Para aplicar el ANOVA debe cumplir ciertos requisitos: Independencia, los datos no deben estar correlacionados entre si. Normalidad, todos las series de datos deben tener una distribución normal, hacer la

prueba de normalidad de Anderson-Darling o la de Kolmogorov-Smirnov. Homocedasticidad, las series de datos deben tener varianzas iguales, hacer la prueba

de Levene (o también verificar la normalidad de los residuos).

Generalmente los programas estadísticos muestran la siguiente tabla: Tabla 4.2. Tabla de resultados de ANOVA

Fuente de Varianza

Grados de Libertad

Suma de Cuadrados SC

Cuadrado medio CM

F Significación

Entre series h – 1 SCs SCs/(h-1) CMs/CMres o

Residual N – h SCres SCres/(N-h)

Total N – 1 SCT

Donde SCs es la suma de cuadrados entre series, SCres es la suma de cuadrados residual dentro de la serie,

El ANOVA hace comparaciones entre la varianza residual de cada serie (CMres) y la varianza entre las medias de las series (CMs), si esta última es significativamente mayor que la varianza residual, el resultado es positivo y se rechaza la hipótesis nula, Ho. Ejercicio 10:

Se desea saber si las distintas condiciones de almacenaje de una disolución afectan a la intensidad de su fluorescencia.

Tratamiento Intensidad de Fluorescencia x s

A) Preparación reciente B) Oscuridad, 1 h C) Luz tenue, 1 h D) Luz intensa, 1 h

102, 99, 101, 102, 103, 100 102, 100, 104, 101, 102, 103 97, 95, 99, 95, 98, 96 90, 92, 93, 91, 93, 92

101,17 + 1,47 102,00 + 1,41 96,67 + 1,63 91,83 + 1,17

Estableciendo la Ho y H1:

Ho : Ax = Bx = Cx = Dx

H1 : Ax ≠ Bx ≠ Cx ≠ Dx Estadísticas > ANOVA > Un solo factor (Desapilado)

2

1 1

( )jnh

res ij

j i

SC x x

2

1

( )h

js j

j

SC n x x

Page 49: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 48

Figura 4.17. Ventana del Análisis de varianza Obtenemos los resultados en la Ventana de Sesión:

El P-valor menor a 0,05 establece que se puede rechazar la Ho, es decir a un nivel de confianza del 95 % por lo menos una de las medias de los tratamientos es significativamente diferente a las demás, hay influencia de la condición de almacenaje en la intensidad de fluorescencia. Los gráficos obtenidos:

Figura 4.18. Gráfica de Cajas y de residuos de cada serie

ANOVA unidireccional: A, B, C, D

Fuente GL SC MC F P

Factor 3 394.83 131.61 64.20 0.000

Error 20 41.00 2.05

Total 23 435.83

S = 1.432 R-cuad. = 90.59% R-cuad.(ajustado) = 89.18%

ICs de 95% individuales para la media

basados en Desv.Est. agrupada

Nivel N Media Desv.Est. -+---------+---------+---------+--------

A 6 101.17 1.47 (--*---)

B 6 102.00 1.41 (--*---)

C 6 96.67 1.63 (--*---)

D 6 91.83 1.17 (--*---)

-+---------+---------+---------+--------

91.0 94.5 98.0 101.5

Desv.Est. agrupada = 1.43

DCBA

104

102

100

98

96

94

92

90

Da

tos

Gráfica de caja de A, B, C, D

420-2-4

99

90

50

10

1

Residuo

Po

rce

nta

je

102999693

2

1

0

-1

-2

Valor ajustado

Re

sid

uo

210-1-2

4.8

3.6

2.4

1.2

0.0

Residuo

Fre

cu

en

cia

Gráfica de probabilidad normal vs. ajustes

Histograma

Gráficas de residuos para A, B, C, D

Page 50: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 49

El diagrama de cajas compara las medias y dispersión de cada una de las series. El gráfico de residuos frente a valores previstos es una buena opción para verificar lo homocedasticidad de los datos. El histograma y gráfico de probabilidad de los residuos nos ayuda a evaluar la normalidad y la no existencia de anomalías.

a. Prueba no paramétrica: Ensayo de Kruskal-Wallis

Prueba si dos o más pruebas independientes provienen de poblaciones idénticas. La prueba de Kruskall-Wallis es una alternativa no paramétrica a un ANOVA de un solo factor. La prueba no requiere que los datos sean normales, pero utiliza la clasificación de los valores de datos en lugar de los valores de datos reales del análisis. Ho : Me1 = Me2 = Me3 = Me4 H1 : Me1 ≠ Me2 ≠ Me3 ≠ Me4 Ejercicio 11:

Se hicieron mediciones de crecimiento de bacterias en muestras de leche a las que se suministró uno de tres tratamientos. Se desea evaluar si hay influencia del tratamiento en el crecimiento de las bacterias.

Tratamiento 1 Tratamiento 2 Tratamiento 3

15.1 13.1 16.2

13 13 13.8

14.9 12.9 17

13.2 12.8 14.7

11.9 12 15

16.5

En lugar de asumir una distribución de datos y probar la igualdad de las medias de

población con ANOVA de un factor, vamos a realizar el procedimiento de Kruskal-Wallis. Ho : Me1 = Me2 = Me3 H1 : Me1 ≠ Me2 ≠ Me3 Elegir: Estadísticas > No paramétricos > Kruskal-Wallis:

Figura 4.19. Ventana de la Prueba de Kruskal-Wallis

Page 51: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 50

Los resultados en la Ventana de Sesión:

Las medianas para los tres tratamientos son 13.2, 12.9 y 15.6. El valor z para el nivel 1 es - 0.45, el valor z absoluto más pequeño. Este tamaño indica que la clasificación de medias para el tratamiento 1 es la que difiere menos de la clasificación de medias para todas las observaciones. La clasificación de medias para el tratamiento 2 fue menor que la clasificación de medias para todas las observaciones, el valor z es negativo (z = -2.38). La clasificación de medias para el tratamiento 3 es más alta que la clasificación de medias para todas las observaciones, el valor z es positivo (z = 2.71).

El P-va de 0.013, tanto no ajustados como ajustados para empates, indicando que se puede rechazar la hipótesis nula en a un nivel de significancia de 0,05.

Prueba de Kruskal-Wallis: Crecimiento vs. Tratamiento

Prueba de Kruskal-Wallis en Crecimiento

Clasificación

Tratamiento N Mediana del promedio Z

1 5 13.20 7.7 -0.45

2 5 12.90 4.3 -2.38

3 6 15.60 12.7 2.71

General 16 8.5

H = 8.63 GL = 2 P = 0.013

H = 8.64 GL = 2 P = 0.013 (ajustados para los vínculos)

Page 52: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 51

CAPÍTULO QUINTO

PRUEBAS DE CONTROL

Page 53: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 52

5.1 Introducción

no de los principales parámetros a verificar en la validación de un método analítico es la exactitud de los resultados proporcionados por dicho método. La exactitud, suma de la veracidad y la precisión, se comprueba asegurando la

trazabilidad de los resultados proporcionados por el método analítico a una referencia. Por lo tanto, comparándonos a una referencia podemos saber si somos trazables a la referencia utilizada en el momento de la comparación. Pero la comparación a una referencia, como por ejemplo pueden ser los materiales de referencia certificados (MRC) o los ejercicios interlaboratorio, no se efectúa de una forma rutinaria en el laboratorio, y pueden pasar meses entre la comparación entre dos referencias. Por lo tanto, los laboratorios de análisis necesitan algún tipo de herramienta para asegurar sistemáticamente la trazabilidad de los resultados que proporcionan. Una de las herramientas más utilizadas son los gráficos (o cartas) de control.

Una gráfica de control es una comparación gráfica de los datos de desempeño de proceso con los “límites de control estadístico” calculados, dibujados como rectas limitantes sobre la gráfica. Los datos de desempeño de proceso por lo general consisten en grupos de mediciones que vienen de la secuencia normal de producción y preservan el orden de los datos.

Figura 5.1. Forma básica del Gráfico de Control de Shewhart

5.2 Construyendo los Gráficos de Control

Los gráficos para el control de productos industriales fueron desarrollados inicialmente por W. Shewhart en 1931, con el principal objetivo de investigar si un proceso se encuentra bajo control estadístico. El elemento clave en los gráficos de control es la muestra de control, que nos servirá para construir el gráfico y monitorizar el estado del procedimiento analítico. Esta muestra, que tiene que ser estable con el tiempo, puede ser:

U

Page 54: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 53

- Una sustancia patrón. - Una muestra sintética adicionada. - Un material de referencia o un material de referencia certificado. - Una muestra real.

En la mayoría de estos tipos de muestras el valor de la concentración o propiedad que

deseamos monitorizar ya nos viene dado (en las sustancias patrón, materiales de referencia o materiales de referencia certificados), o bien lo conocemos de una forma muy exacta (en el caso de muestras sintéticas fortificadas). Pero en el tipo de muestras de control más utilizado (una muestra real), desconocemos este valor de la concentración o propiedad a controlar. En este tipo de muestras la estimación de la concentración o propiedad a monitorizar se debe llevar a cabo analizando la muestra de control con nuestro método analítico una vez hemos acabado de verificar la trazabilidad del mismo.

El fundamento de los gráficos de control se basa en la asunción de la normalidad de los

resultados de medida: cuando se lleva a cabo algún proceso (por ejemplo, un método de análisis) de forma sistemática, es decir, bajo las mismas fuentes de influencia o variación, el proceso se verá afectado por errores aleatorios que conducirán a una distribución normal de los resultados. Esta afirmación es una consecuencia del teorema del límite central. Se dirá que el método analítico está bajo control si los resultados obtenidos con este método siguen las características de una distribución normal.

En la construcción de un gráfico de control podemos distinguir las siguientes etapas: 5.2.1 Etapa preliminar

En esta etapa se obtienen los resultados iniciales con la muestra de control. En el caso de utilizar una muestra real, se debería comprobar la normalidad y la presencia de resultados discrepantes y su eliminación. Con los resultados iniciales de la muestra de control se establece el valor de la línea central. Este valor debería obtenerse con un mínimo de 15-30 análisis de la muestra de control. Los diferentes límites suelen establecerse a una distancia del valor central ± 2s (línea de aviso), y a una distancia del valor central ± 3s (línea de control). Estas líneas pueden observarse en la figura siguiente:

Figura 5.2. Líneas de aviso y de control en una gráfica de control

Page 55: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 54

Los límites de aviso y de control situados a unas distancias de ± 2s y ± 3s respectivamente, pueden construirse utilizando los valores 2 y 3 cuando el valor promedio de la muestra de control ha sido encontrado con un número suficientemente grande de repeticiones (alrededor de 30). En este caso se asume que se conocen los valores reales de los parámetros (promedio y desviación estándar). Si se tienen menos repeticiones, se aconseja considerar que los valores reales de estos parámetros son desconocidos, y se deben efectuar correcciones sobre la asunción de distribución normal. Esto implica utilizar valores tabulados (ver por ejemplo, en lugar de los valores 2 y 3. Normalmente un laboratorio empieza considerando como desconocidos los valores de los parámetros, hasta que se han recogido suficientes datos como para poder considerar estos parámetros como conocidos. 5.2.2 Etapa de control

En esta etapa se representan frente al tiempo los diversos resultados de la muestra de

control con el objetivo de detectar tendencias y situaciones fuera de control.

5.3 Gráficas de Control X y R

Las cartas de control X y R se usan ampliamente para monitorear la media y la variabilidad. El control del promedio del proceso, o nivel de calidad medio, suele hacerse

con la gráfica de control para medias, o gráfica X . La variabilidad de proceso puede monitorizar con una gráfica de control para el rango, llamada gráfica R. Generalmente, se

llevan gráficas X y R separadas para cada característica de la calidad de interés. 5.4 Construcción de las Gráficas de Control

5.4.1 Gráficas de Control X

En estas gráficas se representan, en función del tiempo, el valor medio de un cierto número de determinaciones llevados a cabo en una sesión de trabajo sobre un material de control. El gráfico consta de un eje vertical de concentración y un eje horizontal de tiempo (o número de orden de las series). Las líneas de aviso y de control están dados por los límites de confianza al 95 % y 99,7 % respectivamente.

Líneas de Aviso (límites al 95 %): Líneas de Control (límites al 99,7 %):

Donde es la capacidad del proceso, que es la desviación estándar sobre un tiempo de periodo largo, llega a ser conocida por la experiencia. Cuando el número de valores disponible de cada grupo es reducido, una posibilidad consiste en utilizar el recorrido R, es

decir, la diferencia del más alto y el más bajo de cada grupo. El promedio R permite

realizar una estimación del valor :

2x

n

3x

n

Page 56: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 55

1

R

d 1

2,

1i i

i n

R x xn

en donde d1 es un parámetro que depende del número de grupos de datos utilizados para

calcular R y del número de valores de cada grupo:

Tabla 5.1. Valores de d1 en la estimación de

Valores por grupos

N° de grupos

1 3 5 10 ∞ 2 3 4

1.41 1.91 2.24

1.23 1.77 2.12

1.19 1.74 2.10

1.16 1.72 2.08

1.13 1.69 2.06

5.4.2 Gráficas de Control R

Cuando se dispone de dos determinaciones del material en cada grupo, o pocas medidas, se utiliza los recorridos R. En este caso el valor central será el recorrido

promedio R de los recorridos de cada grupo. Los límites se obtienen multiplicando R por unos factores estadísticos:

Línea de aviso inferior: R w1 Línea de aviso superior: R w2 Línea de acción inferior: R a1 Línea de acción superior: R a2

Tabla 5.2. Tabla de valores de w y a para el cálculo de los límites en las

Gráficas de Control R

Valores por grupos

Líneas de aviso Líneas de control w1 w2 a1 a2

2 3 4 5

0.039 0.179 0.289 0.365

2.809 2.179 1.935 1.804

0 0 0 0

3.267 2.575 2.282 2.115

5.5 Casos Fuera de Control

La confirmación sobre si el sistema se encuentra bajo control estadístico se obtiene mediante la observación visual del gráfico de control: si los puntos representados en el gráfico se encuentran distribuidos de una forma aproximadamente aleatoria, se dice que el sistema se encuentra bajo control estadístico.

Algunos cambios en el procedimiento analítico que podemos detectar con los gráficos de control. Se considera que el procedimiento analítico se encuentra fuera de control, o que ha cambiado significativamente, cuando hay:

Page 57: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 56

1 punto más allá de la zona de control: se estima que la probabilidad de que pase esto es suficientemente baja (de hecho es inferior al 0.3%) como para sospechar que el sistema está fuera de control.

2 de 3 puntos consecutivos en la zona de control: similar al caso anterior, ya que la probabilidad de que esto suceda es inferior al 0.0625%.

6 puntos consecutivos en línea ascendente o descendente: se considera que el sistema sigue una tendencia no aleatoria.

9 puntos consecutivos a un lado de la línea central (ya sea por encima de ella o por debajo): este caso suele constituir un desplazamiento del promedio o del valor central, generalmente debido a un cambio significativo en el sistema.

14 puntos consecutivos alternando arriba o abajo: fenómeno cíclico o series temporales.

15 puntos consecutivos en la zona de control: esto implica una mejora de la precisión y una menor desviación estándar asociada. Se tendrían que volver a recalcular los límites de aviso y de control.

4 de 5 puntos consecutivos en la zona de aviso o más allá. 8 puntos consecutivos por encima y por debajo de la zona de control: 2

poblaciones diferentes. Gráficos de los casos fuera de control:

Page 58: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 57

5.6 Gráficos de sumas acumuladas (CUSUM) Los gráficos de sumas acumuladas o gráficos cusum, son mas sensibles que los gráficos

de Shewhart en la detección de las situaciones de falta de control del proceso, sin incrementar por ello el riesgo de falsas alarmas.

Se representa, respecto al tiempo o al número de observaciones, la suma de las

sucesivas diferencias entre los resultados obtenidos y el valor de referencia. Una diferencia de la Gráfica Cusum con la de Control se muestra:

Figura 5.4. Gráfica de Control y CUSUM de una misma serie de datos.

Page 59: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 58

Ejercicio 1

Con el objeto de controlar los valores medios de resultados obtenidos al analizar el contenido de cromo en aguas residuales de una empresa, se pretende establecer un gráfico de control de valores medios. Para establecer los límites de dicho diagrama, se analiza una muestra de control por duplicado por 25 días consecutivos (Tabla 1), además se obtienen datos para la fase de control rutinario (Tabla 2).

Tabla 1 Tabla 2

Fase de Preparación Fase de Preparación

Serie Análisis 1 Análisis 2 Serie Análisis 1 Análisis 2

1 22.3 24.7 1 22.2 24.8

2 21.3 20.2 2 21.1 20.2

3 22.4 23.9 3 22.4 24.9

4 23.8 21.3 4 21.8 23.3

5 23.3 24.9 5 20.3 24.9

6 24.7 22.1 6 24.6 23.1

7 20.3 20.7 7 22.3 20.6

8 22.6 24.1 8 25.1 24.1

9 24.9 23.7 9 20.9 23.2

10 21.7 22.5 10 21.7 24.9

11 25.1 23.1 11 25.1 20.1

12 23.9 23.5 12 23.9 23.5

13 24.1 22.3 13 22.6 22.3

14 22.6 23.4 14 23.4 22.6

15 24.3 23.2 15 24.3 24.3

16 21.6 23.7

17 22.1 22.4

18 23.9 22.5

19 24.2 24.9

20 23.5 21.8

21 21.5 23.3

22 20.7 22.5

23 21.9 22.1

24 24.3 23.2

25 23.2 21.9

Page 60: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 59

CAPÍTULO SEXTO

REGRESIÓN LINEAL

Page 61: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 60

6.1 Introducción

La mayoría de métodos analíticos contemplan una etapa de calibración analítica. En esta etapa se relaciona la respuesta instrumental con la propiedad que se está buscando, generalmente la concentración del analito o analitos de interés, normalmente mediante un modelo de línea recta. Generalmente esta etapa suele ser la etapa final del método analítico. Abordaremos el tema de la calibración analítica mediante el modelo de línea recta, y veremos algunas estrategias para asegurar que el modelo de línea recta es correcto y adecuado a nuestras necesidades. 6.2 Modelo de Regresión Lineal

El modelo de línea recta es el modelo más usado en calibración analítica, en parte debido a su soporte teórico en algunas aplicaciones analíticas (por ejemplo, la ley de Lambert-Beer), en parte debido a su simplicidad. El modelo de línea recta consiste en encontrar la recta de calibrado que mejor se ajuste a una serie de n puntos experimentales, donde cada punto se encuentra definido por una variable x (variable independiente, generalmente concentración del analito de interés) y una variable y (variable dependiente, generalmente respuesta instrumental). La recta de calibrado se encuentra definida por una ordenada en el origen (b) y una pendiente (m), a través de la ecuación: Y = a + b X

El problema de la calibración analítica se reducirá a encontrar las estimaciones de los coeficientes de la recta de calibrado (ordenada en el origen, a y pendiente, b), y a asegurar que la recta encontrada se ajusta correctamente a los puntos experimentales (es decir, asegurar que no hay falta de ajuste). El método más universalmente empleado para encontrar los coeficientes de la recta de calibrado es el método de mínimos cuadrados. Este método busca la recta de calibrado que haga que la suma de los cuadrados de las distancias verticales entre cada punto experimental y la recta de calibrado sea mínima. A la distancia vertical entre cada punto experimental y la recta de calibrado se le conoce como residual.

De esta manera, las estimaciones de la ordenada en el origen y la pendiente se

obtienen con las siguientes expresiones:

Donde x e y corresponden, respectivamente, al valor medio de las coordenadas x e y

de los n puntos experimentales. En la siguiente figura se puede observar una recta de calibrado para un conjunto de 5 puntos experimentales (n=5), junto con los residuales para cada punto experimental.

1

2

( )( )

( )

n

i i

i

i

x x y y

bx x

a y bx

Page 62: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 61

Figura 6.1. Puntos experimentales y sus residuales en la recta de regresión lineal 6.3 Requisitos para la Regresión Lineal

A pesar de ser el método de calibración lineal más ampliamente utilizado, rigurosamente sólo debería ser posible emplear el método de mínimos cuadrados si se cumplen las siguientes condiciones: La incertidumbre asociada a la respuesta instrumental de cada punto experimental ha

de ser mucho mayor que la incertidumbre asociada al correspondiente valor de concentración. Esta condición se suele cumplir en la mayoría de los casos.

La incertidumbre asociada a la respuesta instrumental (estimable por ejemplo

mediante repeticiones) debe tener un valor constante a lo largo de todo el intervalo de linealidad (lo que se conoce como homoscedasticidad).

Los errores aleatorios asociados a la respuesta instrumental deben ser mutuamente

independientes. En la práctica esto implica que las soluciones patrón utilizadas para construir la recta de calibrado deben prepararse de forma independiente, a partir de una o varias soluciones madre.

6.4 Validación del modelo lineal Para calcular las varianzas y los límites de confianza de los parámetros a y b, y de las predicciones de x realizadas con el mismo modelo se deben cumplir las siguientes condiciones: 6.4.1 Cálculo del coeficiente de correlación

Es un parámetro cualitativo, adimensional, que nos da una idea primaria sobre la bondad del modelo lineal; mide “el grado de linealidad”, o “porcentaje de la variación en y

Y

X

(x1,y1) (x2,y2)

(x3,y3) (x4,y4)

(x5,y5)

Residual

Page 63: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 62

que puede explicarse por variación en x”. En la práctica analítica, las gráficas de calibración proporcionan frecuentemente valores numéricos de r >0,99. Este se determina:

6.4.2 Gráfico de residuales Los residuales (diferencia entre el valor de la señal real “y” y el valor de la señal pronosticado por la línea recta “ŷ” para cada valor x). Un gráfico de residuales no es nada más que una representación de la concentración de los patrones respecto a su valor residual; la linealidad se confirma si hay distribución aleatoria de los residuos alrededor de la línea recta (normalidad de los residuos) y si son homocedásticos (tienen varianzas iguales).

Figura 6.2. Análisis gráfico de residuales y su interpretación. 6.4.3 Análisis de la Varianza (ANOVA)

En aquellos casos donde se requiera una herramienta estadística más rigurosa para asegurar la validez de la recta de calibrado, se puede utilizar el análisis de la varianza, desde un punto de vista práctico, la principal desventaja de la utilización del ANOVA para comprobar la validez de una recta de calibrado es que ésta requiere replicados de cada punto experimental (2 como mínimo), por lo que el trabajo y el tiempo de análisis se puede alargar considerablemente.

De esta forma, la variabilidad total de la muestra se puede descomponer en la

variabilidad explicada por el modelo de regresión y la variabilidad residual:

x x

x x

0

0

0

0

e

e

e

e

Linealidad y homocedasticidad Linealidad y heterocedasticidad

No linealidad y homocedasticidad No linealidad y heterocedasticidad

1

2 2

( )( )cov( , )

( ) ( )

n

i i

i

x yi i

x x y yx y

rs s x x y y

Page 64: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 63

SCtotal = SCmodelo + SCresidual

Donde: 2

total iSC y y

2

modˆ

elo iSC y y

2

ˆresidual i iSC y y

Se hace una prueba F para comprobar si SCmodelo es significativamente mayor que el

SCresidual, una prueba positiva indica que los datos se ajustan al modelo lineal. 6.5 Incertidumbre de los Coeficientes de Regresión

Como se acepta que todo el error recae sobre la ordenada, la varianza de los residuales en el proceso de regresión de y sobre x se calcula del mismo modo que cualquier otra varianza:

Desviación estándar de los residuos /y xs :

Desviación estándar del intercepto sa y de la pendiente sb: Los límites de confianza para la ordenada en el origen se tiene: LC (a) = a + t sa

t se lee de la Tabla de Student de dos colas, para un nivel de significancia dado y (n-2) grados de libertad. Para la pendiente: LC (b) = b + t sb

t también se lee de la Tabla de Student de dos colas, para un nivel de significancia dado y (n-2) grados de libertad.

Cuando se hace uso de la recta de regresión obtenida con n puntos para predecir un valor xo a partir de la media de m réplicas de yo, la varianza de predicción sxo: Los límites de confianza se calcula: t se lee en la tabla de Student de dos lados para (m+n-3) grados de libertad.

2/12

/2

ˆ

n

yy

s i

i

xy

2/1

2

2

/

i

i

i

i

xyaxxn

x

ss2/1

2

/

i

i

xy

b

xx

ss

2

/2

222

1 1 oy x

xo

i

y yss

b m n b x x

( ) xoo o

tsLC x x

m

Page 65: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 64

6.6 Límite de detección

Cuando las mediciones se realizan en niveles bajos del analito por ejemplo, en el análisis de trazas, es importante saber cuál es la mínima concentración del analito que se pueden detectar confiablemente mediante el método. El límite de detección (LDD) se puede definir como “la mínima concentración de analito que se puede detectar en una muestra, pero no necesariamente cuantificar bajo las condiciones estipuladas para el ensayo". El valor de yLDD se obtiene mediante la siguiente ecuación: yLDD = yBk + k sBk

Donde yBk es la media de las medidas de blancos, sBk es la desviación estándar de las medidas de blancos y k es un factor numérico escogido de acuerdo con el nivel de confianza deseado. Recomendaciones de organismos públicos sugieren un valor de k=3.

En la práctica los términos yBk y sBk se determinan cuando se utiliza una recta de regresión convencional para la calibración. Se utiliza sy/x en lugar de sBk e yBk como el intercepto de la recta. Luego el LDD es la concentración que corresponde a y en la recta.

El "límite de cuantificación" (LDC) es estrictamente la mínima concentración del analito que se puede determinar con un nivel aceptable de precisión (repetibilidad) y exactitud bajo las condiciones estipuladas para el ensayo. De igual manera, varias convenciones lo definen como la concentración del analito correspondiente a una señal (yLDC) al valor del blanco (yBk) más 5, 6 ó 10 desviaciones estándar de la media de blancos (sBk). También se le conoce algunas veces como límite de determinación. El LC es un valor indicativo y normalmente no debe usarse para tomar decisiones. yLDD = yBk + 10 sBk Ejercicio 1

Analizar la linealidad y los parámetros de regresión de los siguientes resultados de los experimentos de fluorescencia:

Concentración

( g/mL)

Intensidad de Fluorescencia

0 2 4 6 8

10

0.1 8.0

15.7 24.2 31.5 33.0

Calcule también para una muestra que por triplicado da una fluorescencia de 25.8, sus

límites de confianza de la predicción por uso de la recta de regresión.

Page 66: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 65

Ejercicio 2

El nivel de plomo de diez muestras de jugo de fruta se determinó por un nuevo método de análisis potenciométrico de redisolución (APR) empleando un electrodo de trabajo de carbono vítreo, y los resultados fueron comparados con los obtenidos mediante la técnica de espectrometría de absorción atómica de llama (EAA). Se obtuvieron los

siguientes datos (todo los resultados en g/L).

Muestra EAA APR

1 35 35

2 75 70

3 75 80

4 80 80

5 125 120

6 205 200

7 205 220

8 215 200

9 240 250

10 350 330

Page 67: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 66

REFERENCIAS BIBLIOGRÁFICAS

1. Estadística y Quimiometría para Química Analítica. James N. Millar y Janes C. Millar.

2002.

2. Garantía de la Calidad en los Laboratorios Analíticos, Ramón Compañó y Ángel Ríos,

Editorial Síntesis, 2002.

3. Quimiometría, Carlos Mongay Fernández, Universitat de Valencia, 2005.

4. Statistical Methods in Analytical chemistry. Peter C. Meier and Richard E. Zund, Second

Edition, Vol 13. 2000.

5. Quimiometría: Métodos estadísticos aplicados en el laboratorio y al diseño

experimental, Isabel Llatas Salvador, Departamento de Procesos y Sistemas. Septiembre

2004.

6. Quality Assurance and Quality Control in the Analytical Chemical Laboratory, Piotr

Konieczka and Jacek Namiesnick, CRC Press, 2009.

Page 68: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 67

ANEXOS

ANEXO 1: Valores críticos del Test de Student

Page 69: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 68

ANEXO 2: Valores críticos del Test de Q de Dixon

Page 70: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 69

ANEXO 3: Valores críticos del Test de Cochran

Page 71: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 70

Anexo 4. Valores críticos del Test de Grubbs

Page 72: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 71

Anexo 5. Tabla F para un ensayo de una cola a = 0,05

Anexo 6. Tabla F para un ensayo de dos colas a = 0,05

Page 73: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 72

Page 74: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 73

Page 75: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 74

Page 76: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 75

Page 77: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 76

Page 78: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 77

Page 79: Manual Minitab Para El Curso

Tratamiento Estadístico de Datos Químicos Utilizando Minitab

Mg. Christian Jacinto H. 78