Statistics

Intervalos de confianza: Técnicas estadísticas

por Liz Roth-Johnson, Ph.D.

Es posible que no piense en la elaboración de cerveza como una actividad científica, pero considere cuántas variables deben controlarse cuidadosamente para elaborar de manera reproducible la misma cerveza con la apariencia, el sabor y el aroma correctos. Pequeñas diferencias en la calidad de los ingredientes crudos, la temperatura de la infusión o la forma precisa en que los microorganismos descomponen los azúcares para producir alcohol pueden tener efectos notables en la bebida final. Si estuviera administrando una cervecería y necesitara enviar al mercado una cerveza elaborada de manera constante, ¿se contentaría con dejar todas estas diferentes variables de elaboración al azar?

Debido a la naturaleza complicada de la elaboración de la cerveza, las empresas cerveceras tienen una larga historia de emplear científicos para ayudarles a analizar y perfeccionar sus cervezas. En 1901, la fábrica de cerveza Guinness en Dublín, Irlanda, estableció su primer laboratorio de investigación oficial. Guinness empleó a varios científicos jóvenes como fabricantes de cerveza. Estos científicos convertidos en cerveceros aplicaron rigurosos enfoques experimentales y técnicas analíticas al proceso de elaboración de la cerveza (Figura 1).

Guinness2
El proceso de elaboración de la cerveza es una actividad sorprendentemente científica. La Cervecería Guinness fundó su primer laboratorio de investigación en 1901 y contrató a un joven científico que tuvo un impacto duradero en el campo de la estadística.image © Morabito92

Para ver cómo podría haber sido esto, imaginemos un escenario en el que uno de los cerveceros científicos de Guinness está trabajando en un nuevo procedimiento de control de calidad. Él (como la gran mayoría de los trabajadores de la cerveza en ese momento eran hombres) está registrando una variedad de medidas cuantitativas para usarlas como puntos de referencia durante todo el proceso de elaboración.

Hoy está analizando un conjunto de medidas de densidad tomadas el décimo día de elaboración de cinco lotes diferentes del mismo tipo de cerveza (Figura 2). A partir de este conjunto de datos, al cervecero le gustaría establecer un rango de medidas de densidad que se pueden usar para evaluar la calidad de todos los lotes de cerveza futuros en el décimo día de elaboración.

Beer chart2
Figura 2: Mediciones de la densidad de la cerveza registradas para cinco lotes del mismo tipo de cerveza en el décimo día de elaboración. La densidad de la cerveza se informa como gravedad específica, que es la densidad de la cerveza dividida por la densidad del agua. La gravedad específica se mide típicamente con un hidrómetro, como se muestra a la derecha. Cuanto más alto flota el hidrómetro, mayor es la densidad del fluido que se está probando.image © Schlemazl (hydrometer)

Como veremos en este módulo, el análisis del cervecero se beneficiaría enormemente de las técnicas de inferencia estadística. Al estudiar un procedimiento como la elaboración de cerveza, la población estadística incluye todas las posibles observaciones del procedimiento en el pasado, presente y futuro. Debido a la impracticabilidad de estudiar a toda la población, el cervecero debe utilizar una submuestra más pequeña, como los datos presentados anteriormente, para hacer inferencias sobre toda la población. Aquí destacaremos cómo se puede utilizar una técnica, el intervalo de confianza, para estimar un parámetro de un conjunto de datos de submuestra. (Para revisar la relación entre submuestras y poblaciones, o para obtener más información sobre la estadística inferencial en general, consulte Introducción a la estadística inferencial ).

En busca de la infusión perfecta

Las historias de la ciencia y la cerveza están sorprendentemente entrelazadas. Antes del desarrollo de la ciencia moderna, los cerveceros antiguos experimentaron mediante prueba y error, probando diferentes combinaciones de ingredientes y condiciones de elaboración para elaborar bebidas sabrosas. En siglos posteriores, se produjeron varios avances científicos importantes en relación con la elaboración de la cerveza. Por ejemplo, James Prescott Joule realizó algunos de sus experimentos de termodinámica clásicos en la fábrica de cerveza de su familia, donde tuvo acceso a termómetros de alta calidad y otros equipos útiles (consulte Energy : Introducción y Termodinámica I ); el bioquímico Sören Sörensen inventó la escala de pH mientras trabajaba para Carlsberg, una empresa cervecera danesa (consulte Ácidos y bases: una introducción ); y una de las herramientas más utilizadas en la estadística inferencial fue desarrollada por William Sealy Gosset, un químico que trabaja para Guinness.

Identificar la relación entre una submuestra y una población es un concepto clave en el corazón de las estadísticas ^ ~ inferenciales. Sin embargo, a principios del siglo XX, los estadísticos no diferenciaron entre estadísticas de submuestra y parámetros de población. Karl Pearson, uno de los grandes estadísticos de la época, trabajaba típicamente con submuestras tan grandes que cualquier diferencia entre las estadísticas de submuestra y los parámetros de población sería, en teoría, insignificante. Pero esto planteó un problema para Gosset, que necesitaba una forma de seleccionar las mejores variedades de cebada para usar en la cerveza Guinness, analizando solo submuestras muy pequeñas de datos recopilados de la granja. Después de pasar un año estudiando con Pearson, Gosset desarrolló una nueva herramienta matemática que podría usarse para estimar la media de una población basada en una pequeña submuestra. Debido a que la junta directiva de Guinness estaba ansiosa por proteger los secretos de la empresa, Gosset publicó su ^ ~ trabajo en 1908 bajo el seudónimo de "Estudiante".

La herramienta matemática de Gosset, ahora conocida como "distribución t de Student", se ha convertido en un componente importante de varias técnicas de estadística inferencial utilizadas en ciencia, incluida la construcción de un intervalo de confianza. La distribución t de Student es una distribución de probabilidad similar a una distribución normal pero con colas más pronunciadas (Figura 3). La distribución t se puede utilizar para ayudar a estimar la media de una población cuando el tamaño de la submuestra es pequeño y se desconoce la desviación estándar de la población. Si bien es probable que la media de una submuestra muy grande se acerque a la media de la población, las submuestras pequeñas pueden ser más impredecibles. La distribución t explica la incertidumbre inherente asociada con submuestras pequeñas al asignar menos probabilidad a los valores centrales de la distribución y más probabilidad a los valores extremos en las colas. Cuanto más grande se vuelve una submuestra, más se parece la distribución t a una distribución normal; la decisión de utilizar una distribución t se basa en el supuesto de que la población subyacente se distribuye normalmente.

T distribution
Figura 3: La distribución t de Student es similar a una distribución normal, pero tiene colas más pronunciadas cuando los tamaños de las submuestras son pequeños. Se muestran cuatro distribuciones t diferentes en diferentes tonos de azul, cada una de las cuales corresponde a un tamaño de submuestra diferente (N). Observe cómo la distribución t se acerca a una distribución normal (mostrada en rojo) a medida que los grados de libertad (es decir, el tamaño de la muestra) se vuelven más grandes.

Poco después de la publicación del artículo original de Gosset, Ronald Fisher (cuyo propio ^ ~ trabajo se destaca en Statistics in Science ) desarrolló y aplicó el ^ ~ trabajo. En particular, Fisher definió una métrica llamada "puntuación t" (o estadística t). Como veremos en un momento, esta puntuación t puede usarse para construir un intervalo de confianza, especialmente cuando los tamaños de las submuestras son pequeños. En 1937, el matemático y estadístico polaco Jerzy Neyman se basó en este ^ ~ trabajo e introdujo formalmente el intervalo de confianza más o menos como lo utilizan los científicos de hoy.

Punto de Comprensión

La herramienta matemática desarrollada por Gosset se denominó distribución t de Student porque

¿Confianza en qué, exactamente?

Los intervalos de confianza utilizan estadísticas de submuestra como la media y la desviación estándar para estimar un parámetro subyacente, como la media de una población. Como sugiere el nombre, los intervalos de confianza son un tipo de estimación de intervalo, lo que significa que proporcionan un rango de valores en los que se cree que se encuentra un parámetro. Este rango refleja la incertidumbre relacionada con la estimación, que está determinada en gran medida por un nivel de confianza seleccionado al comienzo del análisis. Cuanto mayor sea el nivel de confianza, menos incertidumbre se asocia con la estimación. Por ejemplo, un intervalo de confianza calculado al nivel de confianza del 95% se asociará con menos incertidumbre que un intervalo de confianza calculado al nivel de confianza del 50%.

Un error común es que el nivel de confianza representa la probabilidad de que el parámetro estimado se encuentre dentro del rango de cualquier intervalo de confianza en particular. Este concepto erróneo puede llevar a suposiciones falsas de que el intervalo de confianza en sí mismo proporciona alguna medida intrínseca de precisión o certeza sobre la ubicación del parámetro estimado. De hecho, el nivel de confianza representa el porcentaje de intervalos de confianza que deberían incluir el parámetro de población si se calcularon múltiples intervalos de confianza a partir de diferentes submuestras extraídas de la misma población.

Para pensar en lo que realmente significa ^ ~, imaginemos que usted es un científico ambiental que estudia la escorrentía química de una fábrica local. Ha detectado plomo en un estanque cerca de la fábrica y desea saber cómo ha afectado el plomo a una pequeña población de 25 ranas que viven en el estanque. Aunque le gustaría analizar la población completa de 25 ranas, solo tiene cinco kits de análisis de plomo con usted. Debido a esto, solo puede probar una submuestra aleatoria de cinco ranas y luego usar sus datos para hacer inferencias sobre toda la población. Después de recolectar y analizar muestras de sangre de cinco ranas al azar, obtiene los siguientes resultados:

Submuestra n. ° 1
Rana # Plomo en sangre (µg / dL)
1 10.3
2 12.5
3 9,7
4 5.6
5 14.5
Media = 10,5 µg / dL
^ ~ Desviación ^ ~ estándar = 3,3 µg / dL
95% ^ ~ confianza ^ ~ intervalo = 10,5 ± 4,2 µg / dL

Con este conjunto de datos de submuestra, calcula un intervalo de confianza con un nivel de confianza del 95%. Con base en esta estimación de intervalo, se siente razonablemente seguro de que la media de la población (en este caso, el nivel promedio de plomo en la sangre de las 25 ranas en este estanque) se encuentra entre 6.4 y 14.7 ug / dL, pero ¿qué pasaría si usted repitió todo este proceso de nuevo? Supongamos que regresa al mismo estanque, recolecta dos submuestras aleatorias más de la misma población de 25 ranas y encuentra los siguientes resultados:

Submuestra #2
Rana # Plomo en sangre (µg/dL)
1 12.9
2 12.9
3 15.8
4 10.7
5 16.9
Media = 13.8 µg/dL
Standard desviación = 2.5 µg/dL
95% intervalo de confianza = 13.8 ± 3.1 µg/dL
Submuestra #3
Rana # Plomo in Sangre (µg/dL)
1 16.9
2 5.6
3 11.0
4 12.9
5 3.7
Media = 10.0 µg/dL
desviación estandar = 5.4 µg/dL
95% intervalo de confianza = 10.0 ± 6.7 µg/dL

Aunque las tres submuestras se extrajeron aleatoriamente de la misma población, generan tres estimaciones diferentes del intervalo de confianza del 95% para la media de la población (Figura 4). Quizás lo más notable sea la diferencia de tamaño entre los tres intervalos de confianza. La submuestra 3, por ejemplo, tiene un intervalo de confianza mucho mayor que cualquiera de las otras dos muestras. La submuestra 3 también tiene la mayor variación, o dispersión, entre sus cinco puntos de datos, que se cuantifica por su desviación estándar particularmente grande. Una mayor variación dentro de una submuestra conduce a un mayor ^ ~ grado de incertidumbre durante el proceso de estimación ^ ~. Como resultado, el rango de un intervalo de confianza u otra estimación estadística será mayor para una muestra más variada en comparación con una muestra menos variada, incluso cuando ambas estimaciones se calculan con el mismo nivel de confianza.

Error bars_confidence
Figura 4: Diferentes submuestras generan diferentes intervalos de confianza, incluso cuando se seleccionan al azar de la misma población. Cada intervalo de confianza de submuestra está representado por barras de error negras. En este caso, las submuestras 1 y 3 generan intervalos de confianza que incluyen la media poblacional (10,1 ug / dL), mientras que la submuestra 2 no. En el nivel de confianza del 95%, esperaríamos que 95 de cada 100 submuestras extraídas de la misma población generaran un intervalo de confianza que incluye el parámetro de población de interés.

Dado que este es un ejemplo ilustrativo, resulta que conocemos los parámetros reales para toda la población de 25 ranas, un lujo que normalmente no tendríamos en este tipo de situación. La media poblacional que hemos estado tratando de estimar es de hecho 10,1 µg / dL. Observe que el intervalo de confianza de la segunda submuestra, a pesar de estar en el nivel de confianza del 95%, no incluye la media de la población (Figura 4). Si tuviera que recopilar 100 submuestras aleatorias diferentes de la misma población de ranas y luego calcular 100 intervalos de confianza diferentes en función de cada submuestra, 95 de las 100 submuestras deberían generar intervalos de confianza que contienen el parámetro de población cuando se calculan al nivel de confianza del 95%. Cuando se calcula al nivel de confianza del 50%, se esperaría que solo 50 de las 100 submuestras generen intervalos de confianza que contengan el parámetro de población. Por lo tanto, el nivel de confianza proporciona una medida de probabilidad de que cualquier submuestra en particular genere un intervalo de confianza que contenga el parámetro de población de interés.

En la práctica, se suele pensar que los intervalos de confianza proporcionan un rango plausible de valores para un parámetro. Esto puede parecer un poco impreciso, pero un intervalo de confianza puede ser una herramienta valiosa para obtener una estimación decente de un parámetro completamente desconocido. Al comienzo del escenario de la rana anterior, no sabíamos absolutamente nada sobre el nivel promedio de plomo en la población antes de analizar cualquiera de las tres submuestras. En este caso, las tres submuestras nos permitieron reducir el valor de la media de la población de un número potencialmente infinito de opciones a un rango bastante pequeño. Si, por otro lado, hubiéramos querido identificar con precisión la media de la población, entonces el análisis no habría sido tan útil. Cuando se trata de intervalos de confianza, como con cualquier técnica de inferencia estadística, depende en última instancia de los investigadores elegir las técnicas adecuadas para usar y atribuir un significado razonable a sus datos (para obtener más información sobre cómo derivar el significado de los resultados experimentales, consulte Introducción a la estadística inferencial ).

Punto de Comprensión

Cuanto mayor sea el nivel de confianza,

Para ver cómo se construye un intervalo de confianza, usaremos el conjunto de datos de densidad del cervecero desde el comienzo del módulo (Figura 1). Este conjunto de datos nos da una submuestra con una media de 1.055 y una desviación estándar de 0.009. (Consulte Introducción a la estadística descriptiva para obtener más información sobre cómo calcular la desviación estándar y la media). Para diferenciar estas estadísticas de submuestra de los parámetros de población (donde µ representa la media de la población y σ la desviación estándar), es una práctica común utilizar las variables m y s para media de la submuestra y desviación estándar, respectivamente. El tamaño de nuestra submuestra ( N ) es 5. En los cuatro pasos siguientes, usaremos estos valores para construir un intervalo de confianza para la media poblacional para responder a la pregunta original de nuestro cervecero: ¿Cuál es la densidad promedio de esta cerveza en el décimo día de elaboración?

Paso 1: seleccione un nivel de confianza

Primero, debemos elegir un nivel de confianza para nuestro cálculo. Un nivel de confianza puede ser cualquier valor entre 0% y 100% y sin incluirlo, y proporciona una medida de la probabilidad de que nuestra estimación de intervalo incluya la media de la población. En teoría, se puede elegir cualquier intervalo de confianza, pero los científicos suelen optar por utilizar niveles de confianza del 90%, 95% o 99% en sus análisis de datos. Cuanto mayor sea el valor, mayor será el nivel de confianza y más probable es que el intervalo de confianza incluya la media real de la población. Para nuestro cálculo, elegiremos un nivel de confianza del 95%.

Paso 2: encuentre el valor crítico

El siguiente paso es encontrar el "valor crítico" que se corresponda con el tamaño de nuestra muestra y el nivel de confianza elegido. Un valor crítico nos ayuda a definir las regiones de corte para las estadísticas de la prueba elegida donde se puede rechazar la hipótesis nula. Comenzamos calculando un valor llamado alfa (α), que está determinado por nuestro nivel de confianza elegido usando la ecuación:

α = 1 confidence level 100%

Para un nivel de confianza del 95%, alfa es igual a 0,05. Ahora podemos usar nuestro tamaño de submuestra y valor alfa para usar una tabla de búsqueda o una calculadora en línea para encontrar el valor crítico. Debido a que el tamaño de nuestra submuestra es bastante pequeño ( N = 5) y no sabemos nada sobre la variación de la densidad de la cerveza entre toda la población, expresaremos nuestro valor crítico como una puntuación t. El puntaje t se puede encontrar usando una tabla de búsqueda como la que se muestra en la Figura 5. Por lo general, una tabla de búsqueda de puntaje t organizará los puntajes t según dos métricas: la "probabilidad acumulada" y los "grados de libertad". La probabilidad acumulada nos ayuda a determinar si el valor de una variable aleatoria cae dentro de un rango específico; los ^ ~ grados de libertad son el número de observaciones en una muestra que pueden variar libremente al hacer estimaciones a partir de datos de submuestra.

  • La probabilidad acumulada ( p ) se calcula usando alfa: p = 1 - α / 2. Debido a que nuestro alfa es 0.05, la probabilidad acumulada que nos interesa es 0.975.
  • Los ^ ~ grados de libertad son el tamaño de la submuestra menos uno: N - 1. Debido a que el tamaño de nuestra submuestra es 5, los ^ ~ grados de libertad son 4.

Usando la tabla de búsqueda, ahora queremos encontrar dónde nuestra probabilidad acumulada (0.975) se cruza con los ^ ~ grados de libertad (4). Como se muestra en la Figura 5, esto nos lleva a la puntuación t 2.776. Este es nuestro valor ^ ~ crítico.

tscore lookup table
Figura 5: Una tabla de búsqueda de puntuación t muestra varios valores críticos para una amplia gama de tamaños de muestra (expresados como grados de libertad o N-1) y niveles de confianza (expresados como probabilidad acumulada, p = 1 - alfa / 2) . Se destaca la puntuación t correspondiente a un nivel de confianza del 95% y un tamaño de muestra de 5.

A veces, los científicos expresan un valor crítico como una puntuación z, lo que es más apropiado cuando los tamaños de las submuestras son mucho mayores y la desviación estándar de la población ya se conoce. Tanto el puntaje t como el puntaje z ^ ~ funcionan con el supuesto de que la distribución muestral puede aproximarse razonablemente mediante una distribución normal (consulte Introducción a la distribución descriptiva Estadísticas ). Si sabe o tiene motivos para creer que el estadístico de submuestra que está analizando no se distribuye normalmente alrededor del parámetro de población, entonces no se deben usar ni el puntaje t ni el puntaje z para expresar el valor crítico.

Paso 3: Calcule el margen de error

Ahora que hemos encontrado nuestro valor crítico, podemos calcular el "margen de error" asociado con nuestra estimación de parámetros. El margen de error es un valor que nos indica el error o la incertidumbre asociados con nuestra estimación puntual. Este valor se calcula multiplicando el valor crítico con el error estándar (una estimación de la desviación estándar de una distribución de submuestra) de la media de la submuestra.

margin of error = (critical value) × (standard error of the mean)

Para una submuestra que se ha elegido mediante un muestreo aleatorio simple, el error estándar de la media de la submuestra se calcula como la desviación estándar de la submuestra ( s ) dividida por la raíz cuadrada del tamaño de la submuestra (< em> N ).

error estándar de la media = s N

En nuestro caso, el error estándar del contenido medio de azúcar es (0,009) / sqrt (5) = 0,004.

Si bien la desviación estándar y el error estándar pueden parecer muy similares, tienen significados muy diferentes. Al medir las densidades de cerveza, la desviación estándar es una estadística descriptiva que representa la cantidad de variación en la densidad de un lote de cerveza al siguiente. Por el contrario, el error estándar de la media es una estadística inferencial que proporciona una estimación de qué tan lejos es probable que esté la media de la población de la media de la submuestra.

Con nuestro error estándar de la media (0.004) y nuestro valor crítico (2.776) podemos calcular el margen de error: (0.004) (2.776) = 0.011.

Paso 4: informe del intervalo de confianza

En este punto, estamos listos para ensamblar e informar nuestro intervalo de confianza final. Un intervalo de confianza se expresa comúnmente como una estimación puntual (en este caso, la media de nuestra submuestra) más o menos un margen de error. Esto ^ ~ significa que nuestro intervalo de confianza para la densidad de la cerveza en el décimo día de elaboración es 1.055 ± 0.011 a un nivel de confianza del 95%. A veces, los científicos simplemente informarán esto como el "intervalo de confianza del 95%".

Ahora que hemos construido un intervalo de confianza, ¿qué podemos decir sobre la densidad de toda la población? Aunque todavía no conocemos la densidad media exacta de la cerveza para todos los lotes que alguna vez se han elaborado o se prepararán, podemos estar razonablemente (aunque nunca absolutamente) seguros de que la densidad media se sitúa entre 1,044 y 1,066. Por lo tanto, este es un buen rango de densidad para los cerveceros al analizar la calidad de los futuros lotes de cerveza.

Punto de Comprensión

Una tabla de búsqueda de puntajes t organiza puntajes por

Construyendo un ^ ~ intervalo de confianza con software de computadora

Con programas de computadora como Excel, se puede construir un intervalo de confianza con solo hacer clic en un botón. Todo el proceso anterior se puede completar utilizando la función CONFIDENCE.T de Excel. Esta función requiere tres valores de entrada ingresados en este orden: alfa, desviación estándar de submuestra y tamaño de submuestra (Figura 6). Luego informa el margen de error, que se puede utilizar para informar el intervalo de confianza final como media ± margen de error.

confidence_excel example
Figura 6: El margen de error para un intervalo de confianza se puede calcular fácilmente usando la función CONFIDENCE.T de Excel. Esta función requiere alfa, la desviación estándar de la submuestra y el tamaño de la submuestra.

Excel tiene una segunda función de intervalo de confianza llamada CONFIANZA.NORM (o CONFIANZA en versiones anteriores del programa) que también se puede utilizar para calcular un margen de error (Figura 7). Mientras que CONFIDENCE.T usa una distribución t para encontrar una puntuación t para el valor crítico, CONFIDENCE.NORM usa una distribución normal para encontrar una puntuación z para el valor crítico. La función CONFIDENCE.NORM se puede utilizar cuando el tamaño de la submuestra es grande y / o ya se conoce la desviación estándar de la población. En la mayoría de los casos, es más seguro utilizar la distribución CONFIDENCE.T. En este ejemplo, el tamaño de la submuestra (5) es muy pequeño y el uso de las dos funciones produce diferentes márgenes de error: 0.011 usando un puntaje t versus 0.008 usando un puntaje z. El margen de error de CONFIDENCE.T es mayor, ya que esta función representa mejor el aumento de error asociado con submuestras pequeñas.

confidence_excel 2
Figura 7: El margen de error para un intervalo de confianza también se puede calcular utilizando la función CONFIDENCE.NORM de Excel. Esta función es más apropiada para usar cuando el tamaño de la submuestra es mucho mayor y / o ya se conoce la desviación estándar de la población.

Problema de muestra

El rover Curiosity de la NASA está atravesando Marte y enviando tesoros de datos a la Tierra. Una medición importante que registra la Curiosity es la cantidad de radiación cósmica y solar que golpea la superficie de Marte (Figura 8). Mientras los humanos esperan algún día explorar el Planeta Rojo en persona, los científicos necesitarán desarrollar trajes espaciales capaces de proteger a los astronautas de niveles dañinos de radiación. Pero, ¿a cuánta radiación, en promedio, estará expuesto un futuro marciano?

Curiosity rover and radiation
Figura 8: El rover Curiosity (izquierda) usa su detector de evaluación de radiación (derecha) para registrar la exposición a la radiación de la superficie en Marte. ¿Cómo se pueden utilizar los datos recopilados por Curiosity para hacer inferencias sobre los niveles típicos de radiación a los que estaría expuesto un futuro astronauta de Marte?image © NASA/JPL-Caltech/SwRI

Desde que aterrizó en agosto de 2012, Curiosity ha estado usando su detector de evaluación de radiación para registrar la exposición a la radiación de la superficie en Marte. Un científico en el futuro está analizando estos datos y ve que ha habido un promedio de 0,67 ± 0,29 milisieverts de exposición a la radiación por día marciano. (A modo de comparación, sentarse en la superficie de Marte sería como tomar aproximadamente 35 radiografías de tórax todos los días). Este promedio se basa en mediciones de exposición a la radiación diarias registradas una vez cada cinco días marcianos durante los últimos cinco años marcianos para un total de 669 medidas individuales.

Utilice esta información para construir intervalos de confianza del 50%, 80% y 95% para la exposición media diaria a la radiación en Marte. ¿Cuáles son la submuestra y la población en este escenario? ¿Puede identificar posibles fuentes de sesgo de muestreo? (Consulte nuestro módulo Introducción a la estadística inferencial para ver una revisión de estos términos).

(Problema vagamente basado en Hassler et al ., 2014)

Solución

Debido a que estamos interesados en conocer la radiación promedio diaria en Marte, la población sería la radiación superficial total medida todos los días en Marte durante todo el tiempo que sus condiciones atmosféricas ^ ~ actuales han existido y continúan existiendo. ¡Observar esta población es claramente imposible! En su lugar, debemos analizar una submuestra para hacer inferencias sobre la radiación promedio diaria en Marte.

The subsample presented in this problem is the daily radiation exposure measured over five Martian years. This is a reasonably random subsample given that radiation exposure was recorded at equal intervals over several Martian years. Bias could have easily been introduced into the subsample if radiation exposure had only been recorded during certain seasons throughout the Martian year or if the instrument recording the radiation levels had not been properly calibrated. The fact that the subsample was collected over several years also helps account for solar fluctuations and other changes that might occur from one year to the next.

Para construir nuestros tres intervalos de confianza, podemos comenzar utilizando la media de la submuestra ( m = 0,67 mSV día-1) como una estimación puntual de la media del parámetro. Luego, podemos calcular el margen de error en Excel usando tres valores: el tamaño de la submuestra ( N = 669), la desviación estándar de la submuestra (s = 0.29) y alfa. Debido a que alfa es una función del nivel de confianza, necesitaremos calcular un valor diferente de alfa para cada intervalo de confianza:

  • alfa = 1 - (50% ÷ 100%) = 0.5 al 50% ^ ~ nivel de confianza
  • alfa = 1 - (80% ÷ 100%) = 0,2 al 80% ^ ~ nivel de confianza
  • alfa = 1 - (95% ÷ 100%) = 0.05 al 95% ^ ~ nivel de confianza

En este problema no conocemos ningún parámetro de población, por lo que usaremos la función CONFIDENCE.T en Excel. Sin embargo, debido a que el tamaño de la submuestra es tan grande (N = 669), las funciones CONFIDENCE.T y CONFIDENCE.NORM generarán casi el mismo intervalo de confianza. El uso de la función CONFIDENCE.T en Excel calcula el margen de error:

  • margen de error = 0,0076 mSV día-1 al 50% ^ ~ nivel de confianza
  • margen de error = 0.014 mSV día-1 al 80% ^ ~ nivel de confianza
  • margen de error = 0.022 mSV día-1 al 95% ^ ~ nivel de confianza

Al tomar estos cálculos junto con nuestra estimación puntual de la media del parámetro, obtenemos tres estimaciones de intervalo de confianza para la exposición media diaria a la radiación en Marte:

  • 0,67 ± 0,0076 mSV día-1 al 50% ^ ~ nivel de confianza
  • 0,67 ± 0,014 mSV día-1 al 80% ^ ~ nivel de confianza
  • 0,67 ± 0,022 mSV día-1 al 95% ^ ~ nivel de confianza

Podemos mostrar esto gráficamente trazando los intervalos de confianza como barras de error en un gráfico de barras (Figura 9). Observe cómo cambia el tamaño del intervalo de confianza para cada nivel de confianza. De los tres intervalos de confianza que acabamos de construir, el intervalo de confianza del 50% es el más pequeño, pero también está asociado con el nivel más alto de incertidumbre. Por el contrario, el intervalo de confianza del 95% es el más grande, pero está asociado con el nivel más bajo de incertidumbre. En ninguno de los casos podemos saber con certeza dónde se encuentra la verdadera media de la población, o si la media de la población se encuentra dentro del intervalo de confianza, pero podemos decir que la estimación del intervalo al nivel de confianza del 95% está asociada con un nivel más bajo. de incertidumbre que las estimaciones de intervalo a niveles de confianza más bajos.

confidence intervals sample
Figura 9: Intervalos de confianza calculados en tres niveles de confianza diferentes para la radiación media en Marte medida por el rover Curiosity. Observe cómo el tamaño del intervalo de confianza se reduce a medida que aumenta el nivel de incertidumbre asociado con la estimación del intervalo.

Entonces, ¿qué significa esto ^ ~ para nuestro futuro marciano? Con base en estos cálculos, los futuros científicos pueden avanzar con los diseños de sus trajes espaciales estando bastante seguros, aunque no absolutamente, de que la exposición diaria promedio a la radiación en la superficie de Marte, la verdadera media de la población en este escenario, cae en algún lugar dentro del intervalo de 0.67. ± 0.022 mSV día -1 .

Como todas las estadísticas inferenciales, los intervalos de confianza son una herramienta útil que los científicos pueden utilizar para analizar e interpretar sus datos. En particular, los intervalos de confianza permiten al investigador hacer afirmaciones sobre cómo un solo experimento se relaciona con una población o fenómeno subyacente más grande. Si bien la distribución t de Gosset y el intervalo de confianza de Neyman son herramientas comunes de inferencia estadística utilizadas en ciencia, es importante recordar que existen muchos otros métodos para calcular estimaciones de intervalo y extraer inferencias de submuestras experimentales. Así como el intervalo de confianza puede ser una técnica valiosa en algunas situaciones, también puede ser una herramienta analítica inútil en otras. Por ejemplo, un químico que intente medir con precisión la masa atómica de un nuevo elemento no encontraría uso para un intervalo de confianza del 95% que solo proporciona un rango de valores plausible. En tal caso, sería más apropiado un nivel de confianza mucho más estricto, o quizás una técnica estadística completamente diferente. En última instancia, al igual que con todas las inferencias estadísticas, depende del investigador utilizar las técnicas con prudencia e interpretar los datos de forma adecuada.

Resumen

Through history, important scientific advances have been made in connection with brewing beer. The module begins at the Guinness Brewery with the development of an important mathematical tool for inferential statistics. The focus of the module is confidence intervals, used when making statements about the relationship between a subsample and an entire population. Readers are shown how to construct and report a confidence interval. Topics include Student’s t-distribution, confidence level, critical value, and margin of error. Examples and a sample problem illustrate concepts introduced.

Conceptos Clave

  • Los intervalos de confianza son un tipo común de estimación de estadísticas inferenciales que se utiliza en la ciencia. Comenzando con un conjunto de datos de submuestra, un científico puede construir un intervalo de confianza que represente un rango plausible para un parámetro de población al tiempo que indica el nivel de error o incertidumbre asociado con la estimación.

  • Un nivel de confianza representa el grado de incertidumbre asociado con un intervalo de confianza. Cuanto mayor sea el nivel de confianza, menos incertidumbre se asociará con la estimación del intervalo de confianza de un parámetro de población. Aunque teóricamente se puede elegir cualquier valor entre 0% y 100%, los científicos suelen calcular intervalos de confianza en el nivel de confianza del 90%, 95% o 99%.

  • El error estándar se encuentra comúnmente cuando se utilizan estadísticas inferenciales y es necesario para calcular un intervalo de confianza. Es importante no confundir el error estándar con la desviación estándar. La desviación estándar es una estadística descriptiva que representa la cantidad de variación en una muestra, mientras que el error estándar es una estadística inferencial que representa una distancia probable entre un parámetro de población y una estadística de submuestra.

  • Referencias
  • Hassler, D.M., et al. (2013). Mars' surface radiation environment measured with the Mars Science Laboratory's Curiosity rover. Science, 343(6169): 1244797-1244797. Retrieved from: http://science.sciencemag.org/content/343/6169/1244797
  • Neyman, J. (1937). Outline of a theory of statistical estimation based on the classical theory of probability. Philosophical Transactions of the Royal Society, 236: 333-380.
  • Student. (1908). The probable error of a mean. Biometricka, 6(1): 1-25.

Liz Roth-Johnson, Ph.D. “Intervalos de confianza” Visionlearning Vol. MAT-3 (6), 2016.

Top