Introducción a la estadística descriptiva | Math in Science

¿Sabías que...?

¿Sabía que la ecuación matemática utilizada por los instructores para "calificar la curva" se desarrolló por primera vez para ayudar a los jugadores en juegos de azar? Esta es solo una de varias operaciones estadísticas utilizadas por los científicos para analizar e interpretar datos. Estas estadísticas descriptivas se utilizan en muchos campos pueden ayudar a los científicos a resumir todo, desde los resultados de un ensayo farmacológico hasta la forma en que evolucionan los rasgos genéticos a lo largo de diferentes generaciones.

Conceptos clave

Las operaciones estadísticas básicas como la media, la mediana y la desviación estándar ayudan a los científicos a resumir rápidamente las principales características de un conjunto de datos.
Una distribución normal es un tipo de distribución de probabilidad en la que la probabilidad de observar cualquier valor específico se distribuye uniformemente sobre la media del conjunto de datos. En muchas aplicaciones científicas, el error estadístico en las mediciones experimentales y la variación natural dentro de una población se aproximan como distribuciones normales.
La desviación estándar proporciona una medida de la "extensión" de un conjunto de datos, o cuánto los valores individuales en un conjunto de datos varían de la media. Esta "distribución" de datos ayuda a los científicos a resumir cuánta variación hay en un conjunto de datos o una población.

Términos que usted debe saber

estadística: el estudio matemático de los datos
conjunto de datos: una colección de mediciones y observaciones que pueden analizarse
propagación: la variación dentro de un conjunto de datos; la medida de cuánto difieren los valores individuales en un conjunto de datos de la media o promedio

Imagínese en un curso de introducción a las ciencias. Recientemente completó el primer examen y ahora está sentado en clase esperando que le devuelvan el examen calificado. El curso se calificará "en una curva", por lo que está ansioso por ver cómo se compara su puntaje con el de los demás. Su instructor finalmente llega y comparte las estadísticas del examen de la clase (consulte la Figura 1).

La puntuación media es 61.

La desviación estándar es 12.

Recibes tu examen y ves que obtuviste 72 puntos. ¿Qué significa esto en relación con el resto de la clase? Según las estadísticas anteriores, puede ver que su puntaje es más alto que la media y la mediana, pero ¿cómo se relacionan todos estos números con su calificación final? En este escenario, terminaría con una calificación con una letra "B", aunque la puntuación numérica sería igual a una "C" sin la curva.

Figura 1: Un histograma que muestra la distribución de las puntuaciones de los exámenes de los 200 estudiantes de su clase, junto con la media, la mediana y su puntuación.

Este escenario muestra cómo las estadísticas descriptivas, es decir, la media, la mediana y la desviación estándar, se pueden utilizar para resumir rápidamente un conjunto de datos. Al final de este módulo, aprenderá no solo cómo se pueden usar las estadísticas descriptivas para evaluar los resultados de un examen, sino también cómo los científicos usan estas operaciones estadísticas básicas para analizar e interpretar sus datos. Las estadísticas descriptivas pueden ayudar a los científicos a resumir todo, desde los resultados de un ensayo de un fármaco hasta la forma en que los rasgos genéticos evolucionan de una generación a la siguiente.

¿Qué son las estadísticas descriptivas?

Los científicos utilizan regularmente estadísticas descriptivas para resumir de manera sucinta las características clave de un conjunto de datos o una población. Tres operaciones estadísticas son particularmente útiles para este propósito: la media, la mediana y la desviación estándar. (Para obtener más información sobre por qué los científicos utilizan las estadísticas en la ciencia, consulte nuestro módulo Estadísticas en la ciencia ).

Media frente a mediana

La media y la mediana proporcionan medidas de la tendencia central de un conjunto de medidas individuales. En otras palabras, la media y la mediana se aproximan aproximadamente al valor medio de un conjunto de datos. Como vimos anteriormente, las calificaciones medias y medianas de los exámenes se ubicaron aproximadamente en el centro de la distribución de calificaciones.

Debido a la forma en que se calculan la media y la mediana, la media tiende a ser más sensible a los valores atípicos, valores que son dramáticamente diferentes de la mayoría de los demás valores. En el ejemplo anterior (Figura 1), la mediana cayó un poco más cerca de la mitad de la distribución de calificaciones que la media. Los 4 estudiantes que faltaron al examen y obtuvieron 0 (los valores atípicos) bajaron la media al obtener puntajes tan diferentes del resto de la clase. Sin embargo, la mediana no cambió tanto porque hubo muy pocos estudiantes que faltaron al examen en comparación con el número total de estudiantes en la clase.

Desviación estándar

La desviación estándar mide cuánto varían de la media las mediciones individuales de un conjunto de datos. En otras palabras, proporciona una medida de variación o propagación dentro de un conjunto de datos. Normalmente, la mayoría de los valores de un conjunto de datos se encuentran dentro de un rango que comprende una desviación estándar por debajo y por encima de la media. En el ejemplo anterior, la desviación estándar es 12 y la mayoría de los puntajes de las pruebas (161 de 200 estudiantes) obtuvieron entre 49 y 73 puntos en el examen. Si hubiera habido más variación en los puntajes de los exámenes, la desviación estándar habría sido aún mayor. Por el contrario, si hubiera habido menos variación, la desviación estándar habría sido menor. Por ejemplo, consideremos los puntajes de los exámenes obtenidos por los estudiantes en dos clases diferentes (Figura 2).

Figura 2: Dos distribuciones de puntuación de exámenes con diferentes desviaciones estándar. Aunque la puntuación media para ambas clases es 50, la desviación estándar o dispersión de las puntuaciones es muy diferente. La desviación estándar para la Clase A es 5 (margen pequeño), mientras que la desviación estándar para la Clase B es 15 (margen grande).

En la primera clase (Clase A - las barras de color azul claro en la figura), todos los estudiantes estudiaron juntos en un gran grupo de estudio y recibieron puntajes similares en el examen final. En la segunda clase (Clase B, representada por barras de color azul oscuro), todos los estudiantes estudiaron de forma independiente y recibieron una amplia gama de calificaciones en el examen final. Aunque la calificación media fue la misma para ambas clases (50), la Clase A tiene una desviación estándar mucho menor (5) que la Clase B (15).

Distribución normal

A veces, un conjunto de datos muestra una forma particular que se distribuye uniformemente alrededor de la media. Esta distribución se llama distribución normal. También se le puede llamar distribución gaussiana o curva de campana. Aunque las calificaciones de los exámenes no siempre se distribuyen de esta manera, la frase "calificación en una curva" proviene de la práctica de asignar calificaciones en función de una curva de campana distribuida normalmente. La Figura 3 muestra cómo las puntuaciones del examen que se muestran en la Figura 1 pueden aproximarse mediante una distribución normal. Según los estándares de calificación, la puntuación media de la prueba (61) normalmente recibiría una D-menos, ¡no una muy buena calificación! Sin embargo, la distribución normal se puede usar para "calificar en una curva" para que los estudiantes en el centro de la distribución reciban una mejor calificación, como una C, mientras que las calificaciones de los estudiantes restantes también se ajustan en función de su distancia relativa de la media. .

Historia temprana de la distribución normal

La distribución normal es una invención relativamente reciente. Mientras que el concepto de media aritmética se remonta a la antigua Grecia, la distribución normal fue introducida a principios del siglo XVIII por el matemático francés Abraham de Moivre. La ecuación matemática para la distribución normal apareció por primera vez en Doctrine of Chances de De Moivre, un trabajo que aplicó ampliamente la teoría de la probabilidad a los juegos de azar. A pesar de su aparente utilidad para los jugadores, el descubrimiento de De Moivre pasó desapercibido para la comunidad científica durante varias décadas más.

La distribución normal fue redescubierta a principios del siglo XIX ^th por astrónomos que buscaban una mejor manera de abordar los errores de medición experimentales. Los astrónomos se habían enfrentado durante mucho tiempo a un desafío abrumador: ¿Cómo se puede discernir la verdadera ubicación de un cuerpo celeste cuando sus mediciones experimentales contienen errores de instrumentos inevitables y otras incertidumbres de medición? Por ejemplo, considere las cuatro medidas que Tycho Brahe registró para la posición de Marte que se muestran en la Tabla 1:

Tabla 1: Las observaciones de Tycho Brahe de la posición de Marte como se presentan en Saul Stahl, "La evolución de la distribución normal", Revista de matemáticas 79 (abril de 2006), p. 99. Copyright 2006 Asociación Matemática de América. Reservados todos los derechos.
image ©Mathematical Association of America

Brahe y otros astrónomos lucharon con conjuntos de datos como este, sin saber cómo combinar múltiples mediciones en un valor "verdadero" o representativo. La respuesta llegó cuando Carl Friedrich Gauss derivó una distribución de probabilidad para errores experimentales en su obra de 1809 Theoria motus corporum celestium . La distribución de probabilidad de Gauss coincidía con intuiciones anteriores sobre cómo debería ser una curva de error: mostró que los errores pequeños son más probables que los errores grandes y que todos los errores se distribuyen uniformemente alrededor del valor "verdadero" (Figura 4). Es importante destacar que la distribución de Gauss mostró que este valor "verdadero", el valor más probable en el centro de la distribución, es la media de todos los valores de la distribución. Por tanto, la posición más probable de Marte debería ser la media de las cuatro medidas de Brahe.

Figura 4: Gauss derivó una distribución de probabilidad para abordar los errores inherentes que se encuentran en muchas mediciones experimentales. El valor "verdadero" (A) es el valor más probable y se encuentra en el centro de la distribución. Es más probable que se observe un valor más cercano al valor "verdadero" que un valor más alejado del valor "verdadero". Por ejemplo, es más probable que se observe el valor B, que está cerca de A, que el valor D, que está lejos de A. Además, los valores se distribuyen uniformemente alrededor del valor "verdadero". Aquí, los valores B y C, que están ambos a una distancia “x” del valor A, tienen la misma probabilidad de observarse.

Mayor desarrollo de la distribución normal

La distribución "gaussiana" ganó terreno rápidamente, gracias en parte al matemático francés Pierre-Simon Laplace. (Laplace había intentado anteriormente y no había podido derivar una curva de error similar y estaba ansioso por demostrar la utilidad de lo que Gauss había derivado).

Español

Los científicos y matemáticos pronto se dieron cuenta de que la distribución normal podría usarse como algo más que una curva de error. En una carta a un colega, el matemático Adolphe Quetelet señaló que las medidas del pecho de los soldados (documentadas en el Edinburgh Medical and Surgical Journal de 1817) tenían una distribución más o menos normal (Figura 5). El físico James Clerk Maxwell utilizó la distribución normal para describir las velocidades relativas de las moléculas de gas. Como descubrieron estos y otros científicos, la distribución normal no sólo refleja el error experimental, sino también la variación natural dentro de una población. Hoy en día, los científicos usan distribuciones normales para representar todo, desde la variación genética hasta la dispersión aleatoria de moléculas.

Figure 5: Adolphe Quetelet noticed that the frequencies of soldiers’ chest measurements reported in the 1817 Edinburgh Medical and Surgical Journal fit a normal distribution strikingly well (though not perfectly). — **Figure 5:** Adolphe Quetelet noticed that the frequencies of soldiers’ chest measurements reported in the 1817 Edinburgh Medical and Surgical Journal fit a normal distribution strikingly well (though not perfectly).

Características de la distribución normal

La ecuación matemática para la distribución normal puede parecer desalentadora, pero la distribución está definida por solo dos parámetros: la media (µ) y la desviación estándar (σ).

La media es el centro de la distribución. Debido a que la distribución normal es simétrica con respecto a la media, la mediana y la media tienen el mismo valor en un conjunto de datos ideal. La desviación estándar proporciona una medida de variabilidad, o dispersión, dentro de un conjunto de datos. Para una distribución normal, la desviación estándar define específicamente el rango que abarca el 34,1% de las mediciones individuales por encima de la media y el 34,1% de las que están por debajo de la media (Figura 6).

La forma de una distribución normal se define por la media (µ) y la desviación estándar (σ).
image ©Mwtoews

El concepto y cálculo de la desviación estándar es tan antiguo como la propia distribución normal. Sin embargo, el término "desviación estándar" fue introducido por primera vez por el estadístico Karl Pearson en 1893, más de un siglo después de que se derivara por primera vez la distribución normal. Esta nueva terminología reemplazó expresiones más antiguas como "raíz del error cuadrático medio" para reflejar mejor la utilidad del valor para resumir la variación natural de una población además del error inherente a las mediciones experimentales. (Para obtener más información sobre el cálculo de errores, consulte Estadísticas científicas y Incertidumbre, error y confianza ).

Trabajar con operaciones estadísticas

Para ver cómo se calculan la media, la mediana y la desviación estándar, usemos los datos del soldado escocés que inspiraron originalmente a Adolphe Quetelet. Los datos aparecieron en 1817 en el Edinburgh Medical and Surgical Journal e informan del "grosor alrededor del pecho" de los soldados clasificados por regimiento y altura (vol. 13, págs. 260 - 262). En lugar de utilizar el conjunto de datos completo, que incluye medidas para 5.732 soldados, consideraremos solo los soldados de 5'4 "y 5'5" del Regimiento de Peebles-shire (Figura 7).

Figura 7: Distribución del ancho del pecho para el regimiento de Peebles-shire. Aunque el subconjunto de datos de soldados de 5'4 '' y 5'5 '' (azul) no parece estar distribuido normalmente, proviene de un conjunto de datos mucho más grande (gris) que puede aproximarse razonablemente mediante una distribución normal. La distribución de 5'4 "y 5'5" de los anchos de pecho (en pulgadas) es: 35, 35, 36, 37, 38, 38, 39, 40, 40, 40.

Tenga en cuenta que este subconjunto de datos en particular no parece estar distribuido normalmente; sin embargo, el conjunto de datos completo más grande muestra una distribución aproximadamente normal. A veces, es posible que los subconjuntos de datos pequeños no parezcan estar distribuidos normalmente por sí mismos, sino que pertenecen a conjuntos de datos más grandes que pueden aproximarse más razonablemente mediante una distribución normal. En tales casos, aún puede ser útil calcular la media, la mediana y la desviación estándar para el subconjunto de datos más pequeño siempre que sepamos o tengamos motivos para suponer que proviene de un conjunto de datos más grande y normalmente distribuido.

Cómo calcular la media

La media aritmética, o promedio, de un conjunto de valores se calcula sumando todos los valores individuales y luego dividiendo por el número total de valores. Para calcular la media del conjunto de datos de Peebles-shire anterior, comenzamos sumando todos los valores del conjunto de datos:

35 + 35 + 36 + 37 + 38 + 38 + 39 + 40 + 40 + 40 = 378

Luego dividimos este número por el número total de valores en el conjunto de datos:

La media es 37,8 pulgadas. Tenga en cuenta que la media no es necesariamente un valor que ya esté presente en el conjunto de datos original. Observe también que la media de este conjunto de datos es menor que la media del conjunto de datos más grande debido al hecho de que solo hemos seleccionado la submuestra de hombres del grupo de menor estatura y es razonable esperar que los hombres más bajos sean más pequeños en general y por lo tanto, tienen anchos de pecho más pequeños.

Cómo calcular la mediana

La mediana es el valor "medio" de un conjunto de datos. Para calcular la mediana, primero debemos organizar el conjunto de datos en orden numérico:

35, 35, 36, 37, 38, 38, 39, 40, 40, 40

Cuando un conjunto de datos tiene un número impar de valores, la mediana es literalmente el valor mediano o medio en el conjunto de datos ordenado. Cuando un conjunto de datos tiene un número par de valores (como en este ejemplo), la mediana es la media de los dos valores intermedios:

35, 35, 36, 37, 38, 38, 39, 40, 40, 40

La mediana es de 38 pulgadas. Observe que la mediana es similar pero no idéntica a la media. Incluso si un subconjunto de datos se distribuye normalmente en sí mismo, es probable que la mediana y la media tengan valores algo diferentes.

Cómo calcular la desviación estándar

La desviación estándar mide cuánto varían los valores individuales en un conjunto de datos de la media. La desviación estándar se puede calcular en tres pasos:

1. Calcule la media del conjunto de datos. Desde arriba, sabemos que el ancho medio del pecho es de 37,8 pulgadas.

2. Para cada valor del conjunto de datos, reste la media y eleve al cuadrado el resultado.

3. Calcula la media de los valores que acabas de calcular y luego saca la raíz cuadrada.

La desviación estándar es de 1,9 pulgadas. La desviación estándar a veces se denomina "error cuadrático medio" debido a la forma en que se calcula.

Para resumir de manera concisa el conjunto de datos, podríamos decir que el ancho promedio del pecho es 37,8 ± 1,9 pulgadas (Figura 8). Esto nos dice tanto la tendencia central (media) como la dispersión (desviación estándar) de las medidas del tórax sin tener que mirar el conjunto de datos original en su totalidad. Esto es particularmente útil para conjuntos de datos mucho más grandes. Aunque usamos solo una parte de los datos de Peebles-shire anteriores, podemos calcular con la misma facilidad la media, la mediana y la desviación estándar para todo el Regimiento de Peebles-shire (224 soldados). Con un poco de ayuda de un programa de computadora como Excel, encontramos que el ancho de pecho promedio de Peebles-shire es 39.6 ± 2.1 pulgadas.

Uso de estadística descriptiva en ciencia

Como hemos visto en los ejemplos anteriores, los científicos suelen utilizar estadísticas descriptivas para:

Resuma de manera concisa las características de una población o conjunto de datos.
Determine la distribución de los errores de medición o la incertidumbre experimental.

Español

Resuma de manera concisa las características de una población o conjunto de datos.
Determinar la distribución de los errores de medición o la incertidumbre experimental.

Español

Resuma de manera concisa las características de una población o conjunto de datos.
Determinar la distribución de los errores de medición o la incertidumbre experimental.

Español

Problema de muestra 1

Resuma de manera concisa las características de una población o conjunto de datos.
Determinar la distribución de los errores de medición o la incertidumbre experimental.

Español

Ayude al químico atmosférico a analizar sus hallazgos calculando la media (µ) y la desviación estándar (σ) para cada conjunto de datos. ¿Qué puede concluir sobre la contribución de las autopistas a la contaminación del aire? (Problema modelado vagamente a partir de Phuleria et al ., 2007)

Solución 1

Comencemos con el conjunto de datos recopilado junto a la autopista:

Hay 18,8 ± 1,0 µg / m ³ de partículas finas junto a la autopista frente a 11,7 ± 1,7 µg / m ³ a 10 millas de distancia de la autopista. El químico atmosférico puede concluir que hay mucha más contaminación del aire cerca de la autopista que lejos.

Problema de muestra 2

Un climatólogo del Centro Nacional de Datos Clima está comparando los climas de diferentes ciudades del país. En particular, le gustaría comparar las temperaturas máximas diarias para 2014 de una ciudad costera (San Diego, CA) y una ciudad del interior (Madison, WI). Encuentra las mediciones de temperatura máxima diaria registradas para cada ciudad durante el año 2014 y las carga en una hoja de cálculo de Excel. Con las funciones integradas en Excel, ayude al climatólogo a resumir y comparar los dos conjuntos de datos calculando la mediana, la media y la desviación estándar.

Solución 2

Descargue y abra el archivo Excel que contiene las temperaturas máximas diarias para Madison, WI (celdas B2 a B366) y San Diego, CA (celdas C2 a C366). (Los conjuntos de datos se obtuvieron del Centro Nacional de Datos del Clima http://www.ncdc.noaa.gov/ )

Página 1 de Excel: cálculo de la mediana del conjunto de datos de Madison

Para calcular la mediana del conjunto de datos de Madison, haga clic en una celda vacía, escriba “= MEDIAN (B2: B366)” y presione la tecla Intro. Este es un ejemplo de una "función" de Excel y calculará la mediana de todos los valores contenidos en las celdas B2 a B366 de la hoja de cálculo.

Excel página 2: cálculo de la media del conjunto de datos de Madison

El mismo procedimiento se puede utilizar para calcular la media del conjunto de datos de Madison escribiendo una función diferente "= PROMEDIO (B2: B366)" en una celda vacía y presionando Intro.

Excel página 3: cálculo de la desviación estándar del conjunto de datos de Madison
Español — Excel página 3: cálculo de la desviación estándar del conjunto de datos de Madison Español

Excel página 3: Cálculo de la desviación estándar del conjunto de datos de Madisona

Para calcular la desviación estándar, escriba la función “= DESVEST.P (B2: B366)” y presione Intro. (Las versiones anteriores de Excel usarán la función STDEVP en su lugar).

Español

Excel página 4: cálculo de la mediana, media y desviación estándar del conjunto de datos de San Diego

Se puede utilizar el mismo procedimiento para calcular la mediana, la media y la desviación estándar del conjunto de datos de San Diego en las celdas C2 a C366.

Excel página 5: Comparación de temperatura de Madison y San Diego

En promedio, Madison es mucho más frío que San Diego: en 2014, Madison tenía una temperatura máxima diaria promedio de 54.5 ° F y una temperatura máxima diaria promedio de 57 ° F. En contraste, San Diego tuvo una temperatura máxima diaria promedio de 73.9 ° F y una temperatura máxima diaria promedio de 73 ° F. Madison también tuvo mucha más variabilidad de temperatura durante todo el año en comparación con San Diego. La desviación estándar de la temperatura máxima diaria de Madison fue de 23,8 ° F, mientras que la de San Diego fue de solo 7,1 ° F. Esto tiene sentido, considerando que Madison experimenta mucha más variación estacional que San Diego, que suele ser cálido y soleado durante todo el año.

Distribuciones no normales

No todos los conjuntos de datos se distribuyen normalmente. Debido a que la población mundial aumenta constantemente, la edad global aparece como una distribución sesgada con más jóvenes que ancianos (Figura 9). A diferencia de la distribución normal, esta distribución no es simétrica con respecto a la media. Debido a que es imposible tener una edad por debajo de cero, el lado izquierdo de la distribución se detiene abruptamente mientras que el lado derecho de la distribución desaparece gradualmente a medida que aumenta el rango de edad.

Figura 9: Distribución mundial por edad para el año 2010. Datos de la División de Población de las Naciones Unidas, http://www.un.org/en/development/desa/population/

Las distribuciones con picos múltiples y distintos también pueden surgir de poblaciones mixtas. Los biólogos evolutivos que estudian el tamaño de los picos de los pinzones de Darwin en las Islas Galápagos han observado una distribución bimodal de los pinzones (Figura 10).

Figura 10: Distribución de tamaños relativos de picos entre tres especies de pinzones en Galápagos. Observe cómo hay dos poblaciones claras de pinzones: una con picos más pequeños y otra con picos más grandes. (Basado en Hendry et al., 2009.)

Introducción a la estadística descriptiva: _{Usando la media, la mediana y la desviación estándar}

¿Qué son las estadísticas descriptivas?

Media frente a mediana

Punto de Comprensión

Desviación estándar

Punto de Comprensión

Distribución normal

Historia temprana de la distribución normal

Mayor desarrollo de la distribución normal

Características de la distribución normal

Punto de Comprensión

Trabajar con operaciones estadísticas

Cómo calcular la media

Cómo calcular la mediana

Cómo calcular la desviación estándar

Punto de Comprensión

Uso de estadística descriptiva en ciencia

Problema de muestra 1

Solución 1

Problema de muestra 2

Solución 2

Distribuciones no normales

Ecuaciones Exponenciales I: Crecimiento y decaimiento

Ecuaciones Exponenciales II: La constante e y los limitantes al crecimiento