Introducción a la Estadística Inferencial: Describir patrones y relaciones en conjuntos de datos
por Liz Roth-Johnson, Ph.D.
¿Sabías que en estadística la palabra “población” no se refiere a las personas que viven en un área particular? Más bien, se refiere al conjunto completo de observaciones que pueden hacerse. Dado que es imposible repetir un experimento un número infinito de veces u observar a cada individuo, las estadísticas inferenciales permiten a los científicos sacar conclusiones sobre un grupo mucho más grande basándose en la observación de un conjunto de datos mucho más pequeño.
In statistics, a population is a complete set of possible observations that can be made. It is often impractical for scientists to study an entire population, so smaller subsets of the population, known as either subsamples or samples, are often studied instead. It is important that such subsample is representative of the population from which it comes.
Inferential statistics can help scientists make generalizations about a population based on subsample data. Through the process of estimation, subsample data is used to identify population parameters like the population mean or variance.
Random sampling helps scientists collect a subsample dataset that is representative of the larger population. This is critical for statistical inference, which often involves using subsample datasets to make inferences about entire populations.
Statistical significance provides a measure of the statistical probability for a result to have occurred. A statistically significant result is unlikely to have occurred by chance and can therefore be reliably reproduced if statistical tests are repeated. Statistical significance does not tell scientists whether a result is relevant, important, or meaningful.
- sesgo
- error sistemático que resulta del procedimiento de muestreo; error estadístico introducido porque la muestra seleccionada para el estudio no es representativa de la población.
- aleatorización
- un método de selección de una muestra para estudiar que evita la introducción de sesgos con el objetivo de garantizar que cada individuo tenga las mismas posibilidades de ser incluido en la submuestra; muestreo aleatorio.
- muestra
- el conjunto de individuos seleccionados para el estudio; un subconjunto de una población; también llamada submuestra.
Justo cuando termina estos cálculos, su colaborador de la granja aparece para preguntarle sobre los últimos resultados. Específicamente, quiere saber el contenido medio de azúcar de toda la cosecha de tomates de este año (Figura 1). Miras tus datos y te preguntas qué decirle. ¿Cómo se relacionan la media y la desviación estándar de la muestra con la media y la desviación estándar de toda la cosecha?
Como verá en este módulo, su situación actual es muy familiar para los científicos. De hecho, es muy poco probable que la media y la desviación estándar de su muestra de 25 tomates sea exactamente la misma que la media y la desviación estándar de toda la cosecha. Afortunadamente, puede utilizar técnicas de una rama de la estadística conocida como "estadística inferencial" para utilizar su subconjunto más pequeño de medidas para aprender algo sobre el contenido de azúcar de toda la cosecha de tomate. Estas y otras técnicas de estadística inferencial son una herramienta invaluable para los científicos a medida que analizan e interpretan sus datos.
¿Qué son las estadísticas inferenciales?
Se han desarrollado muchas técnicas estadísticas para ayudar a los científicos a comprender los datos que recopilan. Estas técnicas suelen clasificarse como descriptivas o inferenciales. Mientras que las estadísticas descriptivas (ver Introducción a la estadística descriptiva) permiten a los científicos resumir rápidamente las principales características de un conjunto de datos, las estadísticas inferenciales van un paso más allá al ayudar a los científicos a descubrir patrones o relaciones en un conjunto de datos, hacer juicios sobre los datos o aplicar información sobre un pequeño conjunto de datos. conjunto de datos a un grupo más grande. Son parte del proceso de análisis de datos utilizado por los científicos para interpretar y hacer declaraciones sobre sus resultados (consulte Análisis e Interpretación de Datos para obtener más información).
La caja de herramientas de las estadísticas inferenciales disponibles a científicos es bien grande y contiene muchos diferentes métodos para analizar e interpretar data. Es una introducción al tema, daremos un vistazo breve a algunos de los métodos mas comunes de la estadística inferencial utilizados por científicos. Muchos de estos métodos involucran utilizar pequeños sub conjuntos de datos para hacer las inferencias acerca de poblaciones mas grandes. Por ende, discutiremos maneras en las cuales científicos pueden mitigar errores sistemáticos (sesgo de muestreo) por seleccionar sub muestras (comúnmente referidas como “muestras”) que son representativas de una población mas grande. Este modulo describe estadística inferencial en una manera cualitativa.
Punto de Comprensión
Poblaciones versus submuestras
Cuando usamos la palabra "población" en nuestro habla cotidiana, generalmente estamos hablando de la cantidad de personas, plantas o animales que viven en un área en particular. Sin embargo, para un científico o estadístico, este término puede significar algo muy diferente. En estadística, una población se define como el conjunto completo de posibles observaciones. Si un físico realiza un experimento en su laboratorio, la población es el conjunto completo de posibles resultados que podrían surgir si el experimento se repitiera un número infinito de veces. Si un biólogo marino está rastreando los patrones de migración de las ballenas azules en el Océano Pacífico Noreste, la población sería el conjunto completo de viajes migratorios realizados por cada ballena azul que vive en el Pacífico Noreste. Tenga en cuenta que, en este caso, la población estadística es el conjunto completo de eventos migratorios, la variable que se observa, y no las ballenas azules en sí mismas (la población biológica).
Con base en esta definición de población, es posible que esté pensando en lo poco práctico, o incluso imposible, que podría ser para un científico recopilar datos sobre una población completa. ¡Imagínense intentar etiquetar miles de ballenas azules o repetir un experimento indefinidamente! En cambio, los científicos suelen recopilar datos para un subconjunto más pequeño, una "submuestra", de la población. Si el biólogo marino marca y rastrea solo 92 ballenas azules, esta submuestra más práctica de datos de migración puede usarse para hacer inferencias sobre la población más grande (Figura 2).
Pero esto plantea un punto importante sobre la inferencia estadística: al seleccionar solo una submuestra de una población, no está identificando con certeza todos los resultados posibles. En cambio, como lo indica el nombre de la técnica, está haciendo inferencias sobre una gran cantidad de resultados posibles. Como verá más adelante en este módulo, abordar la incertidumbre asociada con estas inferencias es una parte importante de la estadística inferencial.
Punto de Comprensión
La importancia del muestreo aleatorio
Cuando se usa una submuestra para sacar conclusiones sobre una población mucho más grande, es fundamental que la submuestra represente razonablemente a la población de la que proviene. Los científicos a menudo utilizan un proceso llamado "muestreo aleatorio simple" para recopilar conjuntos de datos de submuestras representativos. El muestreo aleatorio no significa que los datos se recopilen al azar, sino que la probabilidad de que cada individuo de la población sea incluido en la submuestra es la misma. Este proceso ayuda a los científicos a asegurarse de que no están introduciendo sesgos involuntarios en su muestra que podrían hacer que su submuestra sea menos representativa de la población en general.
Pensemos en esto en el contexto de nuestro ejemplo original del tomate. Para hacer inferencias sobre toda la cosecha de tomates, debemos asegurarnos de que nuestra submuestra de 25 tomates sea lo más representativa posible de toda la cosecha de tomates. Para recolectar una submuestra aleatoria de la cosecha de tomate, podríamos usar un programa de computadora, como un generador de números aleatorios, para seleccionar al azar diferentes ubicaciones en todo el campo de tomate y diferentes días durante la temporada de cosecha en los que recolectar la submuestra de tomates. Esta aleatorización asegura que no haya sesgos inherentes al proceso de selección de submuestras. Por el contrario, una muestra sesgada podría seleccionar tomates de un solo día durante el período de cosecha o de una pequeña área del campo.
Si el contenido de azúcar de los tomates varía a lo largo de la temporada o si un área del campo recibe más sol y agua que otra, estas submuestras difícilmente serían representativas de toda la cosecha. (Para obtener más información sobre la importancia de la aleatorización en la ciencia, consulte Estadísticas en la Investigacion Científica). También puede notar que el proceso de muestreo aleatorio requiere que se recolecte un número mínimo de muestras para garantizar que la submuestra tenga en cuenta todas las posibles condiciones que pueden afectar la investigación. La determinación del tamaño de muestra ideal para un experimento puede depender de varios factores, incluido el grado de variación dentro de una población y el nivel de precisión requerido en el análisis. Al diseñar un experimento, los científicos consideran estos factores para elegir un número apropiado de muestras para recolectar.
Otro ejemplo de muestreo aleatorio simple proviene de un estudio de vida silvestre sobre aves canoras que viven en una isla frente a la costa de California (Langin et al. 2009). Para comprender cómo los pájaros cantores estaban siendo afectados por el cambio climático, los investigadores querían saber cuánta comida estaba disponible para los pájaros cantores en toda la isla. Sabían que estos pájaros cantores en particular comían principalmente insectos de las hojas de los árboles de roble, ¡pero imagínense tratando de encontrar y medir la masa de cada insecto que vive en cada roble en una isla!
Para recolectar una submuestra representativa, los investigadores seleccionaron al azar 12 coordenadas geográficas en toda la isla, recolectaron una sola rama del roble más cercano a cada coordenada en una dirección seleccionada al azar y luego midieron la masa total de insectos en cada rama. Luego repitieron este procedimiento cada dos semanas, seleccionando ubicaciones al azar cada vez y teniendo cuidado de recolectar ramas del mismo tamaño en cada ubicación (Figura 3).
Este procedimiento cuidadosamente elaborado ayudó a los investigadores a evitar sesgar su submuestra. Al seleccionar varias ubicaciones al azar, se aseguraron de que se seleccionarían las ramas de más de un árbol y que un árbol no se vería favorecido sobre los demás. La repetición del procedimiento de muestreo también ayudó a limitar el sesgo. Si los insectos fueran muy abundantes durante el verano pero difíciles de encontrar en el invierno, entonces el muestreo solo una vez o durante una temporada probablemente no generaría una instantánea representativa de la disponibilidad de insectos durante todo el año. A pesar de su nombre, ¡el proceso de muestreo aleatorio simple no es tan “simple” en absoluto! Requiere una planificación cuidadosa para evitar la introducción de sesgos no deseados.
Punto de Comprensión
Estimación de parámetros estadísticos
Una estimación puntual de un parámetro de población es simplemente el valor de una estadística de submuestra. Para nuestros tomates, esto significa que la media de la submuestra de 32 mg / g podría usarse como una estimación puntual de la media de la población. En otras palabras, estamos estimando que la media de la población también es de 32 mg / g. Dado que la estadística de submuestra variará de una submuestra a otra, las estimaciones puntuales no se utilizan comúnmente por sí mismas, ya que no tienen en cuenta la variabilidad de las submuestras.
Observe que nos referimos a la media de la población como un parámetro, mientras que la media de la submuestra se llama estadística. Esto refleja el hecho de que cualquier población dada tiene solo una media verdadera, mientras que la media de la submuestra puede cambiar de una submuestra a la siguiente. Suponga que mide el contenido de azúcar de un conjunto diferente de 25 tomates de la misma cosecha. La media y la desviación estándar de esta submuestra probablemente serán ligeramente diferentes de la primera submuestra debido a las variaciones en el contenido de azúcar de un tomate al siguiente. Sin embargo, cualquier conjunto de estadísticas de submuestra podría usarse para estimar la media poblacional de toda la cosecha.
Para estimar los parámetros de población a partir de las estadísticas de submuestra, los científicos suelen utilizar dos tipos diferentes de estimaciones: estimaciones puntuales y estimaciones de intervalo. A menudo, estas dos estimaciones se utilizan en conjunto para informar un rango plausible de valores para un parámetro de población basado en un conjunto de datos de submuestra.
Una estimación puntual de un parámetro de población es simplemente el valor de una estadística de submuestra. Para nuestros tomates, esto significa que la media de la submuestra de 32 mg / g podría usarse como una estimación puntual de la media de la población. En otras palabras, estamos estimando que la media de la población también es de 32 mg / g. Dado que la estadística de submuestra variará de una submuestra a otra, las estimaciones puntuales no se utilizan comúnmente por sí mismas, ya que no tienen en cuenta la variabilidad de las submuestras.
Una estimación de intervalo de un parámetro de población es un rango de valores en el que se cree que se encuentra el parámetro. Las estimaciones de intervalo son particularmente útiles porque reflejan la incertidumbre relacionada con la estimación (consulte nuestro módulo Incertidumbre, error y confianza) y se pueden informar como un rango de valores que rodean una estimación puntual. Una herramienta común utilizada en ciencia para generar estimaciones de intervalo es el intervalo de confianza. Los intervalos de confianza toman en consideración tanto la variabilidad como el número total de observaciones dentro de una submuestra para proporcionar un rango de valores plausibles alrededor de una estimación puntual. Se calcula un intervalo de confianza a un nivel de confianza elegido, que representa el nivel de incertidumbre asociado con la estimación. Podríamos calcular una estimación del intervalo de confianza utilizando nuestra submuestra de 25 tomates, que tiene una media de 32 mg / gy una desviación estándar de 4 mg / g. Cuando se calcula al nivel de confianza del 95%, esta estimación de intervalo se informaría como 32 ± 2 mg / g, lo que significa que es probable que la media de la población se sitúe entre 30 mg / gy 34 mg / g. *
* Si bien la desviación estándar proporciona una medida de la dispersión de todas las observaciones en la muestra, el intervalo de confianza proporciona una probabilidad más estrecha de dónde caería la media si tomara otra submuestra de la población.
Punto de Comprensión
Comparando múltiples submuestras
Otra técnica que los científicos emplean a menudo es comparar dos o más submuestras para determinar qué tan probable es que tengan parámetros poblacionales similares. Supongamos que desea comparar su cosecha de tomate actual con la cosecha del año anterior. Este año, el contenido medio de azúcar fue de 32 ± 2 mg / g, pero el año pasado el contenido medio de azúcar fue sólo de 26 ± 3 mg / g. Si bien estos dos números parecen bastante diferentes entre sí, ¿cómo puede estar seguro de que la diferencia no se debió simplemente a una variación aleatoria en sus dos submuestras?
En casos como este, los científicos recurren a una rama de la inferencia estadística conocida como prueba de hipótesis estadísticas. Al comparar dos submuestras, los científicos suelen considerar dos hipótesis simples: o las dos submuestras provienen de poblaciones similares y son esencialmente iguales (la hipótesis nula) o las dos submuestras provienen de poblaciones diferentes y, por lo tanto, son "significativamente" diferentes entre sí (la hipótesis alternativa). En estadística, la palabra "significativo" se utiliza para designar un nivel de solidez estadística. Una diferencia "significativa" implica que la diferencia puede detectarse de manera confiable mediante la prueba estadística, pero no dice nada sobre la importancia científica, la relevancia o el significado de la diferencia.
Para determinar si el contenido de azúcar de sus dos cosechas de tomate es de hecho significativamente diferente, puede utilizar una prueba de hipótesis estadística como la prueba t de Student para comparar las dos submuestras. La realización de una prueba t proporciona una medida de significación estadística que se puede utilizar para rechazar o aceptar la hipótesis nula. El nivel de significancia cuantifica la probabilidad de que un resultado particular haya ocurrido por casualidad. En ciencia, el nivel de significancia utilizado para la prueba de hipótesis es a menudo de 0,05. Esto significa que para que un resultado se considere "estadísticamente significativo", debe haber menos del 5% de probabilidad de que el resultado se haya observado por casualidad. Si realiza una prueba t en sus dos muestras de tomate y calcula un valor de probabilidad (también llamado valor p) menor que 0.05, puede rechazar la hipótesis nula e informar que la diferencia en el contenido de azúcar es significativamente diferente de un año a la próximo.
¿Y si ahora quisiera comparar el contenido de azúcar de todas las cosechas de tomate de los últimos 20 años? Teóricamente, podría realizar pruebas t por pares entre todas las diferentes submuestras, pero este enfoque puede generar problemas. Con cada prueba t, siempre existe la posibilidad, por pequeña que sea, de que la hipótesis nula se rechace incorrectamente y se produzca un resultado llamado "falso positivo". La repetición de varias pruebas t una y otra vez puede introducir errores no deseados en el análisis al aumentar la probabilidad de falsos positivos. Al comparar tres o más muestras, los científicos utilizan métodos como el "análisis de varianza", también conocido como ANOVA, que comparan varias muestras a la vez para reducir la posibilidad de introducir errores en el análisis estadístico.
Encontrando relaciones entre variables
A medida que continúa analizando todos los datos de sus tomates, se da cuenta de que los tomates parecen ser más dulces en los años más cálidos. ¿Te lo estás inventando o podría haber una relación entre la dulzura del tomate y el clima? Para analizar este tipo de relaciones mutuas entre dos o más variables, los científicos pueden usar técnicas en estadística inferencial para medir cuánto se correlacionan las variables entre sí. Una fuerte correlación entre dos variables significa que las variables cambian o varían de manera similar. Por ejemplo, la investigación médica ha demostrado que las personas con dietas altas en sal tienden a tener una presión arterial más alta que las personas con dietas bajas en sal. Por lo tanto, se dice que la presión arterial y el consumo de sal están correlacionados.
Cuando los científicos analizan las relaciones entre dos o más variables, deben tener mucho cuidado para distinguir entre correlación y causalidad. Una fuerte correlación entre dos variables puede significar que existe una relación, pero no proporciona ninguna información sobre la naturaleza de esa relación. Puede ser tentador buscar relaciones de causa y efecto en conjuntos de datos, pero la correlación entre variables no significa necesariamente que los cambios en una variable causen o influyan en los cambios en la otra. Si bien dos variables pueden mostrar una correlación si están directamente relacionadas entre sí, también podrían estar correlacionadas si ambas están relacionadas con una tercera variable desconocida. Además, en ocasiones, dos variables pueden parecer correlacionadas simplemente por casualidad. Los ingresos totales generados por las salas de juegos y el número de doctorados en informática otorgados en los Estados Unidos cambian de manera muy similar a lo largo del tiempo y, por lo tanto, se puede decir que están correlacionados (Figura 4). Las dos variables están altamente correlacionadas entre sí, pero no podemos concluir que los cambios en una variable estén causando cambios en la otra. En última instancia, la causalidad debe ser determinada por el investigador, generalmente a través del descubrimiento de un mecanismo razonable por el cual una variable puede afectar directamente a la otra.
Aunque la correlación no implica causalidad en sí misma, los investigadores aún pueden establecer relaciones de causa y efecto entre dos variables. En este tipo de relaciones, se dice que una variable independiente (una que no cambia por ninguna otra variable en estudio) causa un efecto sobre una variable dependiente. La variable dependiente recibe su nombre por el hecho de que cambiará en respuesta a una variable independiente; su valor depende literalmente del valor de la variable independiente. La fuerza de tal relación se puede analizar mediante una regresión lineal, que muestra el grado en que los datos recopilados para dos variables caen a lo largo de una línea recta. Esta operación estadística podría usarse para examinar la relación entre el dulzor del tomate (la variable dependiente) y una serie de variables independientes relacionadas con el clima que podrían afectar de manera plausible el crecimiento y, por lo tanto, el dulzor de los tomates (Figura 5).
Cuando las medidas de las variables independientes y dependientes caen cerca de una línea recta, se dice que la relación entre las dos variables es “fuerte” y puede estar más seguro de que las dos variables están realmente relacionadas. Cuando los puntos de datos aparecen más dispersos, la relación es más débil y hay más incertidumbre asociada con la relación.
Inferencia estadística con datos cualitativos
Hasta ahora solo hemos considerado ejemplos en los que los datos que se recopilan y analizan son de naturaleza cuantitativa y pueden describirse con números. En lugar de describir cuantitativamente la dulzura del tomate midiendo experimentalmente el contenido de azúcar, ¿qué pasaría si le pidiera a un panel de probadores de sabor que clasificara la dulzura de los tomates en una escala de “nada dulce” a “muy dulce”? Esto le proporcionaría un conjunto de datos cualitativos basado en observaciones en lugar de mediciones numéricas (Figura 6).
Los métodos estadísticos discutidos anteriormente no serían apropiados para analizar este tipo de datos. Si intentara asignar valores numéricos, del uno al cuatro, a cada una de las respuestas en la escala de prueba de sabor, el significado de los datos originales cambiaría. Por ejemplo, no podemos decir con certeza que la diferencia entre "3 - dulce" y "4 - muy dulce" sea exactamente la misma que la diferencia entre "1 - nada dulce" y "2 - algo dulce".
En lugar de intentar hacer que los datos cualitativos sean más cuantitativos, los científicos pueden utilizar métodos de inferencia estadística que sean más apropiados para interpretar conjuntos de datos cualitativos. Estos métodos a menudo prueban la significancia estadística comparando la forma general de las distribuciones de dos o más submuestras, por ejemplo, la ubicación y el número de picos en la distribución o la dispersión general de los datos, en lugar de utilizar medidas más cuantitativas como la media y Desviación Estándar. Este enfoque es perfecto para analizar sus datos de prueba de sabor de tomate. Mediante el uso de una prueba estadística que compara las formas de las distribuciones de las respuestas de los probadores de sabor, puede determinar si los resultados son significativamente diferentes y, por lo tanto, si una cosecha de tomate realmente sabe más dulce que la otra.
¡Proceda con precaución!
La estadística inferencial proporciona herramientas que ayudan a los científicos a analizar e interpretar sus datos. La clave aquí es que los científicos, no las pruebas estadísticas, son los que toman las decisiones. La forma en que se utiliza el término "significación" en la inferencia estadística puede ser una fuente importante de confusión. En estadística, la significancia indica qué tan confiablemente se puede observar un resultado si una prueba estadística se repite una y otra vez. Un resultado estadísticamente significativo no es necesariamente relevante o importante; es el científico quien determina la importancia del resultado. (Para una discusión más amplia sobre la significación estadística, consulte nuestro módulo Estadística en la ciencia).
Un error adicional es la estrecha relación entre la significación estadística y el tamaño de la submuestra. A medida que las submuestras crecen, se vuelve más fácil detectar de manera confiable incluso las diferencias más pequeñas entre ellas. A veces, los científicos bien intencionados están tan emocionados de informar resultados estadísticamente significativos que se olvidan de preguntar si la magnitud o el tamaño del resultado es realmente significativo.
La inferencia estadística es una herramienta poderosa, pero como cualquier herramienta, debe usarse de manera apropiada. La aplicación o interpretación equivocada de las estadísticas inferenciales puede dar lugar a resultados científicos distorsionados o engañosos. Por otro lado, la aplicación adecuada de los métodos descritos en este módulo puede ayudar a los científicos a obtener información importante sobre sus datos y conducir a descubrimientos asombrosos. Por lo tanto, utilice estos métodos con prudencia y recuerde: en última instancia, depende de los científicos atribuir significado a sus datos.
Active el resaltado de términos del glosario para identificar fácilmente los términos clave dentro del módulo. Una vez resaltados, puede hacer clic en estos términos para ver sus definiciones.
Active las anotaciones NGSS para identificar fácilmente los estándares NGSS dentro del módulo. Una vez resaltados, puede hacer clic en ellos para ver estos estándares.