Datos Datos: Estadísticas

por Anthony Carpi, Ph.D., Anne Egger, Ph.D.

¿Sabia usted que el campo de las estadísticas tiene sus raíces en los juegos de azar? o que las estadísticas no pueden comprobar o refutar si algo es verdadero?

Resumentoggle-menu

La investigación científica rara vez lleva a la certidumbre absolutos. Hay cierto grado de incertidumbre en todas las conclusiones y las estadísticas nos permiten discutir que la incertidumbre. Métodos estadísticos son utilizados en todas las áreas de la ciencia. El módulo explica la diferencia entre (a) comprobar de que algo es verdadero y (b) medir la probabilidad de obtener cierto resultado. Vera como palabras comunes como "significante", "control" y "aleatorio" tienen diferentes significados en el campo de la estadística comparado con la vida diaria.

Términos que usted debe sabertoggle-menu

  • estadística = el estudio matemático de datos
  • variable = un factor o una condición en un estudio investigativo que puede ser medido, observado o cambiado
  • cuantificar = expresar algo en términos de valor numérico, medida o cantidad

Tabla de Contenidotoggle-menu

La ciencia moderna está usualmente basada en las declaraciones de significación estadística y probabilidad. Por ejemplo: 1) algunos estudios han demostrado que la probabilidad de desarrollar cáncer de pulmón es casi 20 veces mayor en los fumadores que en los no fumadores (ACS, 2004); 2) hay una probabilidad significativa de que en los próximos 200,000 años haya un impacto catastrófico de un meteorito en la Tierra (Bland, 2005); y 3) los niños primogénitos exhiben un coeficiente intelectual o CI de 2.82 puntos superiores que los niños que nacen en segundo lugar, una significativa diferencia en el 95% del nivel de confiabilidad (Kristensen & Bjerkedal, 2007). Sin embargo, ¿por qué los científicos hablan usando términos que parecen vagos? Si fumar causa cáncer de pulmón, ¿por qué no comunicarlo simplemente? Si debiéramos establecer una colonia en la luna para escapar de un desastre extraterrestre, ¿por qué no informárselo a la población? Y si los niños mayores son más inteligentes que sus hermanos menores, ¿por qué no avisárselos?

La razón es que ninguno de estos planteamientos refleja los datos. Los datos científicos rara vez conducen a conclusiones absolutas. No todos los fumadores mueren de cáncer de pulmón – algunos fumadores deciden dejar de fumar, reduciendo su riesgo, otros pueden morir prematuramente de enfermedades cardiovasculares u otras, aparte del cáncer de pulmón, y puede que algunos fumadores nunca desarrollen la enfermedad. Todos los datos exhiben variabilidad, y es el rol de las estadísticas cuantificar esta variabilidad y permitirles a los científicos realizar declaraciones más exactas sobre sus datos.
Figura 1: El campo de la estadística tiene sus raíces en los cálculos de los resultados probables de los juegos de azar.

Control de Comprensión

Statistics can

Que es la estadística

El campo de las estadísticas se remonta a 1654 cuando el jugador francés, Antoine Gombaud, le preguntó al renombrado matemático y filósofo Blaise Pascal cómo uno debía dividir lo que está en juego entre los jugadores, cuando un juego de azar es interrumpido prematuramente. Pascal se lo preguntó al abogado y matemático Pierre de Fermat, y a través de una serie de cartas, Pascal y Fermat concibieron un sistema matemático que no sólo contestaba la pregunta original de Gombaud, sino que además ponía los cimientos de la teoría de la probabilidad y estadística.

Desde sus raíces en los juegos de azar, la estadística se ha desarrollado en un campo de estudio que consiste en el desarrollo de métodos y pruebas usados para definir cuantitativamente la variabilidad inherente en los datos, la probabilidad de ciertos resultados y el error y la incertidumbre asociados a estos resultados (ver nuestro módulo Data: Uncertainty, Error, and Confidence). De esta manera, los métodos estadísticos son usados extensivamente a través del proceso científico, desde el diseño de las interrogantes de investigación, al análisis de datos y a la interpretación final de los datos. Los métodos estadísticos específicos que se usan, varían mucho entre las diferentes disciplinas científicas; sin embargo, las razones por las que se usan estas pruebas y técnicas son similares a través de las disciplinas. Este módulo no pretende introducir los variados conceptos y pruebas estadísticos que se usan en la ciencia. Se puede encontrar más información sobre los tests y métodos estadísticos específicos en la sección de enlaces de este módulo.

La estadística en el diseño de la investigación

Mucha gente malinterpreta las declaraciones de posibilidad y probabilidad como un signo de debilidad o incertidumbre en los resultados científicos. Sin embargo, el uso de métodos estadísticos y pruebas de probabilidad en la investigación es un importante aspecto de la ciencia que fortalece y añade certidumbre a las conclusiones científicas. Por ejemplo, en 1843, John Bennet Lawes, un empresario inglés, fundó el instituto agrícola Rothamsted Agriculture Experimental Station in Hertfordshire, Inglaterra, para investigar el impacto de las aplicaciones de fertilizantes en la cosecha. Lawes lo hizo porque había establecido una de las primeras fábricas de fertilizantes artificiales el año anterior. Durante los próximos 80 años, los investigadores de este instituto condujeron experimentos en los cuales aplicaron fertilizantes, cosecharon diferentes productos, registraron la cantidad de precipitación pluvial y midieron el tamaño de la cosecha al final de cada temporada de crecimiento. Al final del siglo, el instituto tenía una gran acumulación de datos pero pocas conclusiones útiles: un fertilizante podía superar en rendimiento a otro en un año, pero podía tener un rendimiento inferior en el siguiente, ciertos fertilizantes parecían afectar sólo a algunas cosechas, y la diferencia en la cantidad de precipitación pluvial cada año continuamente confundía los experimentos (Salsburg, 2001). Los datos eran esencialmente inútiles porque había un gran número de variables incontrolables.

Enlarge
Figura 2: Un edificio en el centro Rothamsted Research Station

En 1919, el centro Rothamsted Station contrató a un joven estadista llamado Ronald Aylmer Fisher para que trate de entender los datos. Los análisis estadísticos de Fisher sugerían que la relación entre precipitación pluvial y crecimiento agrícola era mucho más significativa estadísticamente que la relación entre el tipo de fertilizante y el crecimiento agrícola. Pero la meta de los científicos agrícolas del centro no era medir la temperatura – ellos querían saber qué fertilizantes eran los más eficientes para qué productos. Nadie podía sustraer la variable temperatura en el experimento, pero Fisher se dio cuenta que sus efectos podían esencialmente ser separados si los experimentos estaban diseñados apropiadamente. Para poder compartir sus conocimientos con la comunidad científica, publicó dos libros Métodos estadísticos para investigadores (Statistical Methods for Research Workers) en 1925 y El diseño de los experimentos (The Design of Experiments) en 1935. Al resaltar la necesidad de considerar el análisis estadístico durante las etapas de planeamiento de la investigación, Fisher revolucionó la práctica de la ciencia y transformó el centro Rothamsted en un importante centro de investigación sobre las estadísticas y la agricultura hasta hoy en día.

En el libro El diseño de los experimentos (The Design of Experiments), Fisher introduce varios conceptos que se han convertido en un sello de la buena investigación científica, incluyendo el uso de los controles, la aleatorización y la duplicación (Figura 3).

Figura 3: Una figura original del libro de Fisher El diseño de los experimentos que muestra el conjunto de los grupos de tratamiento y la cosecha de cebada en un experimento en el centro Rothamsted en 1927 (Fisher, 1935). Las letras en paréntesis denotan los terrenos de control que no han sido tratados con fertilizantes (I) o los que han sido tratados con diferentes fertilizantes (s = sulfato de amonio, m = cloride of amonio, c = cianamida, and u = urea) con o sin superfosfato (p). Los números con subíndice entre paréntesis indican las cantidades relativas del fertilizantes usado. Los numerous debajo de cada bloque indican la cosecha relativa de cebada de cada terreno.

Controles: El uso de controles está basado en el concepto de variabilidad. Puesto que cualquier fenómeno tiene alguna medida de variabilidad, los controles ayudan al investigador a medir variabilidades naturales, aleatorias, o sistemáticas en un sistema similar y usar ese estimado como una base de comparación para la variable observada o el fenómeno. En el centro Rothamsted, un control podía ser un producto cosechado que no había recibido la aplicación de un fertilizante (ver los terrenos señalados I en la Figura 3). La variabilidad inherente en el crecimiento de las plantas podía seguir produciendo plantas de varias alturas y tamaños. El control podía proveer una medida del impacto que el clima u otras variables podían tener sobre el crecimiento agrícola independientemente de la aplicación del fertilizante, permitiendo de esta manera que los investigadores eliminen este factor.

Aleatorización: La aleatorización estadística ayuda a manejar el sesgo en la investigación científica. Al contrario que el uso común de la palabra aleatoria, que implica azar o desorganización, la aleatorización estadística es un procedimiento preciso en el cual se les asigna a las unidades observadas un grupo de control o tratamiento de una manera que toma en consideración la influencia potencial de las variables confundidas. Esto permite al investigador cuantificar la influencia de estas variables confundidas al observarlas en ambos grupos de control y de tratamiento. Por ejemplo, con anterioridad a Fisher, en el centro Rothamsted, se aplicaba los fertilizantes al borde de diferentes hileras de productos agrícolas, algunos de los cuales caían casi todos en el borde del terreno. Sin embargo, se sabe que los bordes afectan el rendimiento agrícola, así que era difícil en muchos casos distinguir los efectos del borde de los efectos del fertilizante. Fisher introdujo un proceso de aleatorización al asignar diferentes fertilizantes a diferentes terrenos dentro de un campo agrícola en un año único, a la vez que se aseguraba que no todos los terrenos de tratamiento (o control) para cualquier fertilizante cayese al borde del campo agrícola (ver Figura 3).

Duplicación: Fisher también recomendó la duplicación experimental de pruebas y medidas para que la gama de variabilidad inherentemente asociada al experimento o medida, pudiese ser cuantificada y la fortaleza de los resultados pudiese ser evaluada. En Rothamsted esto significaba plantar múltiples terrenos con el mismo producto y aplicar el mismo fertilizante a cada uno de estos terrenos (ver Figura 3). Es más, esto significaba que se repetían similares aplicaciones en años diferentes de manera que la variabilidad de las diferentes aplicaciones de fertilizantes en función de las condiciones meteorológicas climáticas podía ser cuantificada.

En general, los científicos diseñan los estudios de investigación basados en la naturaleza de las cuestiones que buscan investigar, pero pulen su plan de investigación para concordar con muchos de los conceptos estadísticos de Fisher y así aumentar la posibilidad de que sus descubrimientos puedan ser útiles. La incorporación de estas técnicas facilita el análisis y la interpretación de los datos, otro lugar donde se usan las estadísticas.

Control de Comprensión

Statistical randomization is a term that scientists apply to research that does not follow a set procedure.

Las estadísticas en el análisis de datos

Se ha desarrollado una multitud de técnicas estadísticas para el análisis de datos, pero generalmente se dividen en dos grupos: descriptivo e inferencial.

Estadística descriptiva. Las estadísticas descriptivas le permiten al científico sumar rápidamente los atributos más importantes de un conjunto de datos, usando medidas como el promedio, la media, y la desviación estándar. Estas medidas proveen un sentido general del grupo estudiado, permitiéndoles a los científicos colocar el estudio en un contexto más amplio. Por ejemplo, el Cancer Prevention Study I (CPS-I) era un estudio prospectivo de mortalidad iniciado en 1959, tal como se mencionó con anterioridad. Los investigadores que condujeron el estudio informaron la edad y la demografía de los participantes, entre otras variables, para permitir la comparación entre los grupos de estudio y la población más amplia en los Estados Unidos, en ese momento. Los adultos que participaban en el estudio iban de 30 a 108 años, con la media de 52 años. Los sujetos del estudio eran 57% de mujeres, 97% de blancos y 2% de negros. En comparación, la edad media en los Estados Unidos en 1959 era 29.4 años, obviamente mucho menor que la del grupo de estudio, puesto que el CPS-I no alistó a nadie menor de 30 años. Es más, 51% de los residentes americanos era mujeres en 1960, el 89% era blanco, y aproximadamente el 11% era negro. Una reconocida deficiencia del CPS I, fácilmente identificable en las estadísticas descriptivas, es que el estudio no considera adecuadamente el perfil de enfermedades en los grupos minoritarios en los Estados Unidos, ya que el 97% de los participantes están categorizados como blanco.

Estadísticas inferenciales. Se usan las estadísticas inferenciales para modelar los patrones en los datos, emitir juicios sobre los datos, identificar las relaciones entre las variables en el conjunto de datos, e inferir sobre poblaciones más amplias basándose en muestras de datos más pequeñas. Es importante recordar que desde una perspectiva estadística la palabra “población” no tiene que significar un grupo de personas, como lo significa en el lenguaje común. En una población estadística se usa el grupo más importante para inferir – este puede ser un grupo de personas, de plantas de maíz, de impactos de meteoritos, o cualquier grupo de medidas que se pudiesen usar.

En los estudios científicos es especialmente importante transferir los resultados de una pequeña muestra a la población más amplia. Por ejemplo, mientras que los estudios Cancer Prevention Studies I y II inscribieron aproximadamente de 1 millón a 1.2 millones de personas, respectivamente, representaban una pequeña fracción de los 179 y 226 millones de personas que vivían en los Estados Unidos en 1960 y 1980. Algunas de las técnicas inferenciales comunes incluyen la regresión, la correlación y la prueba o estimación de puntos. Por ejemplo, Petter Kristense y Tor Bjerkedal (2007) examinaron los resultados de exámenes de CI en un grupo de 250,000 hombres en el personal militar de Noruega. Su análisis sugirió que los niños primogénitos tenían un promedio de CI en los resultados de los exámenes de 2.82 ± 0.07 puntos superiores a los niños que nacen en segundo lugar, una diferencia estadística en el nivel de 95% de confiabilidad (Kristensen & Bjerkedal, 2007).

La frase “estadísticamente significativa” es un concepto clave en el análisis de datos, y es comúnmente malentendido. Mucha gente asume que, de acuerdo como se usa comúnmente la palabra significativa, denominar algo estadísticamente significativo quiere decir que el resultado es importante o crucial, pero no es así. Al contrario, algo estadísticamente significativo es un estimado de la probabilidad en la que la asociación o diferencia observada se debe al azar en vez de a una asociación real. En otras palabras, las pruebas estadísticamente significativas describen la posibilidad de que una asociación o diferencia observada podría ser vista aunque no hubiese presente una asociación o diferencia real. La medida de lo significativo es usualmente expresada en términos de confiabilidad, lo que tiene el mismo significado en las estadísticas que en el lenguaje común, pero puede ser cuantificado. En el trabajo de Kristensen y Bjerkedal, por ejemplo, se encontró que la diferencia en el CI entre los primogénitos y los niños que nace en segundo lugar es significativa con un nivel de 95% de confiabilidad, lo que quiere decir que sólo hay un 5% de probabilidad que la diferencia en el CI sea debida al azar. Esto no quiere decir que la diferencia sea grande o siquiera importante: 2.82 puntos en el CI es una pequeña diferencia en la escala del CI y casi insignificante como para declarar que los primogénitos son unos genios en relación a sus hermanos menores. Los descubrimientos tampoco implican que el resultado sea un 95% correcto. Al contrario, indican que la diferencia observada se debe simplemente a un sesgo en el muestreo aleatorio y que hay un 95% de probabilidades que se pueda obtener el mismo resultado si otro investigador conduce un estudio similar en una población de hombres noruegos. Un noruego que nace en segundo lugar y que tiene un CI superior a su hermano mayor no refuta la investigación – es solamente un resultado estadísticamente menos probable.

La falta de diferencia estadística significativa es tan reveladora como la diferencia o relación estadística. Por ejemplo, los investigadores han encontrado que los riesgos de muerte por enfermedades coronarias en los hombres que han dejado de fumar durante por lo menos dos años no es significativamente diferente del riesgo de estas enfermedades en hombres no fumadores (Rosenberg et al., 1985). Así que las estadísticas muestran que mientras que los fumadores tienen un índice significativamente superior de enfermedades coronarias que los no fumadores, este riesgo vuelve al estado base en sólo dos años después de haber dejado de fumar.

Control de Comprensión

If a result is statistically significant, it means that the result is likely

Limitaciones, errores, y mal uso de las estadísticas

Dada la amplia variedad de las posibles pruebas estadísticas, es fácil usarlas mal en el análisis de datos, a veces hasta el punto del engaño. Una de las razones por las que esto sucede es que las estadísticas no tratan el error sistemático que puede introducirse en un estudio, ya sea de manera intencional o accidental. Por ejemplo, en uno de los primeros estudios que informó sobre los efectos de dejar de fumar, E. Cuyler Hammond y Daniel Horn encontraron que las personas que fumaban más de un paquete al día, pero que habían dejado de fumar en el curso del año anterior tenían un índice de mortalidad de 198.0, significativamente superior que el índice de 157.1 para las personas que todavía fumaban más de un paquete al día en el momento del estudio (Hammond & Horn, 1958). Sin un entendimiento apropiado del estudio, uno podría concluir de las estadísticas que dejar de fumar es en realidad peligroso para los fumadores desmesurados. Sin embargo, Hammond ofrece posteriormente una explicación para este descubrimiento, cuando dice “Esto no es sorprendente puesto que los fumadores que recientemente han dejado de fumar, es un grupo que incluye mayoritariamente a hombres con una salud precaria” (Hammond, 1965). Por consiguiente, dentro de los fumadores desmesurados que han dejado de fumar están incluidos muchos individuos que han dejado de fumar debido a que ya se les había diagnosticado otra enfermedad, añadiendo de esta manera un error sistemático a este conjunto de muestra. Sin un completo entendimiento de estos hechos, las estadísticas por sí mismas pueden ser malinterpretadas. Por consiguiente, el uso más eficaz de las estadísticas, es identificar las tendencias y características dentro de un conjunto. Estas tendencias pueden ser interpretadas por los investigadores a la luz de la comprensión de su base científica, abriendo, posiblemente, oportunidades para estudios posteriores. Andrew Lang, un poeta y novelista escocés, acertadamente resumió este aspecto de la prueba estadística cuando declaró que “Un pronosticador poco sofisticado usa las estadísticas como un borracho usa los postes de luz – para apoyarse en vez de iluminarse.”

Otro error de la prueba estadística es que las relaciones y asociaciones estadísticas prueban causalidad. En realidad, la identificación de una correlación o asociación entre las variables no quiere decir que un cambio en una variable causó el cambio en otra variable. Por ejemplo, en 1950 Richard Doll y Austin Hill, investigadores británicos que fueron conocidos por desarrollar uno de los primeros estudios comparativos científicamente válidos (vea nuestro módulo Research Methods: Comparison) sobre fumar y el desarrollo del cáncer de pulmón, escribieron sobre la correlación que descubrieron, afirmando que “Esto no plantea necesariamente que fumar causa carcinoma en los pulmones. La asociación podría ocurrir si el carcinoma de los pulmones causó que la gente fume o si ambos atributos fueran efectos finales de una causa común” (Doll & Hill, 1950). Doll y Hill siguieron discutiendo la base científica de la correlación y el hecho de que el hábito de fumar precede el desarrollo del cáncer de pulmón en todos sus sujetos de estudio, conduciéndolos a la conclusión “…que fumar es un factor, y es un importante factor, en la producción del carcinoma de pulmón.” A medida que se han acumulado múltiples líneas de evidencia científica acerca de la asociación entre fumar y cáncer de pulmón, los científicos ahora pueden afirmar con mucha exactitud la probabilidad estadística del riesgo asociado al fumar.

Enlarge
Tomasz Sienicki
Figura 4: La publicidad para cigarillos con filtro y bajos en alquitrán usaba estadísticas huecas para decir que eran menos peligrosos.

Mientras que las estadísticas ayudan a descubrir patrones, relaciones, y variabilidad en los datos, desafortunadamente pueden ser usadas para presentar erróneamente los datos, las relaciones, y las interpretaciones. Por ejemplo, al final de los años 1950, a la luz de los crecientes estudios comparativos que demostraban una relación de causalidad entre fumar y el cáncer de pulmón, las más importantes compañías de cigarrillos empezaron a investigar la viabilidad de sacar al mercado productos alternativos que podían promover como más “saludables” que los cigarrillos comunes. Es así como se desarrollaron los cigarrillos “light” y con filtro. Posteriormente, la industria del tabaco promocionó y publicitó ampliamente investigaciones que sugerían que la celulosa común del filtro de acetato reducía el alquitrán en los cigarrillos comunes en un 42- 46% y la nicotina en 19 - 35%. Los cigarrillos con filtro de Marlboro® afirmaban tener “menos de 22 por ciento del alquitrán, 34 por ciento menos de nicotina” que las otras marcas. La industria del tabaco lanzó similares campañas de publicidad promoviendo cigarrillos con poco alquitrán (6 a 12 mg de alquitrán comparados con los 12 a 16 mg en los cigarrillos “regulares”) y cigarrillos con muy poco alquitrán (inferior a 6 mg) (Glantz et al., 1996). Mientras que la industria inundó al público con estadísticas sobre el contenido de alquitrán, las compañías de tabaco no publicitaron el dato de que no había investigación alguna para indicar que el alquitrán o la nicotina eran los agentes causales en el desarrollo del cáncer inducido por fumar. De hecho, varios estudios mostraban que los riesgos asociados con los productos con poco alquitrán no eran diferentes a los productos regulares, y aún peor, algunos estudios mostraban que los cigarrillos con “poco alquitrán” producían un aumento en el consumo de cigarrillos en los fumadores (Stepney, 1980; NCI, 2001). Por consiguiente, las estadísticas falsas fueron usadas para engañar al público y apartarlo de la cuestión real.

Control de Comprensión

If there is a statistical correlation between two events or variables, this means that one event causes the other.

La estadística y la investigación científica

Todas las medidas contienen un poco de incertidumbre y error, y los métodos estadísticos nos ayudan a cuantificar y caracterizar esta incertidumbre. Esto ayuda a explicar la razón por la que los científicos usualmente se expresan con afirmaciones cualificadas. Por ejemplo, ningún sismólogo que estudia terremotos estaría dispuesto a decirle exactamente cuándo podría ocurrir un terremoto; en vez de eso, el instituto U.S. Geological Survey realiza declaraciones como ésta: “ Hay un….. 62% de probabilidades que por lo menos un terremoto de 6.7 de magnitud o más, en las tres décadas en el intervalo 2003-2032 dentro del región de la Bahía de San Francisco” (USGS, 2007). Esto puede sonar ambiguo, pero en realidad es una descripción muy precisa y derivada matemáticamente de cuán seguros están los sismólogos de que un terremoto importante pueda ocurrir, e informar abiertamente el error y la incertidumbre es un sello de la investigación científica de calidad.

Hoy en día, los análisis científicos y estadísticos están tan entrelazados que muchas disciplinas científicas han desarrollado sus propios subconjuntos de técnicas y terminologías estadísticas. Por ejemplo, el campo de la bioestadística (a veces referido como biometría) supone la aplicación de específicas técnicas estadísticas a disciplinas en biología como la genética poblacional, la epidemiología, y la salud pública. El campo de la geoestadística ha evolucionado hasta desarrollar técnicas de análisis espacial especializadas que le ayudan a los geólogos a mapear la ubicación de los depósitos de petróleo y minerales; estas técnicas de análisis espaciales también han ayudado a Starbuck’s® a determinar la distribución ideal de los lugares donde vender cafés, basándose en la maximización del número de clientes que visita cada tienda. Usado correctamente, el análisis estadístico va más allá del descubrimiento del próximo campo petrolífero o taza de café, hasta iluminar los datos científicos de una manera que ayudan a validar el conocimiento científico.

Conceptos Clavetoggle-menu

  • Las estadísticas se usan para describir la variabilidad inherente en los datos de manera cuantitativa, y para cuantificar las relaciones entre las variables.
  • El análisis estadístico se usa para diseñar los estudios científicos para aumentar la consistencia, medir la incertidumbre y producir series de datos robustos.
  • Hay varios malentendidos que rodean las estadísticas, incluídas la confusión entre términos estadísticos y el uso del lenguaje común de términos similares.

Lectura Adicionaltoggle-menu

Referenciastoggle-menu

Anthony Carpi, Ph.D., Anne Egger, Ph.D. “Datos: Estadísticas” Visionlearning Vol. POS-1 (2), 2008.

Las estadísticas se pueden definidas como un cuerpo de métodos para tomar decisiones más sabias frente a la incertidumbre.
- W. A. Wallis, 1912-1998
  • The Process of science book

    The Process of Science, Revised Edition

    By Anthony Carpi and Anne Egger

    $15.99 - Buy Now

¿Quiere contenido sin publicidad? Registro gratuito »