Intervalo de confianza y probabilidad: ¿dónde está el error en esta declaración?

11

Si alguien hace una declaración como la siguiente:

"En general, los no fumadores expuestos al humo ambiental tenían un riesgo relativo de enfermedad coronaria de 1,25 (intervalo de confianza del 95 por ciento, 1,17 a 1,32) en comparación con los no fumadores no expuestos al humo".

¿Cuál es el riesgo relativo para la población en general? ¿Cuántas cosas están relacionadas con la enfermedad coronaria? De la gran cantidad de cosas que se pueden probar, muy pocas están realmente relacionadas con la enfermedad coronaria, por lo que la posibilidad de que cualquier cosa particular elegida al azar esté conectada es muy pequeña. Por lo tanto, podemos decir que el riesgo relativo para la población es 1. Pero el intervalo citado no contiene el valor 1. Entonces, en realidad, existe una conexión entre las dos cosas, cuya probabilidad es muy pequeña, o esta es una de El 5% de los intervalos que no contienen el parámetro. Como lo último es mucho más probable que lo primero, es lo que deberíamos asumir. Por lo tanto, la conclusión apropiada es que el conjunto de datos era casi ciertamente atípico de la población,

Por supuesto, si hay alguna base para suponer que más del 5% de las cosas están relacionadas con la enfermedad coronaria, entonces podría haber alguna evidencia en la estadística que respalde la sugerencia de que el humo ambiental es una de ellas. El sentido común sugiere que esto es poco probable.

¿Cuál es el error en su razonamiento (ya que todas las organizaciones de salud están de acuerdo en que existe una literatura importante sobre los efectos dañinos del tabaquismo)? ¿Se debe a su premisa de que "de la gran cantidad de cosas que se pueden probar, muy pocas están realmente relacionadas con la enfermedad coronaria"? Esta oración puede ser cierta para cualquier factor elegido al azar (es decir, cuántos perros posee una persona con riesgo de enfermedad coronaria), pero la probabilidad a priori es mucho mayor para el tabaquismo y la enfermedad coronaria que simplemente 'cualquier factor aleatorio' .

¿Es este el razonamiento correcto? O hay algo más?

BYS2
fuente
El texto citado parece ... bueno, como una cita. ¿De dónde es? :)
MånsT
jaja sí, es una cita de Wikipedia ... alguien agregó esto al artículo para "intervalo de confianza". Estoy tratando de eliminarlo porque eso es claramente incorrecto, pero el chico se niega, así que necesito una razón matemáticamente sólida en lugar de simplemente "esto está claramente equivocado" ... aunque tengo algunas ideas, quería saber si alguien podría explicar exactamente qué errores se están cometiendo aquí. Porque si esto fuera correcto, entonces muchos estudios pueden ser refutados por motivos similares
BYS2
3
Si se prolonga un poco, me moveré e intentaré ayudar. Su argumento es claramente falaz y apunta fuertemente a que él tiene una agenda.
Erik
3
Como físico que usa muchas estadísticas pero no es un estadístico, considero que ese párrafo es realmente inútil, no importa el hecho de que suena completamente incorrecto. Siempre he pensado, posiblemente incorrectamente, que un 95% de cl significa que si la hipótesis nula fuera cierta, 1 vez en 20 si repitiera mi experimento obtendría un resultado significativo al nivel del 95% (una buena razón en mi opinión para no use menos de 99.9 pero esa es otra discusión). Esa publicación parece ser más un punto sobre factores correlacionados y realmente no ayuda en absoluto a los no expertos (ni a nadie).
Bowler
@Erik. El usuario tiene un historial bastante dudoso de títeres de calcetines (tenía algunas cuentas y usa ediciones de IP) y se ha bloqueado antes ... no estoy seguro de cuál es su trato. Pero parece un alborotador
BYS2

Respuestas:

10

Hay muchas cosas mal aquí. Como explica @ Néstor, él asume implícitamente probabilidades previas en (sin enlace) y (enlace).H 1H0H1

Coloca un peso muy alto (muy cerca de 1) en y un peso muy pequeño en . Esta es la primera cosa dudosa que hace, ya que existe un vínculo mecanicista entre el humo y la enfermedad cardíaca (considere los fumadores activos), la pregunta realmente es si la exposición es suficiente. Esto ni siquiera considera los estudios previos realizados. Por lo tanto, en realidad no es una de una "gran cantidad de cosas" que se probará, como por ejemplo usar calcetines rojos. Esto significa que ya comienza con un previo muy parcial y no realmente justificable.H 1H0H1

Luego actualiza su previo al afirmar que la probabilidad de obtener un intervalo de confianza del 95% de no contener el valor verdadero tiene una probabilidad del 5%. Si bien esto es cierto, esta no es la oportunidad de obtener ese intervalo particular bajo el supuesto de la hipótesis nula . Tenga en cuenta que habría tratado un intervalo de confianza de [1.17, 1.32] exactamente igual que un intervalo de confianza de [100, 200] que es claramente problemático.

Esto es realmente importante para el enfoque bayesiano: si bien tiene una probabilidad total de 5% de no obtener un intervalo que contenga el 1 bajo el supuesto de que 1 es cero, la densidad de probabilidad de obtener ese intervalo en particular es diferente (y menor).

El tercer error es que nunca especificó su anterior ni declara cuán probable tiene que ser frente a para que obtenga ese resultado. Es simplemente "muy pequeño".H 1H0H1

El cuarto error es decir que la acción apropiada a tomar sería descartar los datos. Tenga en cuenta que su resultado ni siquiera depende de los datos, su argumento implica exactamente la misma acción que se habría realizado para cualquier dato. Si encuentra un enlace interesante pero sospecha que podría ser una casualidad, ¡lo más apropiado es intentar replicar su resultado!

Erik
fuente
¡Gracias por ampliar la respuesta de Nestor! Sin embargo, una pregunta rápida, usted declaró que "... esta no es la oportunidad de obtener ese intervalo particular bajo el supuesto de la hipótesis nula". Si quisiéramos encontrar la posibilidad de obtener un intervalo particular bajo el supuesto de la hipótesis nula, ¿necesitaríamos usar la inferencia bayesiana y un intervalo creíble correcto? Los intervalos de confianza frecuentes solo le dicen "la posibilidad de que el intervalo incluya el valor verdadero". Gracias de nuevo
BYS2
El intervalo de confianza frecuentista del 95% se construye de manera que al menos el 95% de las veces que el intervalo construido contiene el valor verdadero. Hasta aquí todo bien. Dicho esto, también puede calcular la probabilidad (o el valor de la densidad) de obtener un intervalo de confianza particular si la hipótesis nula es cierta. La ubicación exacta contiene más "información" que solo si incluía la hipótesis nula. Desechar esa información es mala cuando se usa la inferencia bayesiana, ya que es relevante para la probabilidad de que el nulo sea verdadero.
Erik
Un ejemplo de juguete sería este: inferencia bayesiana, desea hacer inferencia hacia la forma de una distribución. Prior permite dos posibilidades: H1: la distribución es normal normal. H2: Distribución normal, media = sd = 1. Una muestra de los valores de las distribuciones le permite actualizar su anterior. Cuando se le dan solo los signos de sus valores, también puede actualizar su anterior, pero la actualización será menos informativa ya que desechó la información relevante.
Erik
6

Este es un tema filosófico bastante interesante relacionado con la prueba de hipótesis (y, por lo tanto, en el contexto frecuentista también los intervalos de confianza, como explico aquí ).

Por supuesto, hay muchas hipótesis que podrían investigarse: el tabaquismo pasivo causa enfermedad coronaria, el consumo de alcohol provoca enfermedad cardíaca crónica, la posesión de perros causa enfermedad cardíaca crónica, ser un Capricornio causa enfermedad cardíaca crónica ...

Si elegimos una de todas estas hipótesis al azar, la probabilidad de que elijamos una hipótesis que sea verdadera es prácticamente cero. Este parece ser el argumento en el texto citado: que es muy poco probable que probamos una hipótesis verdadera.

Pero la hipótesis no fue elegida al azar. Fue motivado por el conocimiento epidemiológico y médico previo sobre la enfermedad coronaria. Existen mecanismos teóricos que explican cómo fumar podría causar enfermedad coronaria, por lo que no parece descabellado pensar que también funcionarían para fumar pasivamente.

La crítica en la cita puede ser válida para estudios exploratorios donde se extrae un conjunto de datos para hipótesis. Esa es la razón por la que no aceptamos tales "descubrimientos" como hechos, sino que exigimos que los resultados se puedan replicar en nuevos estudios. De cualquier manera, el artículo citado en la cita es un metaestudio y, por lo tanto, no se ve afectado por este problema.

Hemos visto empíricamente en los últimos siglos que probar hipótesis motivadas por la teoría al comparar los resultados pronosticados con los resultados observados funciona. El hecho de que creamos en este procedimiento es la razón por la que hemos progresado tanto en medicina, ingeniería y ciencia. Es la razón por la que puedo escribir esto en mi computadora y que puedes leerlo en la tuya. Argumentar que este procedimiento es incorrecto es argumentar que el método científico es fundamentalmente defectuoso, y tenemos muchas pruebas que dicen lo contrario.

Dudo que haya algo que una persona que no esté dispuesta a aceptar este tipo de evidencia realmente acepte ...

MånsT
fuente
Realmente no entendí tu párrafo antes del último; ¿se refiere a "pruebas de significación" (por ejemplo, calcular la probabilidad de datos al menos más extremos) o realmente a "pruebas de hipótesis" (el entorno bayesiano)? ¿Quién dijo que ninguno de ellos funciona si haces la pregunta correcta?
Néstor
@ Néstor: Quizás debería haber escrito eso de manera diferente. Realmente no estaba haciendo una declaración sobre la prueba de hipótesis estadísticas , sino más bien haciendo una observación sobre el hecho de que comparar las predicciones del modelo con datos del mundo real (es decir, "probar" si la hipótesis es correcta) parece ser una forma muy eficiente de hacerlo Ciencias. En el corazón de esta crítica contra CI está, creo, una falta de voluntad para aceptar este método. El tipo de argumentos dados en la cita se aplicaría a cualquier método estadístico: con cero probabilidades previas para todas las hipótesis nulas, nunca creeríamos en nada.
MånsT
6

Realmente no entiendo por qué el autor dice que la probabilidad de que el riesgo relativo de enfermedad coronaria sea 1 podría ser muy pequeña basando su análisis únicamente en un intervalo de confianza; Esto es completamente incorrecto. Para mí, parece que está usando una configuración frecuentista, pero está razonando bayesianamente (lo cual es bastante común).

Lo único relacionado con un IC son las pruebas de significación clásicas, pero, como todos sabemos, si { No existe un vínculo entre el tabaquismo de segunda mano y la enfermedad coronaria }, le dan (donde denota " datos al menos tan extremos como los que observamos "), no (donde son los datos), que es lo que él afirma y qué está vinculado exactamente a lo que usted señala; ¡tienes que incorporar conocimiento previo sobre ese enlace en particular! Esto viene del hecho de que: según el Teorema de Bayes, donde es la probabilidad previa en .p ( D e | H 0 ) D e p ( H 0 | D ) D p ( H 0 | D ) p ( D | H 0 ) p ( H 0 ) , p ( H 0 ) H 0H0:p(De|H0)Dep(H0|D)D

p(H0|D)p(D|H0)p(H0),
p(H0)H0
Néstor
fuente
¿No sería H0: no hay un vínculo entre el tabaquismo pasivo y la CHD? Dado que la hipótesis nula suele ser la hipótesis de que no hay ningún efecto. Aparte de eso, ¡gracias por esta respuesta!
BYS2
¡Si, tienes razón! No lo noté hasta que señaló :-). Editaré mi respuesta.
Néstor
3

Si bien hay algo en esta línea de razonamiento bayesiano (¡deconstruido muy a fondo por Erik!), Y de hecho esta línea de pensamiento explicaría por qué muchos hallazgos médicos no pueden reproducirse, este argumento en particular aplica ese pensamiento como un mazo.

El autor presupone dos cosas sin proporcionar evidencia: que la exposición al humo se eligió al azar y que casi nada en el mundo causa enfermedades cardíacas. Bajo estos laxos estándares de razonamiento, el autor podría rechazar CUALQUIER conclusión de que algo causa una enfermedad cardíaca. Todo lo que necesita hacer es afirmar:

  1. Que la hipótesis fue elegida al azar, y
  2. Esa enfermedad cardíaca tiene causas muy cercanas a cero.

Ambas afirmaciones son discutibles (y, según mi conocimiento general, muy probablemente sean falsas). Pero, con estos supuestos en su lugar, incluso observando que el 100% de las personas expuestas al humo de segunda mano cayeron muertos de un ataque cardíaco dentro de un año, podría afirmar que la conexión es simplemente una correlación coincidente con la causa oculta, singular y "verdadera" .

Jonathan
fuente
Muy bien, gracias por tus pensamientos! Sí, el autor definitivamente asumió que la hipótesis fue "elegida al azar", lo cual no es correcto.
BYS2
-1

No veo nada obviamente malo en el párrafo entre comillas, pero no he visto los datos y no puedo verificar sus números. Sin embargo, los dos párrafos que siguen son muy poco claros.

Supongamos que dijo: "En general, los no fumadores que eran obesos mórbidos tenían un riesgo relativo de enfermedad coronaria de 1,25 (intervalo de confianza del 95 por ciento, 1,17 a 1,32) en comparación con los no fumadores que tenían un peso corporal normal". ¿Alguien tendría motivos para dudar de él?

Emil Friedman
fuente
Bueno, el primer párrafo entre citas fue solo el autor citando las conclusiones de un estudio epidemiológico, por lo que no tiene nada de malo. Los siguientes párrafos tratan de desacreditar el estudio, que es donde hace algunas declaraciones dudosas.
BYS2