Tamaño del efecto como hipótesis para la prueba de significación

37

Hoy, en el Cross Validated Journal Club (¿por qué no estabas allí?), @Mbq preguntó:

¿Crees que nosotros (los científicos de datos modernos) sabemos lo que significa? ¿Y cómo se relaciona con nuestra confianza en nuestros resultados?

@Michelle respondió como algunos (incluido yo) suelen hacer:

El concepto de significación (basado en valores p) me parece cada vez menos útil a medida que continúo en mi carrera. Por ejemplo, puedo estar usando conjuntos de datos extremadamente grandes para que todo sea estadísticamente significativo ( p<.01 )

Esta es probablemente una pregunta estúpida, pero ¿no es el problema la hipótesis que se está probando? Si prueba la hipótesis nula "A es igual a B", entonces sabe que la respuesta es "No". Los conjuntos de datos más grandes solo lo acercarán a esta conclusión inevitablemente verdadera. Creo que fue Deming quien una vez dio un ejemplo con la hipótesis "la cantidad de pelos en el lado derecho de un cordero es igual a la cantidad de pelos en el lado izquierdo". Bueno, por supuesto que no.

Una hipótesis mejor sería "A no difiere de B en más de un tanto". O, en el ejemplo del cordero, "el número de pelos en los costados de un cordero no difiere en más del X%".

¿Esto tiene sentido?

Carlos Accioly
fuente
1) La prueba de equivalencia media (suponiendo que eso es lo que desea) puede simplificarse en algunos casos para una prueba de significancia de su diferencia de medias. Con un error estándar para esta estimación de diferencia, puede hacer todo tipo de pruebas del tipo "no diferir de B en más ...". 2) En cuanto al tamaño de la muestra: sí, para ss grandes, la importancia de la significación disminuye, pero sigue siendo crucial para muestras más pequeñas, donde no se pueden generar valores adicionales.
Ondrej
11
Re "Por supuesto que no lo es". Supongo que un cordero tiene del orden de pelos en cada lado. Si hay un número par de tales pelos y se distribuyen al azar con las mismas posibilidades en ambos lados y los lados están claramente delineados, entonces la posibilidad de que ambos números sean exactamente iguales es 0.178%. En una gran bandada de varios cientos, debe esperar ver un cordero tan perfectamente equilibrado nacido al menos una vez cada década (suponiendo que se produzca un número par de pelos aproximadamente el 50% del tiempo). O: ¡casi todos los viejos criadores de ovejas han tenido un cordero así! 105
whuber
1
@whuber Está determinado por el propósito del análisis. Una mejor analogía sería cuál es el tamaño mínimo del efecto que justificaría una mayor inversión en un medicamento después de un ensayo. Solo la existencia de un efecto estadísticamente significativo no es suficiente, ya que desarrollar un medicamento es costoso y puede haber efectos secundarios que deben considerarse. No es una pregunta estadística, sino práctica.
Dikran Marsupial
2
@whuber Sospecho que en la mayoría de las aplicaciones donde no hay información práctica para decidir el tamaño mínimo de efecto de interés, entonces la prueba de hipótesis estándar está bien, por ejemplo, para comprobar la normalidad. Como bayesiano, estaría de acuerdo con la visión como un problema de optimización en lugar de un problema de prueba de hipótesis. Parte del problema con las pruebas de hipótesis resulta del enfoque del libro de cocina de estadísticas, donde las pruebas se realizan como una tradición sin considerar adecuadamente el propósito del ejercicio o el verdadero significado del resultado (todo en mi humilde opinión, por supuesto).
Dikran Marsupial
1
@DikranMarsupial no es la clave para que a los estudiantes se les enseñen pruebas de memoria, como se identifica a continuación por Gung, en lugar de la importancia del buen diseño del estudio. ¿Un mayor énfasis en el diseño del estudio ayudaría a resolver parte del problema, no necesariamente con grandes conjuntos de datos?
Michelle

Respuestas:

25

En lo que respecta a las pruebas de significación (o cualquier otra cosa que haga esencialmente lo mismo que las pruebas de significación), siempre he pensado que el mejor enfoque en la mayoría de las situaciones es estimar un tamaño de efecto estandarizado, con un intervalo de confianza del 95% sobre eso tamaño del efecto. No hay nada realmente nuevo allí: matemáticamente puede barajarlos de un lado a otro entre ellos, si el valor p para un nulo 'nulo' es <.05, entonces 0 estará fuera de un IC del 95%, y viceversa. La ventaja de esto, en mi opinión, es psicológica.; es decir, genera información relevante que existe pero que las personas no pueden ver cuando solo se informan los valores de p. Por ejemplo, es fácil ver que un efecto es tremendamente 'significativo', pero ridículamente pequeño; o 'no significativo', pero solo porque las barras de error son enormes, mientras que el efecto estimado es más o menos lo que esperaba. Estos se pueden combinar con valores brutos y sus CI.

Ahora, en muchos campos, los valores brutos son intrínsecamente significativos, y reconozco que plantea la pregunta de si todavía vale la pena calcular las medidas del tamaño del efecto dado que ya tenemos valores como medias y pendientes. Un ejemplo podría ser mirar el crecimiento atrofiado; sabemos lo que significa para un hombre blanco de 20 años ser 6 +/- 2 pulgadas más corto (es decir, 15 +/- 5 cm), de lo que lo harían de otro modo, entonces, ¿por qué mencionar ? Tiendo a pensar que aún puede ser valioso informar ambos, y se pueden escribir funciones para calcularlos de modo que sea muy poco trabajo extra, pero reconozco que las opiniones variarán. En cualquier caso, sostengo que las estimaciones puntuales con intervalos de confianza reemplazan los valores p como la primera parte de mi respuesta. d=1.6±.5

Por otro lado, creo que una pregunta más importante es '¿es lo que las pruebas de significado hacen lo que realmente queremos?' Creo que el verdadero problema es que para la mayoría de las personas que analizan datos (es decir, profesionales no estadísticos), las pruebas de significación pueden convertirse en la totalidad del análisis de datos. Me parece que lo más importante es tener una forma basada en principios para pensar sobre lo que está sucediendo con nuestros datos, y las pruebas de significado de hipótesis nulas son, en el mejor de los casos, una parte muy pequeña de eso. Permítanme dar un ejemplo imaginario (reconozco que se trata de una caricatura, pero desafortunadamente, me temo que es algo plausible):

Bob lleva a cabo un estudio, recopilando datos sobre algo u otro. Él espera que los datos se distribuyan normalmente, agrupados estrechamente alrededor de algún valor, y tiene la intención de realizar una prueba t de una muestra para ver si sus datos son 'significativamente diferentes' de algún valor preespecificado. Después de recolectar su muestra, verifica si sus datos están distribuidos normalmente y descubre que no lo están. En cambio, no tienen un bulto pronunciado en el centro, pero son relativamente altos en un intervalo determinado y luego se arrastran con una larga cola izquierda. Bob se preocupa por lo que debe hacer para asegurarse de que su prueba sea válida. Termina haciendo algo (por ejemplo, una transformación, una prueba no paramétrica, etc.), y luego informa una estadística de prueba y un valor p.

Espero que esto no salga tan desagradable. No quiero burlarme de nadie, pero creo que algo como esto sucede de vez en cuando. Si ocurriera este escenario, todos podemos estar de acuerdo en que es un análisis deficiente de datos. Sin embargo, el problema no es que el estadístico de prueba o el valor p sean incorrectos; podemos afirmar que los datos se manejaron correctamente a ese respecto. Yo diría que el problema es que Bob está involucrado en lo que Cleveland llamó "análisis de datos de memoria". Parece creer que el único punto es obtener el valor p correcto, y piensa muy poco acerca de sus datos fuera de perseguir ese objetivo. Incluso podría haber cambiado a mi sugerencia anterior e informar un tamaño de efecto estandarizado con un intervalo de confianza del 95%, y no habría cambiado lo que veo como el problema más grande (esto es lo que quise decir al hacer "esencialmente lo mismo "por un medio diferente). En este caso específico, el hecho de que los datos no se vean como él esperaba (es decir, no eran normales) es información real, es interesante, y muy posiblemente importante, pero esa información se descarta esencialmente. Bob no reconoce esto, debido al enfoque en las pruebas de significación. En mi opinión, ese es el verdadero problema con las pruebas de significación.

Permítanme abordar algunas otras perspectivas que se han mencionado, y quiero dejar muy claro que no estoy criticando a nadie.

  1. A menudo se menciona que muchas personas realmente no entienden los valores p (por ejemplo, pensar que son la probabilidad de que el nulo sea verdadero), etc. A veces se argumenta que, si solo las personas usaran el enfoque bayesiano, estos problemas podrían vete. Creo que las personas pueden abordar el análisis de datos bayesianos de una manera igual de incómoda y mecánica. Sin embargo, creo que malinterpretar el significado de los valores p sería menos dañino si nadie pensara que el objetivo es obtener un valor p.
  2. La existencia de 'big data' generalmente no está relacionada con este problema. Los grandes datos solo hacen obvio que organizar el análisis de datos en torno a la 'importancia' no es un enfoque útil.
  3. No creo que el problema sea con la hipótesis que se está probando. Si las personas solo quisieran ver si el valor estimado está fuera de un intervalo, en lugar de si es igual a un valor en puntos, podrían surgir muchos de los mismos problemas. (Nuevamente, quiero ser claro , sé que no eres 'Bob' ).
  4. Para que conste, quiero mencionar que mi propia sugerencia del primer párrafo no aborda el problema, como intenté señalar.

Para mí, este es el tema central: lo que realmente queremos es una forma de pensar con principios sobre lo que sucedió . Lo que eso significa en cualquier situación no es cortar y secar. Cómo impartir eso a los estudiantes en una clase de métodos no es claro ni fácil. Las pruebas de significación tienen mucha inercia y tradición detrás. En una clase de estadísticas, está claro qué se debe enseñar y cómo. Para los estudiantes y profesionales es posible desarrollar un esquema conceptual para comprender el material y una lista de verificación / diagrama de flujo (¡he visto algunos!) Para realizar el análisis. Las pruebas de importancia pueden evolucionar naturalmente en análisis de datos de memoria sin que nadie sea tonto, perezoso o malo. Ese es el problema

gung - Restablece a Monica
fuente
Me gustan los intervalos de confianza :) Una pregunta: ¿quiso decir que el cálculo post hoc del tamaño del efecto está bien?
Michelle
x¯1=10x¯2=14SD=6d=.67
Sí, creo que estamos de acuerdo aquí.
Michelle
+1 La historia de Bob me recuerda esto: pss.sagepub.com/content/early/2011/10/17/0956797611417632
Carlos Accioly
+1 Prefiero intervalos creíbles yo mismo. Con respecto al punto 1, argumentaría que es menos probable que las alternativas bayesianas den como resultado un análisis de datos de memoria, ya que la definición de una probabilidad no es tan intuitiva, lo que hace que sea mucho más fácil formular la pregunta que realmente desea formular de manera estadística . El verdadero problema radica en que realizar la prueba requiere intergrals, que son demasiado difíciles para que dichos métodos sean ampliamente adoptados. Esperemos que el software se desarrolle hasta el punto en que el usuario pueda concentrarse en formular la pregunta y dejar el resto en la computadora.
Dikran Marsupial
18

¿Por qué insistimos en cualquier forma de prueba de hipótesis en estadística?

En el maravilloso libro Estadística como argumento basado en principios, Robert Abelson argumenta que el análisis estadístico es parte de un argumento basado en principios sobre el tema en cuestión. Él dice que, en lugar de ser evaluado como hipótesis para ser rechazado o no rechazado (¡o incluso aceptado!?!), Deberíamos evaluarlos con base en lo que él llama el criterio MÁGICO:

Magnitud: ¿qué tan grande es? Articulación: ¿está lleno de excepciones? ¿Está limpio? Generalidad: ¿cómo se aplica generalmente? Intereses: ¿nos importa el resultado? Credibilidad: ¿podemos creerlo?

Mi reseña del libro en mi blog

Peter Flom - Restablece a Monica
fuente
44
El problema es fomentado por algunos profesores. Mi doctorado es en psicometría, que está en el departamento de psicología. Escuché a profesores de otras partes del departamento decir cosas como "solo informe el valor p, eso es lo que importa". Mi trabajo es la consultoría, principalmente con estudiantes graduados e investigadores en los campos social, conductual, educativo y médico. La cantidad de información errónea que brindan los comités doctorales es asombrosa.
Peter Flom - Restablece a Monica
1
+1 para "Por qué ...", esa es una gran parte de lo que estaba tratando de obtener en mi respuesta.
gung - Restablece a Monica
Otra parte de lo que estaba tratando de obtener en mi respuesta es que creo que esto sucede naturalmente. Por cierto, no es justo obtener dos votos a favor ;-), puedes combinarlos.
gung - Restablece a Monica
13

H0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2Pr(|X1X2|>ϵ)

Stéphane Laurent
fuente
(+1) Y, bienvenido a 1000 reputación. Aclamaciones.
cardenal
6

Las pruebas de hipótesis tradicionales le dicen si hay evidencia estadísticamente significativa de la existencia de un efecto, mientras que lo que a menudo queremos saber es la existencia de evidencia de un efecto prácticamente significativo.

Ciertamente es posible formar "pruebas de hipótesis" bayesianas con un tamaño de efecto mínimo (IIRC hay un ejemplo de esto en el libro de David MacKay sobre "Algoritmos de teoría, inferencia y aprendizaje de información", lo buscaré cuando tenga un momento .

La prueba de normalidad es otro buen ejemplo, generalmente sabemos que los datos no están realmente distribuidos normalmente, solo estamos probando para ver si hay evidencia de que esta no es una aproximación razonable. O al probar el sesgo de una moneda, sabemos que es poco probable que esté completamente sesgado, ya que es asimétrico.

Dikran Marsupial
fuente
6

Mucho de esto se reduce a qué pregunta realmente está haciendo, cómo diseña su estudio e incluso qué quiere decir con igual.

Ejecuté una pequeña inserción interesante en el British Medical Journal una vez que hablaba sobre lo que la gente interpretaba que significaban ciertas fases. Resulta que "siempre" puede significar que algo sucede tan bajo como el 91% de las veces (BMJ VOLUME 333 26 AGOSTO 2006 página 445). Entonces, tal vez igual y equivalente (o dentro de X% para algún valor de X) podría pensarse que significa lo mismo. Y preguntemos a la computadora una igualdad simple, usando R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

Ahora, un matemático puro que usa una precisión infinita podría decir que esos 2 valores no son iguales, pero R dice que lo son y, en la mayoría de los casos prácticos, lo serían (si se ofreciera a darme $$

Ha:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμμ0μμ0μ0 μ

Mucho de esto se reduce a hacer la pregunta correcta y diseñar el estudio correcto para esa pregunta. Si terminas con suficientes datos para mostrar que una diferencia prácticamente sin sentido es estadísticamente significativa, entonces has desperdiciado recursos obteniendo esa cantidad de datos. Hubiera sido mejor decidir cuál sería una diferencia significativa y diseñar el estudio para darle el poder suficiente para detectar esa diferencia, pero no más pequeña.

Y si realmente queremos dividir los pelos, ¿cómo definimos qué partes del cordero están a la derecha y cuáles a la izquierda? Si lo definimos por una línea que, por definición, tiene el mismo número de pelos en cada lado, la respuesta a la pregunta anterior se convierte en "Por supuesto que sí".

Greg Snow
fuente
Sospecho que la respuesta que obtienes de R es simplemente el resultado de un problema aritmético de coma flotante, no una decisión consciente de ignorar las diferencias irrelevantes. Considere el ejemplo clásico (.1 + .2) == .3 Un "matemático puro" le diría que son iguales, en cualquier nivel de precisión, pero R devuelve FALSO.
Gala
@ GaëlLaurans, mi punto es que debido al redondeo (ya sea consciente por humanos o por computadora), los conceptos de exactamente igual y dentro de X% para una X suficientemente pequeña son prácticamente los mismos.
Greg Snow
5

Desde una perspectiva organizacional, ya sea el gobierno con opciones de políticas o una compañía que busca implementar un nuevo proceso / producto, el uso de un análisis simple de costo-beneficio también puede ayudar. He argumentado en el pasado que (ignorando razones políticas) dado el costo conocido de una nueva iniciativa, ¿cuál es el punto de equilibrio para un número de personas que deben verse afectadas positivamente por esa iniciativa? Por ejemplo, si la nueva iniciativa es conseguir que más personas desempleadas trabajen, y la iniciativa cuesta$100,000 , ¿logra una reducción de las transferencias de desempleo de al menos $100,000? De lo contrario, el efecto de la iniciativa no es prácticamente significativo.

Para los resultados de salud, el valor de una vida estadística adquiere importancia. Esto se debe a que los beneficios para la salud se acumulan a lo largo de la vida (y, por lo tanto, los beneficios se ajustan a la baja en valor según una tasa de descuento ). Entonces, en lugar de significancia estadística, uno obtiene argumentos sobre cómo estimar el valor de una vida estadística y qué tasa de descuento debería aplicarse.

Michelle
fuente