Hoy, en el Cross Validated Journal Club (¿por qué no estabas allí?), @Mbq preguntó:
¿Crees que nosotros (los científicos de datos modernos) sabemos lo que significa? ¿Y cómo se relaciona con nuestra confianza en nuestros resultados?
@Michelle respondió como algunos (incluido yo) suelen hacer:
El concepto de significación (basado en valores p) me parece cada vez menos útil a medida que continúo en mi carrera. Por ejemplo, puedo estar usando conjuntos de datos extremadamente grandes para que todo sea estadísticamente significativo ( )
Esta es probablemente una pregunta estúpida, pero ¿no es el problema la hipótesis que se está probando? Si prueba la hipótesis nula "A es igual a B", entonces sabe que la respuesta es "No". Los conjuntos de datos más grandes solo lo acercarán a esta conclusión inevitablemente verdadera. Creo que fue Deming quien una vez dio un ejemplo con la hipótesis "la cantidad de pelos en el lado derecho de un cordero es igual a la cantidad de pelos en el lado izquierdo". Bueno, por supuesto que no.
Una hipótesis mejor sería "A no difiere de B en más de un tanto". O, en el ejemplo del cordero, "el número de pelos en los costados de un cordero no difiere en más del X%".
¿Esto tiene sentido?
fuente
Respuestas:
En lo que respecta a las pruebas de significación (o cualquier otra cosa que haga esencialmente lo mismo que las pruebas de significación), siempre he pensado que el mejor enfoque en la mayoría de las situaciones es estimar un tamaño de efecto estandarizado, con un intervalo de confianza del 95% sobre eso tamaño del efecto. No hay nada realmente nuevo allí: matemáticamente puede barajarlos de un lado a otro entre ellos, si el valor p para un nulo 'nulo' es <.05, entonces 0 estará fuera de un IC del 95%, y viceversa. La ventaja de esto, en mi opinión, es psicológica.; es decir, genera información relevante que existe pero que las personas no pueden ver cuando solo se informan los valores de p. Por ejemplo, es fácil ver que un efecto es tremendamente 'significativo', pero ridículamente pequeño; o 'no significativo', pero solo porque las barras de error son enormes, mientras que el efecto estimado es más o menos lo que esperaba. Estos se pueden combinar con valores brutos y sus CI.
Ahora, en muchos campos, los valores brutos son intrínsecamente significativos, y reconozco que plantea la pregunta de si todavía vale la pena calcular las medidas del tamaño del efecto dado que ya tenemos valores como medias y pendientes. Un ejemplo podría ser mirar el crecimiento atrofiado; sabemos lo que significa para un hombre blanco de 20 años ser 6 +/- 2 pulgadas más corto (es decir, 15 +/- 5 cm), de lo que lo harían de otro modo, entonces, ¿por qué mencionar ? Tiendo a pensar que aún puede ser valioso informar ambos, y se pueden escribir funciones para calcularlos de modo que sea muy poco trabajo extra, pero reconozco que las opiniones variarán. En cualquier caso, sostengo que las estimaciones puntuales con intervalos de confianza reemplazan los valores p como la primera parte de mi respuesta.d=−1.6±.5
Por otro lado, creo que una pregunta más importante es '¿es lo que las pruebas de significado hacen lo que realmente queremos?' Creo que el verdadero problema es que para la mayoría de las personas que analizan datos (es decir, profesionales no estadísticos), las pruebas de significación pueden convertirse en la totalidad del análisis de datos. Me parece que lo más importante es tener una forma basada en principios para pensar sobre lo que está sucediendo con nuestros datos, y las pruebas de significado de hipótesis nulas son, en el mejor de los casos, una parte muy pequeña de eso. Permítanme dar un ejemplo imaginario (reconozco que se trata de una caricatura, pero desafortunadamente, me temo que es algo plausible):
Espero que esto no salga tan desagradable. No quiero burlarme de nadie, pero creo que algo como esto sucede de vez en cuando. Si ocurriera este escenario, todos podemos estar de acuerdo en que es un análisis deficiente de datos. Sin embargo, el problema no es que el estadístico de prueba o el valor p sean incorrectos; podemos afirmar que los datos se manejaron correctamente a ese respecto. Yo diría que el problema es que Bob está involucrado en lo que Cleveland llamó "análisis de datos de memoria". Parece creer que el único punto es obtener el valor p correcto, y piensa muy poco acerca de sus datos fuera de perseguir ese objetivo. Incluso podría haber cambiado a mi sugerencia anterior e informar un tamaño de efecto estandarizado con un intervalo de confianza del 95%, y no habría cambiado lo que veo como el problema más grande (esto es lo que quise decir al hacer "esencialmente lo mismo "por un medio diferente). En este caso específico, el hecho de que los datos no se vean como él esperaba (es decir, no eran normales) es información real, es interesante, y muy posiblemente importante, pero esa información se descarta esencialmente. Bob no reconoce esto, debido al enfoque en las pruebas de significación. En mi opinión, ese es el verdadero problema con las pruebas de significación.
Permítanme abordar algunas otras perspectivas que se han mencionado, y quiero dejar muy claro que no estoy criticando a nadie.
Para mí, este es el tema central: lo que realmente queremos es una forma de pensar con principios sobre lo que sucedió . Lo que eso significa en cualquier situación no es cortar y secar. Cómo impartir eso a los estudiantes en una clase de métodos no es claro ni fácil. Las pruebas de significación tienen mucha inercia y tradición detrás. En una clase de estadísticas, está claro qué se debe enseñar y cómo. Para los estudiantes y profesionales es posible desarrollar un esquema conceptual para comprender el material y una lista de verificación / diagrama de flujo (¡he visto algunos!) Para realizar el análisis. Las pruebas de importancia pueden evolucionar naturalmente en análisis de datos de memoria sin que nadie sea tonto, perezoso o malo. Ese es el problema
fuente
¿Por qué insistimos en cualquier forma de prueba de hipótesis en estadística?
En el maravilloso libro Estadística como argumento basado en principios, Robert Abelson argumenta que el análisis estadístico es parte de un argumento basado en principios sobre el tema en cuestión. Él dice que, en lugar de ser evaluado como hipótesis para ser rechazado o no rechazado (¡o incluso aceptado!?!), Deberíamos evaluarlos con base en lo que él llama el criterio MÁGICO:
Magnitud: ¿qué tan grande es? Articulación: ¿está lleno de excepciones? ¿Está limpio? Generalidad: ¿cómo se aplica generalmente? Intereses: ¿nos importa el resultado? Credibilidad: ¿podemos creerlo?
Mi reseña del libro en mi blog
fuente
fuente
Las pruebas de hipótesis tradicionales le dicen si hay evidencia estadísticamente significativa de la existencia de un efecto, mientras que lo que a menudo queremos saber es la existencia de evidencia de un efecto prácticamente significativo.
Ciertamente es posible formar "pruebas de hipótesis" bayesianas con un tamaño de efecto mínimo (IIRC hay un ejemplo de esto en el libro de David MacKay sobre "Algoritmos de teoría, inferencia y aprendizaje de información", lo buscaré cuando tenga un momento .
La prueba de normalidad es otro buen ejemplo, generalmente sabemos que los datos no están realmente distribuidos normalmente, solo estamos probando para ver si hay evidencia de que esta no es una aproximación razonable. O al probar el sesgo de una moneda, sabemos que es poco probable que esté completamente sesgado, ya que es asimétrico.
fuente
Mucho de esto se reduce a qué pregunta realmente está haciendo, cómo diseña su estudio e incluso qué quiere decir con igual.
Ejecuté una pequeña inserción interesante en el British Medical Journal una vez que hablaba sobre lo que la gente interpretaba que significaban ciertas fases. Resulta que "siempre" puede significar que algo sucede tan bajo como el 91% de las veces (BMJ VOLUME 333 26 AGOSTO 2006 página 445). Entonces, tal vez igual y equivalente (o dentro de X% para algún valor de X) podría pensarse que significa lo mismo. Y preguntemos a la computadora una igualdad simple, usando R:
Ahora, un matemático puro que usa una precisión infinita podría decir que esos 2 valores no son iguales, pero R dice que lo son y, en la mayoría de los casos prácticos, lo serían (si se ofreciera a darme$ $
Mucho de esto se reduce a hacer la pregunta correcta y diseñar el estudio correcto para esa pregunta. Si terminas con suficientes datos para mostrar que una diferencia prácticamente sin sentido es estadísticamente significativa, entonces has desperdiciado recursos obteniendo esa cantidad de datos. Hubiera sido mejor decidir cuál sería una diferencia significativa y diseñar el estudio para darle el poder suficiente para detectar esa diferencia, pero no más pequeña.
Y si realmente queremos dividir los pelos, ¿cómo definimos qué partes del cordero están a la derecha y cuáles a la izquierda? Si lo definimos por una línea que, por definición, tiene el mismo número de pelos en cada lado, la respuesta a la pregunta anterior se convierte en "Por supuesto que sí".
fuente
Desde una perspectiva organizacional, ya sea el gobierno con opciones de políticas o una compañía que busca implementar un nuevo proceso / producto, el uso de un análisis simple de costo-beneficio también puede ayudar. He argumentado en el pasado que (ignorando razones políticas) dado el costo conocido de una nueva iniciativa, ¿cuál es el punto de equilibrio para un número de personas que deben verse afectadas positivamente por esa iniciativa? Por ejemplo, si la nueva iniciativa es conseguir que más personas desempleadas trabajen, y la iniciativa cuesta
$100,000
, ¿logra una reducción de las transferencias de desempleo de al menos$100,000
? De lo contrario, el efecto de la iniciativa no es prácticamente significativo.Para los resultados de salud, el valor de una vida estadística adquiere importancia. Esto se debe a que los beneficios para la salud se acumulan a lo largo de la vida (y, por lo tanto, los beneficios se ajustan a la baja en valor según una tasa de descuento ). Entonces, en lugar de significancia estadística, uno obtiene argumentos sobre cómo estimar el valor de una vida estadística y qué tasa de descuento debería aplicarse.
fuente