¿Por qué continuar enseñando y usando las pruebas de hipótesis (con todos sus conceptos difíciles y cuáles están entre los pecados más estadísticos) para problemas donde hay un estimador de intervalo (confianza, arranque, credibilidad o lo que sea)? ¿Cuál es la mejor explicación (si la hay) para dar a los estudiantes? ¿Solo tradición? Las vistas serán muy bienvenidas.
hypothesis-testing
confidence-interval
teaching
Washington S. Silva
fuente
fuente
Respuestas:
Esta es mi opinión personal, por lo que no estoy seguro de que califique adecuadamente como respuesta.
¿Por qué deberíamos enseñar pruebas de hipótesis?
En resumen, una razón muy importante es que, con toda probabilidad, en el tiempo que le lleva leer esta oración, se han realizado cientos, si no miles (o millones) de pruebas de hipótesis dentro de un radio de 10 pies de donde se sienta.
Su teléfono celular definitivamente está utilizando una prueba de razón de probabilidad para decidir si está o no dentro del alcance de una estación base. El hardware WiFi de su computadora portátil está haciendo lo mismo al comunicarse con su enrutador.
El microondas que usó para recalentar automáticamente esa pieza de pizza de dos días de antigüedad utilizó una prueba de hipótesis para decidir cuándo su pizza estaba lo suficientemente caliente.
El sistema de control de tracción de su automóvil se activó cuando le dio demasiada gasolina en una carretera helada, o el sistema de advertencia de presión de los neumáticos le permite saber que su neumático trasero del lado del pasajero estaba anormalmente bajo y que los faros se encendieron automáticamente a las 5: 19:00 cuando se acercaba el anochecer.
Su iPad representa esta página en formato horizontal basado en lecturas de acelerómetro (ruidosas).
Su compañía de tarjeta de crédito cerró su tarjeta cuando "usted" compró un televisor de pantalla plana en Best Buy en Texas y un anillo de diamantes de $ 2000 en Zales en un centro comercial del estado de Washington dentro de un par de horas de comprar el almuerzo, la gasolina y una película cerca de su casa en los suburbios de Pittsburgh.
Los cientos de miles de bits que se enviaron para representar esta página web en su navegador, cada uno individualmente, se sometieron a una prueba de hipótesis para determinar si probablemente eran un 0 o un 1 (además de una sorprendente corrección de errores).
Mire a la derecha un poco sobre esos temas "relacionados".
Todas estas cosas "sucedieron" debido a pruebas de hipótesis . Para muchas de estas cosas, se podría calcular una estimación de intervalo de algún parámetro. Pero, especialmente para procesos industriales automatizados, el uso y la comprensión de las pruebas de hipótesis son cruciales.
En un nivel estadístico más teórico, el concepto importante de poder estadístico surge de forma bastante natural de un marco de prueba teórico de decisión / prueba de hipótesis. Además, creo que "incluso" un matemático puro puede apreciar la belleza y la simplicidad del lema de Neyman-Pearson y su prueba.
Esto no quiere decir que las pruebas de hipótesis se enseñen o entiendan bien. En general, no lo es. Y, aunque estaría de acuerdo en que, particularmente en las ciencias médicas, la presentación de informes de estimaciones de intervalos junto con los tamaños del efecto y las nociones de significación práctica frente a estadística son casi universalmente preferibles a cualquier prueba de hipótesis formal, esto no significa que las pruebas de hipótesis y las relacionadas Los conceptos no son importantes e interesantes por derecho propio.
fuente
Enseño pruebas de hipótesis por varias razones. Uno es histórico, que tendrán que comprender una gran cantidad de investigaciones previas que leyeron y comprender el punto de vista de la prueba de hipótesis. Un segundo es que, incluso en los tiempos modernos, algunos investigadores lo siguen utilizando, a menudo implícitamente, cuando realizan otros tipos de análisis estadísticos.
Pero cuando lo enseño, lo enseño en el marco de la construcción de modelos, que estos supuestos y estimaciones son parte de la construcción de modelos. De esa manera, es relativamente fácil cambiar a la comparación de modelos más complejos y teóricamente interesantes. La investigación con mayor frecuencia enfrenta teorías entre sí en lugar de una teoría versus nada.
Los pecados de las pruebas de hipótesis no son inherentes a las matemáticas y al uso adecuado de esos cálculos. Donde se encuentran principalmente es en la excesiva confianza y la mala interpretación. Si la gran mayoría de los investigadores ingenuos usaran exclusivamente la estimación de intervalos sin reconocer ninguna de las relaciones con estas cosas que llamamos hipótesis, podríamos llamar a eso un pecado.
fuente
fuente
Creo que depende de la prueba de hipótesis de la que estés hablando. Se dice que la prueba de hipótesis "clásica" (Neyman-Pearson) es defectuosa porque no condiciona adecuadamente lo que realmente sucedió cuando realizó la prueba . En cambio, está diseñado para funcionar "independientemente" de lo que realmente viste a largo plazo. Pero no condicionar puede conducir a resultados engañosos en el caso individual. Esto es simplemente porque el procedimiento "no importa" sobre el caso individual, a largo plazo.
Las pruebas de hipótesis se pueden incluir en el marco teórico de decisión, que creo que es una forma mucho mejor de entenderlo. Puede reformular el problema como dos decisiones:
El marco de decisión es mucho más fácil de entender, porque separa claramente los conceptos de "¿qué vas a hacer?" y "¿cuál es la verdad?" (a través de su información previa).
Incluso podría aplicar la "teoría de la decisión" (DT) a su pregunta. Pero para detener la prueba de hipótesis, DT dice que debe tener una decisión alternativa disponible para usted. Entonces la pregunta es: si se abandonan las pruebas de hipótesis, ¿qué ocupará su lugar? No puedo pensar en una respuesta a esta pregunta. Solo puedo pensar en formas alternativas de hacer pruebas de hipótesis.
(NOTA: en el contexto de la prueba de hipótesis, los datos, la distribución de muestreo, la distribución previa y la función de pérdida son información previa porque se obtienen antes de tomar la decisión).
fuente
Si yo fuera un Frecuentista incondicional, le recordaría que los intervalos de confianza son con frecuencia pruebas de hipótesis invertidas, es decir, cuando el intervalo del 95% es simplemente otra forma de describir todos los puntos que una prueba que involucra sus datos no rechazaría en el .05 nivel. En estas situaciones, una preferencia por uno sobre el otro es cuestión de exposición en lugar de método.
Ahora, la exposición es importante, por supuesto, pero creo que sería un buen argumento. Es ordenado y esclarecedor explicar los dos enfoques como reformulaciones de la misma inferencia desde diferentes puntos de vista. (El hecho de que no todos los estimadores de intervalo sean pruebas invertidas es un hecho poco elegante pero no particularmente incómodo, pedagógicamente hablando).
Implicaciones mucho más serias provienen de la decisión de condicionar las observaciones, como se señaló anteriormente. Sin embargo, incluso en retirada, el Frecuentista siempre pudo observar que hay muchas situaciones (tal vez no una mayoría) en las que el condicionamiento de las observaciones sería imprudente o poco iluminador. Para aquellos, la configuración HT / CI es (no 'son') exactamente lo que se desea, y debe enseñarse como tal.
fuente
Al enseñar las pruebas de hipótesis de Neyman Pearson a los primeros estudiantes de estadística, a menudo he tratado de ubicarlo en su entorno original: el de tomar decisiones. Entonces, la infraestructura de los errores tipo 1 y tipo 2 tiene sentido, al igual que la idea de que podría aceptar la hipótesis nula.
Tenemos que tomar una decisión, creemos que el resultado de nuestra decisión puede mejorarse mediante el conocimiento de un parámetro, solo tenemos una estimación de ese parámetro. Todavía tenemos que tomar una decisión. Entonces, ¿cuál es la mejor decisión para tomar en el contexto de tener una estimación del parámetro?
Me parece que en su entorno original (tomar decisiones frente a la incertidumbre) la prueba de hipótesis NP tiene mucho sentido. Ver, por ejemplo, N & P 1933, particularmente p. 291.
Neyman y Pearson. Sobre el problema de las pruebas más eficientes de hipótesis estadísticas. Transacciones filosóficas de la Royal Society de Londres. Serie A, que contiene documentos de carácter matemático o físico (1933) vol. 231 págs. 289-337
fuente
La prueba de hipótesis es una forma útil de enmarcar muchas preguntas: ¿el efecto de un tratamiento es cero o distinto de cero? Creo que la capacidad entre afirmaciones como estas y un modelo o procedimiento estadístico (incluida la construcción de un estimador de intervalos) es importante para los profesionales.
También vale la pena mencionar que un intervalo de confianza (en el sentido tradicional) no es inherentemente menos "propenso al pecado" que la prueba de hipótesis: ¿cuántas estadísticas introductorias los estudiantes conocen la definición real de un intervalo de confianza?
Quizás el problema no sea la prueba de hipótesis o la estimación de intervalos, ya que son las versiones clásicas de la misma; la formulación bayesiana los evita muy bien.
fuente
La razón es la toma de decisiones. En la mayoría de las decisiones, lo haces o no. Puede seguir mirando los intervalos durante todo el día, al final hay un momento en el que decide hacerlo o no.
La prueba de hipótesis encaja perfectamente en esta simple realidad de SÍ / NO.
fuente