¿Por qué continuar enseñando y usando pruebas de hipótesis (cuando hay intervalos de confianza disponibles)?

56

¿Por qué continuar enseñando y usando las pruebas de hipótesis (con todos sus conceptos difíciles y cuáles están entre los pecados más estadísticos) para problemas donde hay un estimador de intervalo (confianza, arranque, credibilidad o lo que sea)? ¿Cuál es la mejor explicación (si la hay) para dar a los estudiantes? ¿Solo tradición? Las vistas serán muy bienvenidas.

Washington S. Silva
fuente
¿Duplicar?
csgillespie
44
Estas citas son muy apropiadas. Todos los modelos están equivocados, pero algunos son útiles.
mpiktas

Respuestas:

60

Esta es mi opinión personal, por lo que no estoy seguro de que califique adecuadamente como respuesta.

¿Por qué deberíamos enseñar pruebas de hipótesis?

En resumen, una razón muy importante es que, con toda probabilidad, en el tiempo que le lleva leer esta oración, se han realizado cientos, si no miles (o millones) de pruebas de hipótesis dentro de un radio de 10 pies de donde se sienta.

Su teléfono celular definitivamente está utilizando una prueba de razón de probabilidad para decidir si está o no dentro del alcance de una estación base. El hardware WiFi de su computadora portátil está haciendo lo mismo al comunicarse con su enrutador.

El microondas que usó para recalentar automáticamente esa pieza de pizza de dos días de antigüedad utilizó una prueba de hipótesis para decidir cuándo su pizza estaba lo suficientemente caliente.

El sistema de control de tracción de su automóvil se activó cuando le dio demasiada gasolina en una carretera helada, o el sistema de advertencia de presión de los neumáticos le permite saber que su neumático trasero del lado del pasajero estaba anormalmente bajo y que los faros se encendieron automáticamente a las 5: 19:00 cuando se acercaba el anochecer.

Su iPad representa esta página en formato horizontal basado en lecturas de acelerómetro (ruidosas).

Su compañía de tarjeta de crédito cerró su tarjeta cuando "usted" compró un televisor de pantalla plana en Best Buy en Texas y un anillo de diamantes de $ 2000 en Zales en un centro comercial del estado de Washington dentro de un par de horas de comprar el almuerzo, la gasolina y una película cerca de su casa en los suburbios de Pittsburgh.

Los cientos de miles de bits que se enviaron para representar esta página web en su navegador, cada uno individualmente, se sometieron a una prueba de hipótesis para determinar si probablemente eran un 0 o un 1 (además de una sorprendente corrección de errores).

Mire a la derecha un poco sobre esos temas "relacionados".

Todas estas cosas "sucedieron" debido a pruebas de hipótesis . Para muchas de estas cosas, se podría calcular una estimación de intervalo de algún parámetro. Pero, especialmente para procesos industriales automatizados, el uso y la comprensión de las pruebas de hipótesis son cruciales.


En un nivel estadístico más teórico, el concepto importante de poder estadístico surge de forma bastante natural de un marco de prueba teórico de decisión / prueba de hipótesis. Además, creo que "incluso" un matemático puro puede apreciar la belleza y la simplicidad del lema de Neyman-Pearson y su prueba.

Esto no quiere decir que las pruebas de hipótesis se enseñen o entiendan bien. En general, no lo es. Y, aunque estaría de acuerdo en que, particularmente en las ciencias médicas, la presentación de informes de estimaciones de intervalos junto con los tamaños del efecto y las nociones de significación práctica frente a estadística son casi universalmente preferibles a cualquier prueba de hipótesis formal, esto no significa que las pruebas de hipótesis y las relacionadas Los conceptos no son importantes e interesantes por derecho propio.

cardenal
fuente
2
Gracias por la interesante lista de ejemplos. Dado el objetivo de la pregunta: contribuir al debate sobre la revisión de nuestros cursos de estadística, intentaremos obtener más detalles sobre la implementación de las pruebas en dispositivos modernos, puede ser una gran motivación para nuestros estudiantes de ingeniería.
Washington S. Silva
3
La mayoría de sus ejemplos no necesitan realmente una prueba de hipótesis clásica (lo que implica un nivel de confianza fijo) sino un procedimiento de decisión.
kjetil b halvorsen
1
Estimado @kjetil: Un voto negativo parece un poco duro aquí, para ser honesto. De hecho, la pregunta no hace nada específico sobre la prueba de hipótesis clásica , ¡y mi respuesta tampoco hace esa suposición! (Las pruebas de hipótesis se interpretan ampliamente aquí, y con buenas razones.)
Cardenal
1
Necesito comprar un microondas con recalentamiento automático.
jmbejara
2
Esta es una respuesta muy elocuente, pero estaría muy agradecido si explicara un poco más sobre por qué todas estas cosas son "pruebas de hipótesis". Entiendo que todos sus ejemplos son sobre decisiones binarias automatizadas. Me imagino que en la mayoría de los casos se mide algún valor y luego se compara con un límite para decidir si está por encima o por debajo (y, por lo tanto, llegar a la decisión). ¿Esto ya califica como una "prueba de hipótesis" para usted, o quiso decir algo más? Supongo que cuando OP preguntó por qué todavía se enseña la prueba de hipótesis, no se refirieron a un umbral simple.
ameba dice Reinstate Monica
29

Enseño pruebas de hipótesis por varias razones. Uno es histórico, que tendrán que comprender una gran cantidad de investigaciones previas que leyeron y comprender el punto de vista de la prueba de hipótesis. Un segundo es que, incluso en los tiempos modernos, algunos investigadores lo siguen utilizando, a menudo implícitamente, cuando realizan otros tipos de análisis estadísticos.

Pero cuando lo enseño, lo enseño en el marco de la construcción de modelos, que estos supuestos y estimaciones son parte de la construcción de modelos. De esa manera, es relativamente fácil cambiar a la comparación de modelos más complejos y teóricamente interesantes. La investigación con mayor frecuencia enfrenta teorías entre sí en lugar de una teoría versus nada.

Los pecados de las pruebas de hipótesis no son inherentes a las matemáticas y al uso adecuado de esos cálculos. Donde se encuentran principalmente es en la excesiva confianza y la mala interpretación. Si la gran mayoría de los investigadores ingenuos usaran exclusivamente la estimación de intervalos sin reconocer ninguna de las relaciones con estas cosas que llamamos hipótesis, podríamos llamar a eso un pecado.

John
fuente
+1, gracias. Bien discutido. Pero en los cursos introductorios, no hay selección de modelo, en sentido estricto. ¿Podría citar otros contextos que sean apropiados para la introducción de la prueba de hipótesis? ¿Es aceptable informar el resultado de una prueba sin una estimación de potencia?
Washington S. Silva
2
No tener una selección de modelo en los cursos introductorios no es una necesidad. Si está considerando cambiar un curso, considérelo como un buen lugar para comenzar.
John
20

PAGSPAGSPAGSPAGS

Frank Harrell
fuente
2
No quisiera que en algunos campos, "El único lugar ..." e "incluya ANOVA ..." signifique que acaba de cubrir una gran cantidad de la caja de herramientas estadísticas.
Fomite
44
Creo que hay mucho que decir para este puesto. Dado que muchos investigadores en su mayoría quieren saber acerca de los patrones en sus datos, a menudo me he preguntado si podríamos reservar razonablemente gran parte de las estadísticas y simplemente usar gráficos de los datos. (Por supuesto, esto supone que las parcelas se llevaría a cabo con habilidad y perspicacia, y pruebas de hipótesis no sería tan malo si podríamos decir lo mismo de ellos.)
Gung - Restablecer Mónica
1
A pesar de todo, no estoy de acuerdo con la cita "la ausencia de evidencia no es evidencia de ausencia". La ausencia de evidencia de un efecto no es prueba de que no exista ningún efecto, pero ciertamente constituye evidencia contra ese efecto existente. La pregunta es más sobre cuánta evidencia contra el efecto tiene un resultado no significativo. Creo que el problema con los valores p grandes es que, en el caso de distribución normal, los valores p grandes son evidencia de la hipótesis, ya que son una función monotónica de la bondad del ajuste. Y debido a que la distribución normal es tan común, la gente ve esto y extrapola
probabilidad
55
PAGS
11

Creo que depende de la prueba de hipótesis de la que estés hablando. Se dice que la prueba de hipótesis "clásica" (Neyman-Pearson) es defectuosa porque no condiciona adecuadamente lo que realmente sucedió cuando realizó la prueba . En cambio, está diseñado para funcionar "independientemente" de lo que realmente viste a largo plazo. Pero no condicionar puede conducir a resultados engañosos en el caso individual. Esto es simplemente porque el procedimiento "no importa" sobre el caso individual, a largo plazo.

Las pruebas de hipótesis se pueden incluir en el marco teórico de decisión, que creo que es una forma mucho mejor de entenderlo. Puede reformular el problema como dos decisiones:

  1. H0 0
  2. HUNA

El marco de decisión es mucho más fácil de entender, porque separa claramente los conceptos de "¿qué vas a hacer?" y "¿cuál es la verdad?" (a través de su información previa).

Incluso podría aplicar la "teoría de la decisión" (DT) a su pregunta. Pero para detener la prueba de hipótesis, DT dice que debe tener una decisión alternativa disponible para usted. Entonces la pregunta es: si se abandonan las pruebas de hipótesis, ¿qué ocupará su lugar? No puedo pensar en una respuesta a esta pregunta. Solo puedo pensar en formas alternativas de hacer pruebas de hipótesis.

(NOTA: en el contexto de la prueba de hipótesis, los datos, la distribución de muestreo, la distribución previa y la función de pérdida son información previa porque se obtienen antes de tomar la decisión).

probabilidadislogica
fuente
Mi objetivo con el tema era recopilar opiniones de expertos para enriquecer el debate sobre la revisión de cursos de estadística que está en curso en el instituto donde trabajo en Brasil. El objetivo se está logrando, con opiniones tan bien posicionadas como @cardinal, @Andrew Robinson, @probabilityislogic y @JMS. Claramente, las pruebas de hipótesis (a través de NP, DT o Byes) deben enseñarse muy bien, pero los desafíos para construir cursos, según sea apropiado, dada la universalidad de la enseñanza de la estadística, son igualmente o más complejos que la técnica misma. Gracias por tu contribución.
Washington S. Silva
1
Me encanta la teoría de la decisión, si se hace rigurosamente utilizando métodos bayesianos que incorporan funciones razonables de pérdida / utilidad. Si tales funciones no están disponibles, tiendo a favorecer la estimación de intervalos.
Frank Harrell
@FrankHarrell: estoy de acuerdo, pero todavía clasificaría la estimación de intervalos como una especie de "teoría de la decisión" en la que la función de utilidad generalmente se basa en el contenido de la información (es decir, las conclusiones que utilizan más de la información que tenemos son mejores), y esto está optimizado por la distribución posterior en sí, y posiblemente una predicción posterior si la predicción es de interés. La estimación del intervalo proporciona un resumen conveniente de la parte posterior. Y los buenos intervalos de confianza (p. Ej., Basados ​​en MLE) proporcionan una muy buena aproximación a esto cuando la información fuera de los datos disponibles es escasa
Probabilidad
por lo general, utiliza la estimación de intervalos cuando no tiene una decisión específica en mente (que probablemente sea la razón principal por la que no tendría una función de pérdida razonable), por lo que necesita atender a muchos escenarios diferentes.
probabilidad es
9

Si yo fuera un Frecuentista incondicional, le recordaría que los intervalos de confianza son con frecuencia pruebas de hipótesis invertidas, es decir, cuando el intervalo del 95% es simplemente otra forma de describir todos los puntos que una prueba que involucra sus datos no rechazaría en el .05 nivel. En estas situaciones, una preferencia por uno sobre el otro es cuestión de exposición en lugar de método.

Ahora, la exposición es importante, por supuesto, pero creo que sería un buen argumento. Es ordenado y esclarecedor explicar los dos enfoques como reformulaciones de la misma inferencia desde diferentes puntos de vista. (El hecho de que no todos los estimadores de intervalo sean pruebas invertidas es un hecho poco elegante pero no particularmente incómodo, pedagógicamente hablando).

Implicaciones mucho más serias provienen de la decisión de condicionar las observaciones, como se señaló anteriormente. Sin embargo, incluso en retirada, el Frecuentista siempre pudo observar que hay muchas situaciones (tal vez no una mayoría) en las que el condicionamiento de las observaciones sería imprudente o poco iluminador. Para aquellos, la configuración HT / CI es (no 'son') exactamente lo que se desea, y debe enseñarse como tal.

conjugadoprior
fuente
Hablando formalmente, cualquier prueba de hipótesis con alfa limitado en la tasa de error de Tipo I puede convertirse en un intervalo de confianza con el parámetro de cobertura (1-alfa) y viceversa, ¿no? No creo que tenga que ser un frecuentista incondicional para creer que esto está implicado en las definiciones. :-)
Keith Winstein
3
@Keith No hay discusión sobre las definiciones, pero tienes que ser un Frecuentista para considerar que son más que interesantes y quizás útiles fragmentos de matemáticas. Es decir, si cree que las propiedades teóricas de muestreo son vitales para la inferencia estadística, entonces (o debería) estar igualmente interesado en los intervalos de confianza y las pruebas de hipótesis, ya que, como estamos de acuerdo, tienen esta simetría. La mía fue una respuesta al contraste de los interrogadores entre los IC 'buenos' y los HT 'malos'. Al agruparlos, quería volver a centrarme en los contrastes presentados en otras respuestas.
conjugateprior
7

Al enseñar las pruebas de hipótesis de Neyman Pearson a los primeros estudiantes de estadística, a menudo he tratado de ubicarlo en su entorno original: el de tomar decisiones. Entonces, la infraestructura de los errores tipo 1 y tipo 2 tiene sentido, al igual que la idea de que podría aceptar la hipótesis nula.

Tenemos que tomar una decisión, creemos que el resultado de nuestra decisión puede mejorarse mediante el conocimiento de un parámetro, solo tenemos una estimación de ese parámetro. Todavía tenemos que tomar una decisión. Entonces, ¿cuál es la mejor decisión para tomar en el contexto de tener una estimación del parámetro?

Me parece que en su entorno original (tomar decisiones frente a la incertidumbre) la prueba de hipótesis NP tiene mucho sentido. Ver, por ejemplo, N & P 1933, particularmente p. 291.

Neyman y Pearson. Sobre el problema de las pruebas más eficientes de hipótesis estadísticas. Transacciones filosóficas de la Royal Society de Londres. Serie A, que contiene documentos de carácter matemático o físico (1933) vol. 231 págs. 289-337

Andrew Robinson
fuente
4

La prueba de hipótesis es una forma útil de enmarcar muchas preguntas: ¿el efecto de un tratamiento es cero o distinto de cero? Creo que la capacidad entre afirmaciones como estas y un modelo o procedimiento estadístico (incluida la construcción de un estimador de intervalos) es importante para los profesionales.

También vale la pena mencionar que un intervalo de confianza (en el sentido tradicional) no es inherentemente menos "propenso al pecado" que la prueba de hipótesis: ¿cuántas estadísticas introductorias los estudiantes conocen la definición real de un intervalo de confianza?

Quizás el problema no sea la prueba de hipótesis o la estimación de intervalos, ya que son las versiones clásicas de la misma; la formulación bayesiana los evita muy bien.

JMS
fuente
2
@JMS, "¿cuántas estadísticas introductorias conocen los estudiantes la definición real de un intervalo de confianza?" O, graduados de doctorado, para el caso.
cardenal
¡Bastante! Por cierto, no quise excavar a los estudiantes o practicantes de ningún tipo. Pero es un poco loco esperar la gimnasia mental de alguien que no se inscribió para un trabajo avanzado en estadística.
JMS
2
Cuanta gente pueden decir la definición real de los IC? ¿Y cuántas personas los usan consistentemente con esta definición? Es demasiado difícil no pensar "es probable que el parámetro esté en dicho intervalo", incluso si sabe que no es lo que es un IC.
probabilityislogic
E sobre a prática usual de não reportar-se estimativas do
Washington S. Silva
1
Lo que intenté expresar es que las pruebas de hipótesis que no van acompañadas de estimaciones de potencia son muy cuestionables y que las estimaciones de intervalo no tienen esta fuente adicional de complicaciones.
Washington S. Silva
2

La razón es la toma de decisiones. En la mayoría de las decisiones, lo haces o no. Puede seguir mirando los intervalos durante todo el día, al final hay un momento en el que decide hacerlo o no.

La prueba de hipótesis encaja perfectamente en esta simple realidad de SÍ / NO.

Aksakal
fuente