¿Qué quiere decir Fisher con esta cita?

14

Sigo viendo esta famosa cita en todas partes, pero no entiendo la parte enfatizada cada vez.

Un hombre que "rechaza" una hipótesis provisionalmente, como una práctica habitual, cuando la importancia está en el nivel del 1% o superior, ciertamente se equivocará en no más del 1% de tales decisiones. Porque cuando la hipótesis es correcta, se equivocará en solo el 1% de estos casos, y cuando es incorrecta, nunca se equivocará en el rechazo. [...] Sin embargo, el cálculo es absurdamente académico, ya que de hecho ningún trabajador científico tiene un nivel fijo de importancia en el que año tras año, y en todas las circunstancias, rechaza las hipótesis; más bien da su mente a cada caso particular a la luz de su evidencia y sus ideas.No debe olvidarse que los casos elegidos para aplicar una prueba son manifiestamente un conjunto altamente seleccionado, y que las condiciones de selección no pueden especificarse ni siquiera para un solo trabajador; ni que en el argumento utilizado sea claramente ilegítimo para uno elegir el nivel real de significación indicado por un juicio particular como si fuera su hábito de toda la vida usar solo este nivel.

(Métodos estadísticos e inferencia científica, 1956, p. 42-45)

Más específicamente, no entiendo

  1. ¿Por qué los casos elegidos para aplicar una prueba son "altamente seleccionados"? Digamos que se pregunta si la altura promedio de las personas dentro de un área es inferior a 165 cm, y decide realizar una prueba. El procedimiento estándar, hasta donde yo sé, es extraer muestras aleatorias del área y medir su altura. ¿Cómo puede ser esto altamente seleccionado?
  2. Suponga que los casos están altamente seleccionados, pero ¿cómo se relaciona esto con la elección del nivel de significancia? Considere nuevamente el ejemplo anterior, si su método de muestreo (lo que supongo es a lo que Fisher se refiere como condiciones de selección ) está sesgado y de alguna manera favorece a las personas altas, entonces toda la investigación se arruina, y la determinación subjetiva del nivel de significancia no puede salvarlo.
  3. En realidad, ni siquiera sé a qué se refiere "el nivel real de significación indicado por un ensayo en particular". ¿Es el valor pag de ese experimento, algún valor preestablecido como el (in) famoso 0.05, o algo más?
nalzok
fuente

Respuestas:

15

Aquí está mi paráfrasis de lo que dice Fisher en su cita en negrita. No debe olvidarse que se necesita mucho para elegir qué hipótesis probar, tanto que incluso para la decisión de una sola persona, no se puede especificar todo. Tampoco debe olvidarse que, por las razones indicadas anteriormente, no puede decidir el nivel de importancia de un ensayo en particular siempre de la misma manera, como un hábito de por vida.

  1. Se selecciona una hipótesis científica que vale la pena probar contra muchas otras hipótesis en competencia debido a los prejuicios del investigador y su estado actual de conocimiento. Las hipótesis son "altamente seleccionadas", no las muestras; Las hipótesis son los casos en los que aplicamos pruebas.

  2. El proceso de selección de las hipótesis afecta nuestro nivel de significancia. Si estamos muy seguros de una hipótesis, eso debería hacer que el nivel de significación sea menos estricto para satisfacernos a nosotros mismos. Si no estamos seguros, existe una mayor carga de la prueba. También entran en juego otros factores, como el error Tipo I que es peor que el Tipo II en ensayos de drogas.

  3. Creo que cuando dice "indicado por" simplemente significa "elegido para". Sí, es un valor preestablecido donde rechazamos la hipótesis si el valor p es más extremo.

Drew N
fuente
10

Los casos a los que se refiere Fisher no son observaciones sino pruebas. Es decir, seleccionamos hipótesis para probar. No solo probamos hipótesis aleatorias, las basamos en la observación, la literatura, las teorías científicas, etc.

Si hizo la prueba de hipótesis al azar, entonces el número de veces que se equivocan (en la primera frase de su cotización) sería de 1% (o cualquier valor es elegido). Por ejemplo, si probamos hipótesis como

  • La paridad del número de seguro social de una persona está relacionada con su coeficiente intelectual

  • Las personas de cabello rubio lanzan frisbees mejor que las personas de cabello oscuro

  • El tiempo para obtener una respuesta en Cross Validated está relacionado con la cantidad de sílabas en su nombre.

Y probamos un montón de ellos al 1%, rechazaríamos el valor nulo aproximadamente el 1% del tiempo, y lo haríamos incorrectamente. (A menos, por supuesto, que tenga algo con las tonterías anteriores).

Una vez vi un artículo sobre el color del cabello y el lanzamiento de Frisbee, ¡y encontró una diferencia! Entonces, llamo a este tipo de cosas "Investigación de Frisbee".

Pero la parte que más me gusta de la cita es esta:

porque, de hecho, ningún trabajador científico tiene un nivel de significación fijo en el que año tras año, y en todas las circunstancias, rechaza las hipótesis; más bien da su mente a cada caso particular a la luz de su evidencia y sus ideas.

Debe estar girando en su tumba.

Peter Flom - Restablece a Monica
fuente
44
Esta es una buena respuesta, pero dudo en ver la "investigación de Frisbee" como cosas malas. Mientras las metodologías se empleen adecuadamente (teniendo en cuenta el tamaño del efecto, etc.), consideraría que el resultado es plausible. Quiero decir, se cree que el color del cabello no tiene nada que ver con el lanzamiento de Frisbee, ¡pero se aceptó que la Tierra está en el centro del universo hasta hace cientos de años! Podemos criticar a las personas por hacer las cosas mal, pero no debemos culpar a nadie por hacer preguntas. Dicho esto, estoy de acuerdo en que algunas hipótesis son menos útiles que otras, pero aún así, pueden ser correctas .
nalzok
Y también pueden ser errores de tipo I.
Peter Flom - Restablece a Monica
1
Relacionado: xkcd.com/882
jkdev
2

Intentando ver el fondo de la cita, llegué a una versión del libro (no estoy seguro de cuál es la versión) que tiene una cita ligeramente diferente.

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

Los intentos que se han hecho para explicar la fuerza de las pruebas de importancia en la investigación científica, en referencia a las frecuencias hipotéticas de posibles afirmaciones, basadas en ellas, correctas o incorrectas, parecen perder la naturaleza esencial de tales pruebas. Un hombre que "rechaza" una hipótesis provisionalmente, como una práctica habitual, cuando la importancia está en el nivel del 1% o superior, ciertamente se equivocará en no más del 1% de tales decisiones. Porque cuando la hipótesis es correcta, se equivocará en solo el 1% de estos casos, y cuando es incorrecta, nunca se equivocará en el rechazo. Esta declaración de desigualdad, por lo tanto, se puede hacer. Sin embargo, el cálculo es absurdamente académico, ya que de hecho ningún trabajador científico tiene un nivel fijo de importancia en el que año tras año, y en todas las circunstancias, él rechaza las hipótesis; más bien da su mente a cada caso particular a la luz de su evidencia y sus ideas. Además, el cálculo se basa únicamente en una hipótesis que, a la luz de la evidencia, a menudo no se cree que sea cierta en absoluto, de modo que la probabilidad real de una decisión errónea, suponiendo que dicha frase tenga algún significado, puede ser mucho menos que la frecuencia que especifica el nivel de significación. Para un hombre práctico, también, que rechaza una hipótesis, es, por supuesto, una cuestión de indiferencia con respecto a la probabilidad de que pueda ser llevado a aceptar la hipótesis falsamente, ya que en su caso no la está aceptando. a menudo no se cree que sea cierto en absoluto, de modo que la probabilidad real de una decisión errónea, suponiendo que dicha frase tenga algún significado, puede ser mucho menor que la frecuencia que especifica el nivel de significación. Para un hombre práctico, también, que rechaza una hipótesis, es, por supuesto, una cuestión de indiferencia con respecto a la probabilidad de que pueda ser llevado a aceptar la hipótesis falsamente, ya que en su caso no la está aceptando. a menudo no se cree que sea cierto en absoluto, de modo que la probabilidad real de una decisión errónea, suponiendo que dicha frase tenga algún significado, puede ser mucho menor que la frecuencia que especifica el nivel de significación. Para un hombre práctico, también, que rechaza una hipótesis, es, por supuesto, una cuestión de indiferencia con respecto a la probabilidad de que pueda ser llevado a aceptar la hipótesis falsamente, ya que en su caso no la está aceptando.

Esto me parece una crítica para usar la expresión matemática de las posibilidades de rechazo, errores tipo I, como un argumento riguroso. Esas expresiones a menudo no son una buena expresión para lo que es relevante y tampoco son rigurosas.

  1. ¿Por qué los casos elegidos para aplicar una prueba son "altamente seleccionados"?

    Esto parece estar relacionado con la oración.

    Además, el cálculo se basa únicamente en una hipótesis que, a la luz de la evidencia, a menudo no se cree que sea cierta.

    No somos indiferentes a la hipótesis que se está probando y, a menudo, una hipótesis que se está probando no se considera verdadera.

  2. ¿Cómo se relaciona esto con la elección del nivel de significación?

    Esto se relaciona con

    de modo que la probabilidad real de una decisión errónea, suponiendo que dicha frase tenga algún significado, puede ser mucho menor que la frecuencia que especifica el nivel de significancia

    El valor p es solo la frecuencia de cometer un error cuando la hipótesis nula es verdadera. Pero la frecuencia real de cometer un error será diferente (menor).

  3. ¿cuál es "el nivel real de significación indicado por un ensayo particular" en referencia a

    Creo que esta parte se refiere a algún tipo de piratería de valor p. Cambiando el nivel de significancia, alfa, después de que ocurrieron las observaciones para que coincida con el valor p observado, y pretenda que este fue el valor de corte desde el principio.

Sexto empírico
fuente