Cuándo y cómo evitar el uso inapropiado de la prueba exacta de Fisher

7

¿Podría alguien explicar por qué Richard McElreath dice que la prueba exacta de Fisher rara vez se usa adecuadamente en su excelente libro de introducción bayesiano ( Replanteamiento estadístico )?

Como referencia, el contexto está a continuación:

¿Por qué las pruebas no son suficientes para una investigación innovadora? Los procedimientos clásicos de estadística introductoria tienden a ser inflexibles y frágiles. Por inflexible, quiero decir que tienen formas muy limitadas de adaptarse a contextos de investigación únicos. Por frágil, quiero decir que fallan de manera impredecible cuando se aplican a nuevos contextos. Esto es importante, porque en los límites de la mayoría de las ciencias, casi nunca está claro qué procedimiento es apropiado. Ninguno de los golems tradicionales se ha evaluado en entornos de investigación novedosos, por lo que puede ser difícil elegir uno y luego comprender cómo se comporta.Un buen ejemplo es la prueba exacta de Fisher, que se aplica (exactamente) a un contexto empírico extremadamente estrecho, pero se usa regularmente cuando los recuentos de células son pequeños. Personalmente, he leído cientos de usos de la prueba exacta de Fisher en revistas científicas, pero aparte del uso original de Fisher, nunca he visto que se use adecuadamente. Incluso un procedimiento como la regresión lineal ordinaria, que es bastante flexible en muchos aspectos, capaz de codificar una gran diversidad de hipótesis interesantes, a veces es frágil. Por ejemplo, si hay un error de medición sustancial en las variables de predicción, entonces el procedimiento puede fallar de manera espectacular. Pero lo más importante es que casi siempre es posible hacerlo mejor que la regresión lineal ordinaria, en gran parte debido a un fenómeno conocido como sobreajuste.

hanice
fuente
3
Ver stats.stackexchange.com/q/136584/17230 . Cuando la prueba exacta de Fisher es apropiada es discutible, ciertamente ha habido debate desde que Fisher se le ocurrió.
Scortchi - Restablece a Monica
1
Choi et al. Ofrecen una visión general excelente y reciente de este tema y las controversias . (2015): dilucidando los fundamentos de la inferencia estadística con tablas de 2x2 .
COOLSerdash
1
@COOLSerdash: Ese es un hallazgo maravilloso, y contiene la respuesta que me gustaría haber escrito, libre de limitaciones de tiempo y poder mental; y mucho más además. También todas o la mayoría de las referencias que me gustaría dar; Veré si tengo más y las agregaré a mi respuesta.
Scortchi - Restablece a Monica

Respuestas:

8

Es difícil leer esta cita y no suponer que el autor considera que es un simple error utilizar la prueba exacta de Fisher cuando los totales marginales de una tabla de contingencia no están fijados por diseño. El "uso original de Fisher" de la prueba debe referirse a la famosa dama que prueba el té a quien "se le ha dicho de antemano en qué consistirá la prueba, a saber, que se le pedirá que pruebe ocho tazas, que serán cuatro de cada tipo, [...] "(Fisher (1935), El diseño de experimentos ); y luego "un contexto empírico extremadamente estrecho" se analiza como "un esquema de muestreo aplicable a pocos estudios realizados en la práctica".

Pero no es un error: condicionar el estadístico suficiente para la distribución de los datos bajo la hipótesis nula es una técnica estándar para eliminar parámetros molestos y proponer pruebas del tamaño correcto (esa es la base de las pruebas de permutación). Los totales marginales contienen muy poca información que puede usar para estimar el parámetro de interés, la razón de probabilidades; y más bien acerca de la precisión con la que puede estimarlo: el argumento es que el espacio muestral obtenido al condicionar en ambos es mucho más relevante para la inferencia que el obtenido al condicionar solo a uno, o solo al recuento total. Sin embargo, es un espacio de muestra horriblemente grueso, lo que resulta en una lamentable pérdida de poder. ¿Cómo se debe equilibrar la relevancia del espacio muestral con la pérdida de información? ¿Cuánto engrosamiento del espacio muestral es aceptable antes de una prueba asintóticamente válida o una prueba incondicional? Estas son preguntas molestas, y el análisis de tablas de contingencia de dos por dos ha sido controvertido durante medio siglo o más.

Dado que esto proviene de un texto bayesiano, creo que el autor perdió la oportunidad de burlarse de los dilemas a los que puede conducir un compromiso con el uso de métodos frecuentistas, como lo hace Jaynes en Probability Theory: The Logic of Science

† En un artículo publicado el mismo año que su libro, utilizó un ejemplo en el que, aunque el esquema de muestreo no se da explícitamente, como máximo un margen podría haberse fijado de antemano, y lo más probable es que solo se haya solucionado el recuento total. Los gemelos del mismo sexo de delincuentes condenados se clasifican como monocigóticos versus dicigóticos y condenados por crímenes en sí mismos y no condenados en una tabla de dos por dos (Fisher (1935), "La lógica de la inferencia inductiva", JRSS, 98 , 1, pp 39-82). [Editar: Los datos provienen de Lange (1929), Verbrechen als Schicksal: Studien am kriminellen Zwillingen . Wetzell (2000), Inventing the Criminal: A History of German Criminology, 1880–1945 , p 162] describe el procedimiento de recopilación de datos de Lange; eso'

Scortchi - Restablece a Monica
fuente