Así que acabo de leer un gran libro Introducción a Empirical Bayes . Pensé que el libro era genial, pero construir anteriores a partir de los datos se sintió mal. Fui entrenado para que elabore un plan de análisis, luego recopile datos y luego pruebe la hipótesis que previamente determinó en su plan de análisis. Cuando realiza un análisis de los datos que ya se han recopilado, esto lo coloca en una inferencia posselectiva en la que debe ser mucho más estricto con lo que llama "significativo", vea aquí . Creo que el aprendizaje automático tiene algo análogo que se llama "selección de cereza", que significa elegir predictores antes de configurar conjuntos de prueba y entrenamiento ( Introducción al aprendizaje estadístico ).
Dado lo que he aprendido anteriormente, me parece que Bayes empírico se basa en una base débil. ¿La gente lo usa solo en entornos donde los datos se generaron pasivamente? Si es así, esto puede ser justificable, pero no parece correcto usarlo cuando se realiza un diseño experimental riguroso, sin embargo, sé que Brad Efron usa Bayes empíricos específicamente para Bioestadística, generalmente un campo muy NHST.
Mis preguntas son:
- ¿Cómo es válido el empírico Bayes?
- ¿En qué situaciones se usa?
- ¿En qué situaciones debe evitar usar el enfoque empírico de Bayes y por qué?
- ¿Las personas lo usan en otros campos además de Bioestadística? De ser así, ¿en qué situaciones lo usan?
Respuestas:
Creo que es importante recordar que los diferentes métodos son buenos para diferentes cosas, y las pruebas de significación no son todo lo que hay en el mundo de las estadísticas.
1 y 3) EB probablemente no sea un procedimiento de prueba de hipótesis válido, pero tampoco está destinado a serlo.
La validez podría ser muchas cosas, pero usted está hablando del Diseño Experimental Riguroso, por lo que probablemente estamos discutiendo una prueba de hipótesis que se supone que lo ayudará a tomar la decisión correcta con cierta frecuencia a largo plazo. Este es un régimen estrictamente dicotómico de tipo sí / no que es principalmente útil para las personas que tienen que tomar una decisión de tipo sí / no. Hay mucho trabajo clásico sobre esto por personas muy inteligentes. Estos métodos tienen una buena validez teórica en el límite, suponiendo que se cumplan todas sus suposiciones, & c. Sin embargo, EB ciertamente no fue hecho para esto. Si desea la maquinaria de los métodos clásicos de NHST, adhiérase a los métodos clásicos de NHST.
2) EB se aplica mejor en problemas en los que se estiman muchas cantidades variables similares.
El propio Efron abre su libro Inferencia a gran escala que enumera tres eras distintas de la historia de las estadísticas, y señala que actualmente estamos en
Él continúa:
Tal vez la aplicación reciente éxito la mayor parte de EB es
limma
, disponibles en Bioconductor . Este es un paquete R con métodos para evaluar la expresión diferencial (es decir, microarrays) entre dos grupos de estudio en decenas de miles de genes. Smyth muestra que sus métodos de EB producen una estadística t con más grados de libertad que si se calcularan estadísticas t genéticas regulares. El uso de EB aquí "es equivalente a la reducción de las variaciones de muestra estimadas hacia una estimación agrupada, lo que da como resultado una inferencia mucho más estable cuando el número de matrices es pequeño", lo que a menudo es el caso.Como Efron señala anteriormente, esto no se parece en nada al para qué se desarrolló el NHST clásico, y el entorno suele ser más exploratorio que confirmatorio.
4) Generalmente, puede ver EB como un método de contracción, y puede ser útil en todas partes donde la contracción es útil
limma
Cuanto más similares sean las cantidades que se estimen, más probable es que la contracción sea útil. El libro al que se refiere utiliza tasas de éxito en el béisbol. Morris (1983) señala un puñado de otras aplicaciones:
Todos estos son problemas de estimación paralela y, que yo sepa, tienen más que ver con hacer una buena predicción de lo que es cierta cantidad que con determinar una decisión de sí / no.
Algunas referencias
fuente