Soy un Bayesiano de mente simple que se siente cómodo en el acogedor mundo de Bayes.
Sin embargo, debido a las fuerzas malévolas fuera de mi control, ahora tengo que hacer cursos introductorios de posgrado sobre el mundo exótico y extraño de las estadísticas frecuentistas. Algunos de estos conceptos me parecen muy extraños, y mis maestros no están familiarizados con Bayes, así que pensé que recibiría ayuda en Internet de aquellos que entienden ambos.
¿Cómo explicaría los diferentes conceptos en las estadísticas frecuentistas a un bayesiano que encuentra el frecuentismo extraño e incómodo ?
Por ejemplo, algunas cosas que ya entiendo:
- El estimador de máxima verosimilitud es igual al estimador posterior máximo , si es plano.
- (No estoy completamente seguro de esto). Si un determinado estimador es una estadística suficiente para un parámetro , y es plano, entonces , es decir, la distribución de muestreo es igual a la función de probabilidad y, por lo tanto, igual a la parte posterior del parámetro dado un plano anterior.
Esos son ejemplos de explicar conceptos frecuentistas a alguien que entiende los bayesianos.
¿Cómo explicaría de manera similar los otros conceptos centrales de las estadísticas frecuentistas en términos que un bayesiano pueda entender?
Específicamente, estoy interesado en las siguientes preguntas:
- ¿Cuál es el papel del error cuadrático medio? ¿Cómo se relaciona con las funciones de pérdida bayesianas?
- ¿Cómo se relaciona el criterio de "imparcialidad" con los criterios bayesianos? Sé que un Bayesiano no exigirá que sus estimadores sean imparciales, pero al mismo tiempo, un Bayesiano probablemente estaría de acuerdo en que un estimador frecuente imparcial es generalmente más deseable que uno frecuente (aunque él consideraría que ambos son inferiores a el estimador bayesiano). Entonces, ¿cómo entiende un Bayesiano la imparcialidad?
- Si tenemos antecedentes planos, ¿coinciden los intervalos de confianza frecuentas de alguna manera con los bayesianos?
- ¿Qué sucede en nombre de Laplace con pruebas de especificación como la prueba ? ¿Es este un caso especial degenerado de una actualización bayesiana sobre la distribución en el espacio modelo?
Más generalmente:
¿Hay algún recurso que explique el frecuentismo a los bayesianos? La mayoría de los libros van al revés: explican el bayesianismo a personas con experiencia en estadísticas frecuentistas.
PD. He mirado, y aunque ya hay muchas preguntas sobre la diferencia entre bayesiano y frequentismo, ninguna explica explícitamente el frequentismo desde la perspectiva de un bayesiano.
Esta pregunta está relacionada, pero no se trata específicamente de explicar conceptos frequentistas a un bayesiano (más sobre justificar el pensamiento frecuentista en general).
Además, mi punto no es criticar el frecuentismo. Realmente quiero entenderlo mejor
fuente
Respuestas:
En realidad, muchas de las cosas mencionadas por usted ya se analizan en los principales manuales bayesianos. En muchos casos, esos manuales están escritos para frecuentadores por capacitación, por lo que discuten muchas similitudes e intentan traducir los métodos frecuentistas al terreno bayesiano. Un ejemplo es el libro Doing Bayesian Data Analysis de John K. Kruschke o su traducción de papelt -prueba en tierra bayesiana. También hay otro psicólogo, Eric-Jan Wagenmakers, que con su equipo habló mucho sobre la traducción de conceptos frecuentistas al terreno bayesiano. Conceptos teóricos de decisión como funciones de pérdida, falta de sensibilidad, etc. se discuten en el libro The Bayesian Choice de Christian P. Robert.
Además, algunos de los conceptos mencionados por usted no son realmente bayesianos. Por ejemplo, la función de pérdida es un concepto general y solo si se combina con una distribución previa se obtiene un riesgo de Bayes.
También vale la pena mencionar que, incluso si usted es autoproclamado bayesiano, entonces probablemente ya use muchos métodos frecuentas. Por ejemplo, si usa MCMC para la estimación y luego calcula la media de la cadena MCMC como su estimación puntual, entonces está usando un estimador frecuente, ya que no está usando ningún modelo bayesiano y anteriores para obtener la estimación de la media de la MCMC cadena.
Finalmente, algunos conceptos y herramientas frecuentistas no son fácilmente traducibles al entorno bayesiano, o los "equivalentes" propuestos son más bien pruebas de concepto, algo que usaría en la vida real. En muchos casos, los enfoques son simplemente diferentes y buscar paralelos es una pérdida de tiempo.
fuente
Esto es incorrecto:
Además, la suficiencia no tiene nada que ver con el frecuentismo versus el bayesianismo, aunque existen específicamente nociones bayesianas de suficiencia. Como por ejemplo en la comparación de modelos .
El problema con esta parte de la pregunta es que los estimadores bayesianos son también estimadores frecuentistas, ya que satisfacen propiedades frecuentistas como la admisibilidad o, a veces, la mínima. Como se discutió en una entrada reciente de CV , las estimaciones de Bayes con pérdida de error al cuadrado no pueden ser imparciales . Y no hay ninguna razón más allá del uso de una función de pérdida especial para favorecer la imparcialidad: minimizar una pérdida posterior es exhaustivo y si la imposición de la imparcialidad da como resultado una pérdida mayor, no debe considerarse. (Un último punto es que hay muy pocas funciones del parámetro que permitan estimadores insesgados).
fuente
Me parece que estás considerando un mundo de frecuentistas y bayesianos. Eso no tiene muchos matices. Por ejemplo, si tiene que ser uno u otro, o como si los métodos aplicados están determinados por algunas creencias personales (en lugar de la conveniencia y el problema específico y la información a la mano). Creo que este es un concepto erróneo basado en las tendencias actuales de llamarse frecuentista o bayesiano, y también mucho lenguaje estadístico puede ser confuso. Solo trate de que un grupo de estadísticos explique el valor p o el intervalo de confianza.
Algunas obras clásicas pueden ayudarlo a comprender la inferencia frecuentista. Las obras clásicas contienen principios fundamentales, están cerca del calor de la discusión entre los proponentes y proporcionan un trasfondo de la motivación y relevancia (práctica) en ese momento.
Además, estos trabajos clásicos sobre métodos frecuentistas, fueron escritos en una época en la que la gente trabajaba principalmente con principios bayesianos y cálculos matemáticos de probabilidad (tenga en cuenta que la estadística no siempre es como si estuviera trabajando en un problema matemático típico con probabilidades, las probabilidades pueden ser muy mal definido).
La probabilidad frecuente no es la probabilidad inversa
'Probabilidad inversa' Fisher 1930
Usted hace una noción de la probabilidad de ser una expresión bayesiana con un plano anterior
Sin embargo,
mientras que las matemáticas coinciden (cuando se interpretan incorrectamente, ya que puede obtener P (x | a) = P (a | x), hasta una constante, pero no son los mismos términos), la construcción y el significado son diferentes.
Probabilidad no pretende ser una "probabilidad bayesiana basada en antecedentes planos o uniformados". La probabilidad ni siquiera es una probabilidad y no sigue las reglas de las distribuciones de probabilidad (por ejemplo, no puede sumar la probabilidad de diferentes eventos, y la integral no es igual a uno), es solo cuando la multiplica con un previo plano, que se convierte en una probabilidad, pero luego el significado también ha cambiado.
Algunas citas interesantes de 'probabilidad inversa' 1930 Fisher.
Los métodos bayesianos y frecuentistas son herramientas diferentes :
Tenga en cuenta que no es una declaración de probabilidad determinado, lo que proporciona un método frecuencial.
Consulte también "Sobre el" Error probable "de un coeficiente de correlación deducido de una muestra pequeña". Fisher 1921 en el que Fisher demostró la diferencia de que su método no es una probabilidad inversa bayesiana.
y
eso es probabilidad y verosimilitud. Véase también la nota al final del artículo de Fishers de 1921 en el que habla más sobre la confusión.
Tenga en cuenta nuevamente que la probabilidad es una función de un conjunto de parámetros, pero no una función de densidad de probabilidad de ese conjunto de parámetros.
La probabilidad se usa para algo que puedes observar. Por ejemplo, la probabilidad de que un dado arroje seis. La probabilidad se usa para algo que no puedes observar, por ejemplo, la hipótesis de que un dado tira seis 1/6 de las veces.
Además, es posible que le guste el trabajo de Fisher en el que es mucho más ligero en su opinión sobre el teorema de Bayes (aún describe las diferencias). 'Sobre los fundamentos matemáticos de la estadística teórica' Fisher 1922 (especialmente la sección 6 'solución formal del problema de estimación')
Más
Si puede comprender y apreciar los comentarios de Fisher sobre la diferencia entre la probabilidad inversa y el principio de probabilidad, es posible que desee leer más sobre las diferencias dentro de los métodos frecuentistas.
'Esquema de una teoría de la estimación estadística basada en la teoría clásica de la probabilidad' Neyman 1937
Que es un trabajo de 50 páginas y difícil de resumir. Pero trata sus preguntas sobre la falta de sesgo , explica el método de mínimos cuadrados (y la diferencia con el método de máxima verosimilitud), y proporciona específicamente un tratamiento de los intervalos de confianza (los intervalos frecuentas ya no son similares, únicos, y mucho menos que sean lo mismo que los intervalos bayesianos para los priors planos).
Con respecto a la prueba F, no está claro qué, en nombre de Laplace, crees que está mal. Si le gusta un uso temprano, puede buscar en 'Estudios sobre variación de cultivos. II La respuesta del estiércol de diferentes variedades de papa '1923 Fisher y Mackenzie
Este artículo tiene la expresión de anova en un modelo lineal reconocible que subdivide las sumas de cuadrados entre grupos y dentro de ellos.
(en la prueba del artículo de 1923, la prueba consiste en una comparación de las diferencias entre los registros de las desviaciones estándar de la muestra con un error estándar calculado para esta diferencia que se determina mediante una suma de grados de libertad . Los trabajos posteriores hacen que estas expresiones más sofisticadas conduzcan a la distribución F, de modo que pueda difundir las ideas que uno pueda tener al respecto. Pero, en esencia, sin el malabarismo técnico debido a distribuciones más exactas para números pequeños, su origen es muy parecido a una prueba z).12d1+12d2
fuente