Introducción a las estadísticas frecuentistas para bayesianos [cerrado]

Soy un Bayesiano de mente simple que se siente cómodo en el acogedor mundo de Bayes.

Sin embargo, debido a las fuerzas malévolas fuera de mi control, ahora tengo que hacer cursos introductorios de posgrado sobre el mundo exótico y extraño de las estadísticas frecuentistas. Algunos de estos conceptos me parecen muy extraños, y mis maestros no están familiarizados con Bayes, así que pensé que recibiría ayuda en Internet de aquellos que entienden ambos.

¿Cómo explicaría los diferentes conceptos en las estadísticas frecuentistas a un bayesiano que encuentra el frecuentismo extraño e incómodo ?

Por ejemplo, algunas cosas que ya entiendo:

El estimador de máxima verosimilitud es igual al estimador posterior máximo , si es plano. $\text{argmax}_\theta \;p(D|\theta)$ $\text{argmax}_\theta \;p(\theta |D)$ $p(\theta)$
(No estoy completamente seguro de esto). Si un determinado estimador es una estadística suficiente para un parámetro , y es plano, entonces , es decir, la distribución de muestreo es igual a la función de probabilidad y, por lo tanto, igual a la parte posterior del parámetro dado un plano anterior. $\hat \theta$ $\theta$ $p(\theta)$ $p(\hat \theta|\theta)=c_1\cdot p(D|\theta)=c_1\cdot c_2\cdot p(\theta|D)$

Esos son ejemplos de explicar conceptos frecuentistas a alguien que entiende los bayesianos.

¿Cómo explicaría de manera similar los otros conceptos centrales de las estadísticas frecuentistas en términos que un bayesiano pueda entender?

Específicamente, estoy interesado en las siguientes preguntas:

¿Cuál es el papel del error cuadrático medio? ¿Cómo se relaciona con las funciones de pérdida bayesianas?
¿Cómo se relaciona el criterio de "imparcialidad" con los criterios bayesianos? Sé que un Bayesiano no exigirá que sus estimadores sean imparciales, pero al mismo tiempo, un Bayesiano probablemente estaría de acuerdo en que un estimador frecuente imparcial es generalmente más deseable que uno frecuente (aunque él consideraría que ambos son inferiores a el estimador bayesiano). Entonces, ¿cómo entiende un Bayesiano la imparcialidad?
Si tenemos antecedentes planos, ¿coinciden los intervalos de confianza frecuentas de alguna manera con los bayesianos?
¿Qué sucede en nombre de Laplace con pruebas de especificación como la prueba ? ¿Es este un caso especial degenerado de una actualización bayesiana sobre la distribución en el espacio modelo? $F$

Más generalmente:

¿Hay algún recurso que explique el frecuentismo a los bayesianos? La mayoría de los libros van al revés: explican el bayesianismo a personas con experiencia en estadísticas frecuentistas.

PD. He mirado, y aunque ya hay muchas preguntas sobre la diferencia entre bayesiano y frequentismo, ninguna explica explícitamente el frequentismo desde la perspectiva de un bayesiano.

Esta pregunta está relacionada, pero no se trata específicamente de explicar conceptos frequentistas a un bayesiano (más sobre justificar el pensamiento frecuentista en general).

Además, mi punto no es criticar el frecuentismo. Realmente quiero entenderlo mejor

bayesian references frequentist usuario56834
fuente

Esta puede ser una pregunta válida, pero parece demasiado amplia en este formulario, ya que parece que nos pide que traduzcamos cualquier posible método frecuentista en forma bayesiana: ¡se podría escribir un libro sobre este tema! La mayoría de los manuales introductorios bayesianos (por ejemplo, Kruschke) discuten esos temas ya que están dirigidos a los frecuentistas. Además, probablemente ya use muchas herramientas frecuentas (por ejemplo, para diagnosticar sus cadenas MCMC). Algunos de los temas que menciona no son puramente bayesianos (función de pérdida). ¿Podría intentar editar su pregunta para hacerlo más específico?

Tim

Simpatizo y aprecio la pregunta. Además de la literatura, si está interesado en las ideas de la comunidad sobre preguntas específicas, le recomiendo que intente dividirse. Muchos de ellos suenan muy interesantes. Tengo que admitir que me he hecho varias de estas preguntas con éxito mixto.

Benoit Sanchez

Esta pregunta me hizo encogerme y pensar que la educación estadística está rota. La forma en que alguien logró pasar las estadísticas básicas sin la noción de sesgo es desconcertante. Del mismo modo, el hecho de que un estudiante encuentre que sus educadores no están " versados en Bayes " para que no puedan explicar adecuadamente las "Estadísticas Frecuentes" a un "Bayesiano", ¿no lo sé ... incómodo ? (No hago voto negativo ni nada, creo que es bueno que el OP pregunte y la respuesta de TIm a continuación es muy sensata (+1) pero realmente ... la pregunta me inquietaba porque algo estaba fundamentalmente mal en este contexto)

usεr11852

No vas a entender realmente la escalada en roca si te obligas a verla como natación vertical.

David Ernst

Tome una prueba t simple, entonces, no calcula un posterior porque explícitamente no quiere elegir un previo. ¿Cómo vas a encontrar un equivalente bayesiano para evitar Bayes? Con MLE, ha encontrado la única técnica en la que identificará fácilmente un equivalente bayesiano, ya que esto es básicamente una técnica bayesiana en todo menos en el nombre.

David Ernst

Respuestas:

En realidad, muchas de las cosas mencionadas por usted ya se analizan en los principales manuales bayesianos. En muchos casos, esos manuales están escritos para frecuentadores por capacitación, por lo que discuten muchas similitudes e intentan traducir los métodos frecuentistas al terreno bayesiano. Un ejemplo es el libro Doing Bayesian Data Analysis de John K. Kruschke o su traducción de papel $t$ -prueba en tierra bayesiana. También hay otro psicólogo, Eric-Jan Wagenmakers, que con su equipo habló mucho sobre la traducción de conceptos frecuentistas al terreno bayesiano. Conceptos teóricos de decisión como funciones de pérdida, falta de sensibilidad, etc. se discuten en el libro The Bayesian Choice de Christian P. Robert.

Además, algunos de los conceptos mencionados por usted no son realmente bayesianos. Por ejemplo, la función de pérdida es un concepto general y solo si se combina con una distribución previa se obtiene un riesgo de Bayes.

También vale la pena mencionar que, incluso si usted es autoproclamado bayesiano, entonces probablemente ya use muchos métodos frecuentas. Por ejemplo, si usa MCMC para la estimación y luego calcula la media de la cadena MCMC como su estimación puntual, entonces está usando un estimador frecuente, ya que no está usando ningún modelo bayesiano y anteriores para obtener la estimación de la media de la MCMC cadena.

Finalmente, algunos conceptos y herramientas frecuentistas no son fácilmente traducibles al entorno bayesiano, o los "equivalentes" propuestos son más bien pruebas de concepto, algo que usaría en la vida real. En muchos casos, los enfoques son simplemente diferentes y buscar paralelos es una pérdida de tiempo.

Tim
fuente

(+1): muy buenos puntos!

Xi'an

Puede encontrar este blog interesante: errorstatistics.com

kjetil b halvorsen

(No estoy completamente seguro de esto). Si un determinado estimador es una estadística suficiente para un parámetro , y es plano, entonces , es decir, la distribución de muestreo es igual a la función de verosimilitud y, por lo tanto, igual a la parte posterior del parámetro dado un plano anterior. $\hat θ̂$ $θ$ $p(θ)$ $p(\hat θ̂ |θ)=p(D|θ)=c⋅p(θ|D)$

Esto es incorrecto:

$p(D|θ)=p(\hat θ̂ |θ)\times p(D|\hat θ)$ cuando es una estadística suficiente $\hat θ$
$p(D|θ)=c⋅p(θ|D)$ es falso cuando se considera como una función de , y cuando se considera como una función de (a menos que uno use el plano anterior) $D$ $θ$
solo el posterior basado en igual al posterior basado en en este contexto. $\hat θ$ $D$

Además, la suficiencia no tiene nada que ver con el frecuentismo versus el bayesianismo, aunque existen específicamente nociones bayesianas de suficiencia. Como por ejemplo en la comparación de modelos .

un bayesiano probablemente estaría de acuerdo en que un estimador frecuentista imparcial es generalmente más deseable que uno frecuente frecuentado

El problema con esta parte de la pregunta es que los estimadores bayesianos son también estimadores frecuentistas, ya que satisfacen propiedades frecuentistas como la admisibilidad o, a veces, la mínima. Como se discutió en una entrada reciente de CV , las estimaciones de Bayes con pérdida de error al cuadrado no pueden ser imparciales . Y no hay ninguna razón más allá del uso de una función de pérdida especial para favorecer la imparcialidad: minimizar una pérdida posterior es exhaustivo y si la imposición de la imparcialidad da como resultado una pérdida mayor, no debe considerarse. (Un último punto es que hay muy pocas funciones del parámetro que permitan estimadores insesgados).

Xi'an
fuente

Solo para aclarar, ese punto no fue un intento de conectar el concepto de suficiencia con el bayesianismo, sino conectar el concepto de distribuciones de muestreo con distribuciones posteriores. Los conceptos de suficiencia en frecuentismo y bayesianismo son equivalentes, lo que se puede ver simplemente aplicando la regla de bayes. Pero estudiaré tu publicación e intentaré entenderlo mejor.

user56834

Me parece que estás considerando un mundo de frecuentistas y bayesianos. Eso no tiene muchos matices. Por ejemplo, si tiene que ser uno u otro, o como si los métodos aplicados están determinados por algunas creencias personales (en lugar de la conveniencia y el problema específico y la información a la mano). Creo que este es un concepto erróneo basado en las tendencias actuales de llamarse frecuentista o bayesiano, y también mucho lenguaje estadístico puede ser confuso. Solo trate de que un grupo de estadísticos explique el valor p o el intervalo de confianza.

Algunas obras clásicas pueden ayudarlo a comprender la inferencia frecuentista. Las obras clásicas contienen principios fundamentales, están cerca del calor de la discusión entre los proponentes y proporcionan un trasfondo de la motivación y relevancia (práctica) en ese momento.

Además, estos trabajos clásicos sobre métodos frecuentistas, fueron escritos en una época en la que la gente trabajaba principalmente con principios bayesianos y cálculos matemáticos de probabilidad (tenga en cuenta que la estadística no siempre es como si estuviera trabajando en un problema matemático típico con probabilidades, las probabilidades pueden ser muy mal definido).

La probabilidad frecuente no es la probabilidad inversa

'Probabilidad inversa' Fisher 1930

Usted hace una noción de la probabilidad de ser una expresión bayesiana con un plano anterior

Sin embargo,

mientras que las matemáticas coinciden (cuando se interpretan incorrectamente, ya que puede obtener P (x | a) = P (a | x), hasta una constante, pero no son los mismos términos), la construcción y el significado son diferentes.
Probabilidad no pretende ser una "probabilidad bayesiana basada en antecedentes planos o uniformados". La probabilidad ni siquiera es una probabilidad y no sigue las reglas de las distribuciones de probabilidad (por ejemplo, no puede sumar la probabilidad de diferentes eventos, y la integral no es igual a uno), es solo cuando la multiplica con un previo plano, que se convierte en una probabilidad, pero luego el significado también ha cambiado.

Algunas citas interesantes de 'probabilidad inversa' 1930 Fisher.

Los métodos bayesianos y frecuentistas son herramientas diferentes :

... hay dos medidas diferentes de creencia racional apropiadas para diferentes casos. Conociendo la población, podemos expresar nuestro conocimiento incompleto o la expectativa de la muestra en términos de probabilidad; conociendo la muestra podemos expresar nuestro conocimiento incompleto de la población en términos de probabilidad. Podemos establecer la probabilidad relativa de que una correlación desconocida sea + 0.6, pero no la probabilidad de que se encuentre en el rango .595-.605.

Tenga en cuenta que no es una declaración de probabilidad determinado, lo que proporciona un método frecuencial.

Al construir una tabla de valores correspondientes, podemos saber tan pronto como se calcule T cuál es el 5% fiducial, el valor de , y que el verdadero valor de será menor que este valor en solo el 5%, de juicios. Entonces, esta es una declaración de probabilidad definida sobre el parámetro desconocido , que es cierto independientemente de cualquier suposición en cuanto a su distribución a priori . $\theta$ $\theta$ $\theta$

un método frecuentista hace una declaración sobre la probabilidad de que un experimento (con intervalo aleatorio) tenga el valor verdadero de un parámetro (posiblemente aleatorio) dentro del intervalo dado por una estadística.
Esto no se debe confundir con la probabilidad de que un experimento específico (con intervalo fijo) tenga el valor verdadero del parámetro (fijo) dentro del intervalo dado por la estadística.

Consulte también "Sobre el" Error probable "de un coeficiente de correlación deducido de una muestra pequeña". Fisher 1921 en el que Fisher demostró la diferencia de que su método no es una probabilidad inversa bayesiana.

En el artículo anterior se encontró, aplicando un método desarrollado previamente, que el valor << más probable >> de la correlación de la población era, numéricamente, ligeramente más pequeño que el de la muestra. Esta conclusión fue criticada negativamente en Biométrica , aparentemente por la suposición incorrecta de que la deduje del teorema de Bayes . Se mostrará en este documento que cuando las curvas de muestreo se vuelven aproximadamente normales, la corrección que propuse es igual a la distancia entre el valor de la población y el punto medio de la curva de muestreo y, en consecuencia, no es más que la corrección de un sesgo constante introducido por el método de cálculo. No se supone nada sobre la probabilidad a priori.

... dos conceptos radicalmente distintos se han confundido bajo el nombre de << probabilidad >> ...

eso es probabilidad y verosimilitud. Véase también la nota al final del artículo de Fishers de 1921 en el que habla más sobre la confusión.

Tenga en cuenta nuevamente que la probabilidad es una función de un conjunto de parámetros, pero no una función de densidad de probabilidad de ese conjunto de parámetros.

La probabilidad se usa para algo que puedes observar. Por ejemplo, la probabilidad de que un dado arroje seis. La probabilidad se usa para algo que no puedes observar, por ejemplo, la hipótesis de que un dado tira seis 1/6 de las veces.

Además, es posible que le guste el trabajo de Fisher en el que es mucho más ligero en su opinión sobre el teorema de Bayes (aún describe las diferencias). 'Sobre los fundamentos matemáticos de la estadística teórica' Fisher 1922 (especialmente la sección 6 'solución formal del problema de estimación')

Más

Si puede comprender y apreciar los comentarios de Fisher sobre la diferencia entre la probabilidad inversa y el principio de probabilidad, es posible que desee leer más sobre las diferencias dentro de los métodos frecuentistas.

'Esquema de una teoría de la estimación estadística basada en la teoría clásica de la probabilidad' Neyman 1937

Que es un trabajo de 50 páginas y difícil de resumir. Pero trata sus preguntas sobre la falta de sesgo , explica el método de mínimos cuadrados (y la diferencia con el método de máxima verosimilitud), y proporciona específicamente un tratamiento de los intervalos de confianza (los intervalos frecuentas ya no son similares, únicos, y mucho menos que sean lo mismo que los intervalos bayesianos para los priors planos).

Con respecto a la prueba F, no está claro qué, en nombre de Laplace, crees que está mal. Si le gusta un uso temprano, puede buscar en 'Estudios sobre variación de cultivos. II La respuesta del estiércol de diferentes variedades de papa '1923 Fisher y Mackenzie

Este artículo tiene la expresión de anova en un modelo lineal reconocible que subdivide las sumas de cuadrados entre grupos y dentro de ellos.

(en la prueba del artículo de 1923, la prueba consiste en una comparación de las diferencias entre los registros de las desviaciones estándar de la muestra con un error estándar calculado para esta diferencia que se determina mediante una suma de grados de libertad . Los trabajos posteriores hacen que estas expresiones más sofisticadas conduzcan a la distribución F, de modo que pueda difundir las ideas que uno pueda tener al respecto. Pero, en esencia, sin el malabarismo técnico debido a distribuciones más exactas para números pequeños, su origen es muy parecido a una prueba z). $\frac{1}{2d_1} + \frac{1}{2d_2}$

Sexto Empírico
fuente