¿En qué condiciones coinciden los estimadores puntuales bayesianos y frecuentistas?

17

Con un previo plano, coinciden los estimadores ML (frecuentista - máxima verosimilitud) y MAP (Bayesiano - máximo a posteriori).

Sin embargo, en términos más generales, estoy hablando de estimadores puntuales derivados como optimizadores de alguna función de pérdida. Es decir

(Bayesiano)  x (

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

donde es el operador de expectativa, L es la función de pérdida (minimizado en cero), x ( y ) es el estimador, dados los datos y , del parámetro x , y variables aleatorias se indican con letras mayúsculas.ELx^(y)yx

¿Alguien sabe alguna condición sobre , el pdf de x e y , linealidad impuesta y / o imparcialidad, donde los estimadores coincidirán?Lxy

Editar

Como se señaló en los comentarios, se requiere un requisito de imparcialidad, como la imparcialidad, para que el problema frecuente sea significativo. Los antecedentes planos también pueden ser una característica común.

Además de las discusiones generales proporcionadas por algunas de las respuestas, la pregunta es realmente también acerca de proporcionar ejemplos reales . Creo que uno importante proviene de la regresión lineal:

  • los x^=(DD)1Dy es el (AZUL teorema de Gauss-Markov ), es decir, que reduce al mínimo el MSE frequentist entre estimadores lineal-imparciales.
  • si es gaussiana y la anterior es plana, x = ( D ' D ) - 1 D ' y es el "posterior" medios minimiza la pérdida media bayesiano para cualquier función de pérdida convexa.(X,Y)x^=(DD)1Dy

Aquí, parece ser conocida como matriz de datos / diseño en la jerga frecuentista / bayesiana, respectivamente.D

Patricio
fuente
¿Supongo que quieres que la respuesta asuma un plano anterior? De lo contrario, por supuesto, no hay forma de que las estimaciones sean razonables y se espere que sean las mismas en casos generales interesantes.
user56834
2
No es una pregunta simple de responder en la generalidad que la plantea, pero actualmente es un tema de investigación realmente candente, vea por ejemplo el trabajo de Judith Rousseau en esta área: ceremade.dauphine.fr/~rousseau/publi.html
Jeremias K
@JeremiasK, ¿tal vez puedas explicar algo sobre eso en una respuesta?
user56834
1
@ Programmer2134 Lo haría si me sintiera lo suficientemente cómodo con el material, pero no lo hago. Sé que lo que hacen es derivar una contraparte bayesiana de un CLT, con ciertas 'tasas de concentración posterior' que le dicen qué tan rápido el parámetro posterior se concentra en un punto en su espacio de parámetros a medida que aumenta el tamaño de la muestra, y luego básicamente termina hasta encontrar garantías de consistencia de tipo frecuentista para sus estimadores bayesianos.
Jeremías K

Respuestas:

7

La pregunta es interesante pero algo desesperada a menos que se haga precisa la noción de estimador frecuentista . Definitivamente no es la establecida en la pregunta x ( ya que la respuesta a la minimización X ( Y ) = x para todos y Es tan cabo en punta enla respuesta de Programmer2134. La cuestión fundamental es que no existe un estimador frecuentista único para un problema de estimación, sin introducir restricciones suplementarias o clases de estimadores. Sin ellos, todos los estimadores de Bayes son también estimadores frecuentistas.

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

Como se señaló en los comentarios, la imparcialidad puede ser una limitación, en cuyo caso se excluyen los estimadores de Bayes. Pero esta noción frecuentista choca con otras nociones frecuentistas como

  1. admisibilidad, ya que el fenómeno de James-Stein demostró que los estimadores imparciales pueden ser inadmisibles (dependiendo de la función de pérdida y de la dimensión del problema);
  2. invariancia bajo reparameterisation, ya que la imparcialidad no se mantiene bajo transformaciones.

Además, la imparcialidad solo se aplica a una clase restringida de problemas de estimación. Con esto, quiero decir que la clase de estimadores insesgados de cierto parámetro o de una transformada h ( θ ) está casi siempre vacía.θh(θ)

Hablando de admisibilidad, otra noción frecuentista, existen escenarios para los cuales los únicos estimadores admisibles son los estimadores de Bayes y viceversa. Este tipo de ajustes se relaciona con los teoremas de clase completos establecidos por Abraham Wald en la década de 1950. (Lo mismo se aplica a los mejores estimadores invariantes que son Bayes bajo la medida adecuada de Haar correcta).

Xi'an
fuente
1
¿Existen otras formas canónicas de restringir la clase de estimadores para que el problema de minimización esté bien definido y no degenerado (aparte de requerir imparcialidad), que están más cerca del Bayesiano?
usuario56834
3

En general, los estimadores frecuentistas y bayesianos no coinciden, a menos que use un plano degenerado antes. La razón principal es esta: los estimadores frecuentes a menudo se esfuerzan por ser imparciales. Por ejemplo, los frecuentistas a menudo intentan encontrar el estimador imparcial de varianza mínima ( http://en.wikipedia.org/wiki/Minimum-variance_unighteous_estimator ). Mientras tanto, todos los estimadores de Bayes no degenerados están sesgados (en el sentido frecuente de sesgo). Ver, por ejemplo, http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , Teorema 5.

Para resumir: la mayoría de los estimadores frecuentistas populares se esfuerzan por ser imparciales, mientras que todos los estimadores Bayes están sesgados. Por lo tanto, Bayes y los estimadores frecuentistas rara vez coinciden.

Stefan Wager
fuente
55
Me pregunto acerca de la exactitud de estas afirmaciones, dado que "la mayoría de los estimadores frecuentistas populares" son ML y tienden a estar sesgados (dependiendo de la parametrización). Además, un buen frecuentista está profundamente preocupado por la pérdida y la admisibilidad; Una parte clave de esta teoría reconoce que los procedimientos admisibles provienen de los procedimientos de Bayes, de donde, al menos en ese sentido amplio, ¡el corazón mismo de la teoría frecuentista se basa en los estimadores de Bayes! Podría convencerme de su punto de vista si pudiera ser más claro acerca de "a menudo", "la mayoría" y "rara vez", y respaldarlo con evidencia.
whuber
@whuber Buen punto: mi respuesta fue quizás un poco simplista. Los frecuentistas reales tienden a usar procedimientos sesgados (por ejemplo, regresión penalizada L1 o L2), o incluso pueden usar procedimientos formalmente bayesianos. Sin embargo, creo que los estimadores imparciales son el punto de partida para el análisis más frecuente. Por ejemplo, el primer capítulo carnoso de la teoría de la estimación puntual de Lehmann & Casella (uno de los textos estándar sobre la estimación frecuentista) trata sobre la imparcialidad.
Stefan Wager
55
Bueno, ok (+1). Pero su último argumento me parece divertido: después de todo, un libro tiene que comenzar en alguna parte y, por lo general, ese punto de partida se elige por su simplicidad y accesibilidad, no por su importancia práctica. Por el mismo razonamiento, se podría afirmar que la mayoría de las matemáticas modernas se ocupan principalmente de la lógica y la teoría de conjuntos, ¡ya que a menudo forman el primer capítulo en muchos libros de texto de matemáticas! Un mejor reflejo de la práctica estadística podría ser la última mitad de Lehmann & Casella, eche un vistazo a lo que se discute allí :-).
whuber
"a menos que use un plano degenerado antes". Bueno, este es un caso especial interesante para pensar, ¿no?
user56834
Además, su pregunta es sobre si coincidirían teóricamente bajo ciertas condiciones, no si los estimadores que se usan en la práctica coinciden.
user56834
3

argminx^(y)y

xxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^)x^x^=x

usuario56834
fuente
1
Buenos puntos. Creo que tienes razón sobre el problema frecuentista. La forma de presentarlo bien es restringir la clase de estimadores. De Lehmann y Casella: "Hasta ahora, nos hemos preocupado por encontrar estimadores que minimicen el riesgo R (θ, δ) en cada valor de θ. Esto fue posible solo restringiendo la clase de estimadores para ser considerados por un requisito de imparcialidad como como imparcialidad o equivalencia ".
Patrick
1

Puede que no exista una respuesta a esta pregunta.

Una alternativa podría ser pedir métodos para determinar las dos estimaciones de manera eficiente para cualquier problema en cuestión. Los métodos bayesianos están bastante cerca de este ideal. Sin embargo, a pesar de que los métodos minimax podrían usarse para determinar la estimación puntual frecuentista, en general, la aplicación del método minimax sigue siendo difícil y no suele usarse en la práctica.

Otra alternativa sería reformular la pregunta sobre las condiciones bajo las cuales los estimadores bayesianos y frecuentistas proporcionan resultados "consistentes" e intentan identificar métodos para calcular esos estimadores de manera eficiente. Aquí "consistente" se da a entender que los estimadores bayesianos y frecuentistas se derivan de una teoría común y que se utiliza el mismo criterio de optimización para ambos estimadores. Esto es muy diferente de tratar de oponerse a las estadísticas bayesianas y frecuentistas, y puede hacer que la pregunta anterior sea superflua. Un enfoque posible es apuntar, tanto para el caso frecuentista como para el caso bayesiano, a conjuntos de decisiones que minimicen la pérdida para un tamaño dado, es decir, según lo propuesto por

Schafer, Chad M y Philip B Stark. "Construyendo regiones de confianza del tamaño óptimo esperado". Revista de la Asociación Americana de Estadística 104.487 (2009): 1080-1089.

Resulta que esto es posible, tanto para el caso frecuentista como para el bayesiano, al incluir por preferencia observaciones y parámetros con gran información mutua puntual. Los conjuntos de decisiones no serán idénticos, ya que la pregunta que se hace es diferente:

  • Independientemente de cuál sea el parámetro verdadero, limite el riesgo de tomar decisiones equivocadas (la visión frecuentista)
  • Dadas algunas observaciones, limite el riesgo de incluir parámetros incorrectos en el conjunto de decisiones (visión bayesiana)

Sin embargo, los conjuntos se superpondrán en gran medida y se volverán idénticos en algunas situaciones, si se utilizan anteriores planos. La idea se discute con más detalle junto con una impedancia eficiente en

Bartels, Christian (2015): Confianza genérica y consistente y regiones creíbles. higo compartido. https://doi.org/10.6084/m9.figshare.1528163

Para los antecedentes informativos, los conjuntos de decisiones se desvían más (como se sabe comúnmente y se señaló en la pregunta y en las respuestas anteriores). Sin embargo, dentro del marco coherente, se obtienen pruebas frecuentas, que garantizan la cobertura frecuentista deseada, pero tienen en cuenta los conocimientos previos.

Bartels, Christian (2017): Uso de conocimientos previos en pruebas frecuentistas. higo compartido. https://doi.org/10.6084/m9.figshare.4819597

Los métodos propuestos aún carecen de una implementación eficiente de la marginaización.

usuario36160
fuente
¿Podría explicar en su pregunta más específicamente cuándo serían "consistentes"?
user56834
@ Programador2134. Gracias, traté de aclarar en la respuesta.
user36160