Si usa una estimación puntual que maximiza , ¿qué dice eso sobre su filosofía? (Frecuente o bayesiano o algo más?)

12

Si alguien dijera

"Ese método utiliza el MLE, la estimación puntual para el parámetro que maximiza , por lo tanto, es frecuentista; y además no es bayesiano".P(x|θ)

estarías de acuerdo?

  • Actualización sobre los antecedentes : Hace poco leí un artículo que dice ser frecuente. No estoy de acuerdo con su reclamo, en el mejor de los casos siento que es ambiguo. El documento no menciona explícitamente el MLE (o el MAP , para el caso). Simplemente toman una estimación puntual, y simplemente proceden como si esta estimación puntual fuera cierta. Ellos nohacer algún análisis de la distribución muestral de este estimador, o algo así; el modelo es bastante complejo y, por lo tanto, tal análisis probablemente no sea posible. Tampoco usan la palabra 'posterior' en ningún momento. Simplemente toman esta estimación puntual a su valor nominal y proceden a su tema principal de interés: inferir datos faltantes. No creo que haya nada en su enfoque que sugiera cuál es su filosofía. Es posible que hayan pretendido ser frecuentistas (porque se sienten obligados a usar su filosofía en la manga), pero su enfoque real es bastante simple / conveniente / vago / ambiguo. Ahora me inclino a decir que la investigación realmente no tiene ninguna filosofía detrás; en cambio, creo que su actitud era más pragmática o conveniente:

    "He observado datos, , y deseo estimar algunos datos faltantes, . Hay un parámetro que controla la relación entre y . Realmente no me importa excepto como un medio para un fin . Si tengo una estimación para , será más fácil predecir partir de . Elegiré una estimación puntual de porque es conveniente, en particular elegiré la que maximiza ".xθ zzθzθ θ z x θ θ P ( x | θ )xθθzxθθ^P(x|θ)

La idea de un estimador imparcial es claramente un concepto frequentista. Esto se debe a que no condiciona los datos y describe una buena propiedad (imparcialidad) que se mantendría para todos los valores del parámetro.

En los métodos bayesianos, los roles de los datos y el parámetro se invierten. En particular, ahora condicionamos los datos observados y procedemos a hacer inferencias sobre el valor del parámetro. Esto requiere un previo.

Hasta ahora todo bien, pero ¿dónde encaja el MLE (Estimación de máxima verosimilitud) en todo esto? Tengo la impresión de que mucha gente siente que es frequentista (o más precisamente, que no es bayesiano). Pero siento que es bayesiano porque implica tomar los datos observados y luego encontrar el parámetro que maximice . El MLE utiliza implícitamente un previo uniforme y condiciona los datos y maximiza . ¿Es justo decir que el MLE se ve tanto frequentista como bayesiano? ¿O cada herramienta simple tiene que caer exactamente en una de esas dos categorías?P ( p a r a m e t e r | d a t a )P(data|parameter)P(parameter|data)

El MLE es consistente pero creo que la consistencia se puede presentar como una idea bayesiana. Dadas muestras arbitrariamente grandes, la estimación converge en la respuesta correcta. La afirmación "la estimación será igual al valor verdadero" es verdadera para todos los valores del parámetro. Lo interesante es que esta afirmación también es cierta si condiciona los datos observados, haciéndolos bayesianos. Este interesante aparte vale para el MLE, pero no para un estimador imparcial.

Es por eso que siento que el MLE es el "más Bayesiano" de los métodos que podrían describirse como Frequentistas.

De todos modos, la mayoría de las propiedades frequentistas (como la imparcialidad) se aplican en todos los casos, incluidos los tamaños de muestra finitos. El hecho de que la consistencia solo se mantenga en el escenario imposible (muestra infinita dentro de un experimento) sugiere que la consistencia no es una propiedad tan útil.

Dada una muestra realista (es decir, finita), ¿existe una propiedad frequentista que sea válida para el MLE? Si no, el MLE no es realmente frequentista.

Aaron McDaid
fuente
66
El MLE no puede considerarse bayesiano a partir de la interpretación de parámetros en ambos paradigmas. Desde una perspectiva bayesiana, un parámetro es una variable aleatoria, mientras que en la configuración clásica es un valor a estimar. El MLE coincide con el MAP (y posiblemente con otros estimadores bayesianos puntuales) en muchos casos, pero la interpretación es completamente diferente.
3
@Procrastinator, debe publicar su comentario como respuesta. Todavía no espero votarlo ni aceptarlo, pero siento que tu comentario es una respuesta. Entonces, usted y yo podríamos eliminar nuestros comentarios aquí.
Aaron McDaid
1
No entiendo esta pregunta. (Puedo estar solo en esto.) ¿ Qué quieres decir exactamente con "frecuentista"? "No Bayesiano" no funcionará, porque eso comprende una gran variedad de filosofías y métodos. ¿Qué hace que algo sea una "propiedad frecuentista"? ¿Existe alguna conexión entre su "frecuentista" y, por ejemplo, un Abraham Wald o Jack Kiefer que justifica los procedimientos estadísticos con principios teóricos de decisión? (Kiefer, en particular, tenía una opinión bastante crítica de MLE sobre esta base.)
whuber
3
@whuber: No estás solo. El único voto para cerrar es el mío y se hizo hace uno o dos días. Esta pregunta carece de claridad y enfoque y limita con lo no constructivo debido a su estructura discursiva y algo polémica, en mi opinión.
cardenal
1
Los moderadores son reacios a cerrar este hilo porque ha recopilado muchas respuestas (¡incluida una que había sido aceptada!) Y comentarios, lo que sugiere que la comunidad puede estar en desacuerdo con su nueva evaluación de este hilo, Aaron.
whuber

Respuestas:

7

¿O cada herramienta simple tiene que caer exactamente en una de esas dos categorías?

No. Las herramientas simples (y no tan simples) pueden estudiarse desde muchos puntos de vista diferentes. La función de probabilidad en sí misma es una piedra angular en las estadísticas bayesianas y frecuentistas, ¡y puede estudiarse desde ambos puntos de vista! Si lo desea, puede estudiar el MLE como una solución aproximada de Bayes, o puede estudiar sus propiedades con la teoría asintótica, de manera frecuente.

kjetil b halvorsen
fuente
44
Eso está mal Aaron. Los frecuentes usan la estimación de máxima verosimilitud y creen en el principio de verosimilitud. Kjetil tiene razón en que la función de probabilidad es un elemento clave de los enfoques bayesiano y frecuentista de la inferencia. Pero lo usan de manera diferente.
Michael R. Chernick
3
He dado una muy buena respuesta a la pregunta de Aaron, pero por alguna extraña razón, la gente la rechaza. No deben entender lo que está pasando. ¡No hay forma de que la estimación de máxima verosimilitud pueda clasificarse como bayesiana, ya que maximiza la probabilidad y no considera distribuciones previas en absoluto!
Michael R. Chernick
44
(Acabo de eliminar un comentario propio, estoy tratando de asegurarme de agregar solo comentarios útiles.) Michael, no tiene sentido quejarse de votos negativos y no va a recibir ninguna simpatía simplemente diciendo "No deben entender lo que hay pasando ".
Aaron McDaid
77
@Michael, ¿alguna vez has sido testigo de un productivo intercambio que comienza con "¿por qué me rechazaron?" Claro que no. Es por eso que yo (y varios otros miembros aquí) desalentamos incluso comenzar la conversación, independientemente de si crees que está justificado o no. No tiene sentido y generalmente conduce a una discusión extendida fuera del tema.
Macro
3
@Michael, ciertamente estoy de acuerdo en que es una cortesía común dar una explicación, y trato de hacerlo si alguien más no ha expresado mi preocupación en los comentarios. Pero si recibe un voto negativo en silencio, dudo que abordar el tema inicie una conversación productiva.
Macro
10

Cuando realiza la Estimación de máxima verosimilitud, considera el valor de la estimación y las propiedades de muestreo del estimador para establecer la incertidumbre de su estimación expresada como un intervalo de confianza. Creo que esto es importante con respecto a su pregunta porque un intervalo de confianza dependerá en general de los puntos de muestra que no se observaron, lo que algunos consideran como una propiedad esencialmente no-baesiana.

PD Esto está relacionado con el hecho más general de que la Estimación de máxima verosimilitud (Punto + Intervalo) no cumple con el Principio de verosimilitud , mientras que un análisis Bayesiano completo (" estilo salvaje ") lo hace.

zen
fuente
+1. ¡La idea de que la normal truncada dará como resultado un posterior diferente es interesante y sorprendente! Comenté que era escéptico, pero eliminé ese comentario. Tendré que pensar en esto un poco más. Normalmente, creo que el Principio de Probabilidad es "obviamente cierto", por lo que debería pensar un poco más sobre esto.
Aaron McDaid
Buen punto zen. Supongo que como estimación puntual, la estimación de máxima verosimilitud cumple con el principio de verosimilitud, pero la noción frecuentista de intervalos de confianza no.
Michael R. Chernick
@ Zen, no estoy convencido de que los posteriores sean iguales. Tienes una referencia para eso? He creado un Google Doc con mi argumento de que la parte posterior cambiará a medida que reemplacemos una normal por una normal truncada. Gracias por adelantado.
Aaron McDaid
6

La función de verosimilitud es una función que involucra los datos y los parámetros desconocidos. Se puede ver como la densidad de probabilidad de los datos observados dados los valores de los parámetros. Los parámetros son fijos. Entonces, por sí mismo, la probabilidad es una noción frecuentista. Maximizar la probabilidad es solo encontrar los valores específicos de los parámetros que hacen que la probabilidad tome su valor máximo. Por lo tanto, la estimación de máxima verosimilitud es un método frecuente basado únicamente en los datos y la forma del modelo que se supone que los genera. La estimación bayesiana solo entra cuando se coloca una distribución previa en el (los) parámetro (s) y se usa la fórmula de Bayes para obtener una distribución posterior para el (los) parámetro (s) combinando el previo con la probabilidad.

Michael R. Chernick
fuente
Todos los comentarios publicados aquí se han trasladado a una sala de chat dedicada . Si alguien tiene dificultades para unirse a esta sala, y solo en este caso, marque para la atención del moderador. No se aceptarán más comentarios.
chl
6

Suponiendo que por "Bayesiano" te refieres a Bayes subjetivo (también conocido como Bayes epistémico, De-Finetti Bayes) y no al significado empírico actual de Bayes, está lejos de ser trivial. Por un lado, infiere basado solo en sus datos. No hay creencias subjetivas a la mano. Esto parece bastante frecuente ... Pero la crítica, expresada incluso en el propio Fisher (un estricto Bayesiano no (subjetivo)), es que en la elección de la distribución de muestreo de la subjetividad de los datos se ha introducido. Un parámetro solo se define dado nuestro creencias del proceso de generación de datos.

En conclusión: creo que el MLE generalmente se considera un concepto frecuentista, aunque es solo una cuestión de cómo se define "frecuentista" y "bayesiano".

JohnRos
fuente
+1: Esto es a lo que intentaba llegar en mi comentario anterior.
Neil G
1

(respondiendo propia pregunta)

Un estimador es una función que toma algunos datos y produce un número (o rango de números). Un estimador, en sí mismo, no es realmente 'bayesiano' o 'frecuenta': puede considerarse como un recuadro negro donde entran y salen números. Puede presentar el mismo estimador a un frecuentista y a un bayesiano y tendrán diferentes cosas que decir sobre el estimador.

(No estoy contento con mi distinción simplista entre frecuentista y bayesiano; hay otros temas a considerar. Pero por simplicidad, supongamos que son solo dos campos filosóficos bien definidos).

No se puede saber si un investigador es frecuentista de Bayesiano por el estimador que elige. Lo importante es escuchar qué análisis hacen en el estimador y qué razones dan para elegir ese estimador.

Imagine que crea una pieza de software que encuentra ese valor de que maximiza . Usted presenta este software a un frecuentador y les pide que hagan una presentación al respecto. Probablemente procederán analizando la distribución de muestreo y probando si el estimador está sesgado . Y tal vez verifiquen si es consistente . Aprobarán o desaprobarán el estimador en función de propiedades como esta. Estos son los tipos de propiedades que le interesan a un frecuentista.P ( x | θ )θP(x|θ)

Cuando se presenta el mismo software a un Bayesiano, el Bayesiano podría estar contento con gran parte del análisis de los frecuentistas. Sí, todas las demás cosas son iguales, el sesgo no es bueno y la consistencia es buena. Pero el Bayesiano estará más interesado en otras cosas. El bayesiano querrá ver si el estimador toma la forma de alguna función de distribución posterior; y si es así, ¿qué anterior se utilizó? Si el estimador se basa en un posterior, el Bayesiano se preguntará si el anterior es bueno. Si están contentos con lo anterior, y si el estimador está informando el modo de la parte posterior (en oposición a, por ejemplo, la media de la parte posterior), entonces están contentos de aplicar esta interpretación a la estimación: "Esta estimación es el punto estimar cuál tiene la mejor posibilidad de ser correcto ".

A menudo escucho que se dice que los frecuentistas y los bayesianos "interpretan" las cosas de manera diferente, incluso cuando los números involucrados son los mismos. Esto puede ser un poco confuso, y no creo que sea realmente cierto. Sus interpretaciones no entran en conflicto entre sí; simplemente hacen declaraciones sobre diferentes aspectos del sistema. Dejemos de lado las estimaciones puntuales por el momento y consideremos los intervalos en su lugar. En particular, hay frecuentes intervalos de confianza e intervalos bayesianos creíbles . Por lo general, darán respuestas diferentes. Pero en ciertos modelos, con ciertos antecedentes, los dos tipos de intervalo darán la misma respuesta numérica.

Cuando los intervalos son los mismos, ¿cómo podemos interpretarlos de manera diferente? Un frecuentista dirá de un estimador de intervalo:

Antes de ver los datos o el intervalo correspondiente, puedo decir que hay al menos un 95% de probabilidad de que el parámetro verdadero esté contenido dentro del intervalo.

mientras que un Bayesiano dirá de un estimador de intervalo:

Después de ver los datos o el intervalo correspondiente, puedo decir que hay al menos un 95% de probabilidad de que el parámetro verdadero esté contenido dentro del intervalo.

Estas dos declaraciones son idénticas, aparte de las palabras 'Antes' y 'Después'. El Bayesiano comprenderá y estará de acuerdo con la declaración anterior y también reconocerá que su verdad es independiente de cualquier anterior, lo que la hace "más fuerte". Pero hablando como bayesiano, me preocuparía que la declaración anterior no sea muy útil . Al frecuentista no le gustará la última declaración, pero no la entiendo lo suficientemente bien como para dar una descripción justa de las objeciones del frecuentista.

Después de ver los datos, ¿seguirá siendo frecuente el optimista de que el valor verdadero está contenido dentro del intervalo? Tal vez no. Esto es un poco contradictorio, pero es importante para comprender verdaderamente los intervalos de confianza y otros conceptos basados ​​en la distribución de muestreo. Puede suponer que el frecuentista aún diría "Dados los datos, sigo pensando que existe un 95% de probabilidad de que el valor verdadero esté en este intervalo". Un frecuentista no solo cuestionaría si esa afirmación es verdadera, sino que también cuestionaría si es significativo atribuir probabilidades de esta manera. Si tiene más preguntas sobre esto, no me pregunte, ¡este problema es demasiado para mí!

El Bayesiano se complace en hacer esa afirmación: "Según los datos que acabo de ver, la probabilidad es del 95% de que el valor verdadero esté en este rango".

Debo admitir que estoy un poco confundido en un punto final. Entiendo y estoy de acuerdo con la declaración hecha por el frecuentista antes de ver los datos. Entiendo y estoy de acuerdo con la declaración hecha por Bayesian después de ver los datos. Sin embargo, no estoy tan seguro de lo que dirá el frecuentista después de ver los datos; ¿Han cambiado sus creencias sobre el mundo? No estoy en condiciones de comprender la filosofía frecuentista aquí.

Aaron McDaid
fuente
1
Aunque encuentro mucho de esto claro y provechoso, parece ignorar por completo algo fundamental, que son diferentes interpretaciones de la probabilidad por completo. Además, los últimos dos párrafos no se aplican a ningún análisis o interpretación que haya visto. De hecho, no reconozco a ningún estadístico practicante en su "frecuentista" (que suena más bien como un filósofo antiguo). ¿Quién, al menos después de Aristóteles, alguna vez dijo que su análisis de datos está completo antes de que se hayan obtenido los datos? ¿Es este un hombre de paja para tratar de avanzar en un enfoque bayesiano?
whuber
1
@whuber, si es un hombre de paja, no es intencional. Siempre es difícil intentar informar sobre las opiniones de otros sin incluir accidentalmente un juicio al respecto. Y no pretendo tener una comprensión amplia de las muchas posiciones matizadas. Trataré de repensar mi último párrafo. Además, usted dice que omití "diferentes interpretaciones de probabilidad por completo". Prefiero no decir nada que decir algo incorrecto. No es posible decirlo todo. Puedo intentar darte la verdad y nada más que la verdad, pero no puedo darte toda la verdad :-)
Aaron McDaid
(+1) Tienes razón, hay un largo debate aquí y uno no puede cubrir todos los puntos en una publicación. Estoy votando esta respuesta por su exposición cuidadosa y reflexiva (¡pero no porque esté de acuerdo con todo!).
whuber
He editado los últimos párrafos para intentar ser más justo; desde "Después de ver los datos ..." en adelante. No soy un experto, por lo que estoy tratando de ser honestamente impreciso cuando salgo de mi profundidad. Gracias por la respuesta.
Aaron McDaid
1

P(x|θ)

Ben - Restablece a Monica
fuente