¿Cuándo (y por qué) los bayesianos rechazan los métodos bayesianos válidos? [cerrado]

9

Por lo que he leído y por las respuestas a otras preguntas que he hecho aquí, muchos de los llamados métodos frecuentistas corresponden matemáticamente ( no me importa si corresponden filosóficamente , solo me importa si corresponde matemáticamente) a casos especiales de los llamados Métodos bayesianos (para aquellos que se oponen a esto, vea la nota al final de esta pregunta). Esta respuesta a una pregunta relacionada (no la mía) respalda esta conclusión:

La mayoría de los métodos frequentistas tienen un equivalente bayesiano que en la mayoría de las circunstancias dará esencialmente el mismo resultado.

Tenga en cuenta que en lo que sigue, ser matemáticamente el mismo significa dar el mismo resultado. Si caracteriza dos métodos que pueden probar que siempre dan los mismos resultados como "diferentes", ese es su derecho, pero ese es un juicio filosófico, no matemático ni práctico.

Sin embargo, muchas personas que se autodescriben como "bayesianos" parecen rechazar el uso de la estimación de máxima verosimilitud en cualquier circunstancia, a pesar de que es un caso especial de métodos ( matemáticamente ) bayesianos, porque es un "método frecuentista". Aparentemente, los bayesianos también usan un número restringido / limitado de distribuciones en comparación con los frecuentistas, a pesar de que esas distribuciones también serían matemáticamente correctas desde el punto de vista bayesiano.

Pregunta: ¿ Cuándo y por qué los bayesianos rechazan los métodos matemáticamente correctos desde el punto de vista bayesiano? ¿Hay alguna justificación para esto que no sea "filosófica"?

ingrese la descripción de la imagen aquí

Antecedentes / Contexto: Las siguientes son citas de respuestas y comentarios a una pregunta anterior mía en CrossValidated :

La base matemática para el debate bayesiano vs frecuentista es muy simple. En las estadísticas bayesianas, el parámetro desconocido se trata como una variable aleatoria; en las estadísticas frecuentistas se trata como un elemento fijo ...

De lo anterior, habría concluido que ( matemáticamente hablando ) los métodos bayesianos son más generales que los frecuentistas, en el sentido de que los modelos frecuentistas satisfacen todos los mismos supuestos matemáticos que los bayesianos, pero no viceversa. Sin embargo, la misma respuesta argumentó que mi conclusión de lo anterior era incorrecta (el énfasis en lo que sigue es mío):

Aunque la constante es un caso especial de una variable aleatoria, dudaría en concluir que el bayesianismo es más general. No obtendría resultados frecuentistas de los bayesianos simplemente colapsando la variable aleatoria a una constante. La diferencia es más profunda ...

Ir a las preferencias personales ... No me gusta que las estadísticas bayesianas utilicen un subconjunto bastante restringido de distribuciones disponibles.

Otro usuario, en su respuesta, declaró lo contrario, que los métodos bayesianos son más generales, aunque curiosamente la mejor razón que pude encontrar por qué este podría ser el caso fue en la respuesta anterior, dada por alguien capacitado como frecuentador.

La consecuencia matemática es que los Frecuentistas piensan que las ecuaciones básicas de probabilidad solo se aplican a veces, y los Bayesianos piensan que siempre se aplican. Entonces ven las mismas ecuaciones como correctas, pero difieren en cuán generales son ... Bayesiano es estrictamente más general que Frequentista. Como puede haber incertidumbre acerca de cualquier hecho, a cualquier hecho se le puede asignar una probabilidad. En particular, si los hechos en los que está trabajando están relacionados con las frecuencias del mundo real (ya sea como algo que está prediciendo o como parte de los datos), entonces los métodos bayesianos pueden considerarlos y usarlos como lo harían con cualquier otro hecho del mundo real. En consecuencia, cualquier problema que los Frecuentistas sientan que sus métodos se aplican a los Bayesianos también puede funcionar de forma natural.

De las respuestas anteriores, tengo la impresión de que hay al menos dos definiciones diferentes del término Bayesiano de uso común. El primero lo llamaría "matemáticamente bayesiano", que abarca todos los métodos de estadística, ya que incluye parámetros que son RV constantes y aquellos que no son RV constantes. Luego está "culturalmente bayesiano" que rechaza algunos métodos "matemáticamente bayesianos" porque esos métodos son "frecuentes" (es decir, por animosidad personal al parámetro que a veces se modela como una constante o frecuencia). Otra respuesta a la pregunta antes mencionada también parece apoyar esta conjetura:

También es de notar que hay muchas divisiones entre los modelos utilizados por los dos campos que están más relacionadas con lo que se ha hecho que con lo que se puede hacer (es decir, muchos modelos que tradicionalmente se usan en un campo pueden estar justificados por el otro campo )

Así que supongo que otra forma de formular mi pregunta sería la siguiente: ¿Por qué los bayesianos culturales se llaman a sí mismos bayesianos si rechazan muchos métodos matemáticamente bayesianos? ¿Y por qué rechazan estos métodos matemáticamente bayesianos? ¿Es una animosidad personal para las personas que usan con mayor frecuencia esos métodos particulares?

Editar: Dos objetos son equivalentes en un sentido matemático si tienen las mismas propiedades , independientemente de cómo se construyan. Por ejemplo, puedo pensar en al menos cinco formas diferentes de construir la unidad imaginaria . Sin embargo, no hay al menos cinco "escuelas de pensamiento" diferentes sobre el estudio de los números imaginarios; de hecho, creo que solo hay uno, que es ese grupo que estudia sus propiedades. Para aquellos que objetan que obtener una estimación puntual utilizando la máxima probabilidad no es lo mismo que obtener una estimación puntual utilizando un máximo a priori y un uniforme previo porque los cálculos involucrados son diferentes, les concedo que son diferentes en un sentido filosófico , pero para la medida en que siempreidan los mismos valores para la estimación, son matemáticamente equivalentes, porque tienen las mismas propiedades . Tal vez la diferencia filosófica es relevante para usted personalmente, pero no es relevante para esta pregunta.

Nota: Esta pregunta originalmente tenía una caracterización incorrecta de la estimación MLE y la estimación MAP con un previo uniforme.

Chill2Macht
fuente
8
(-1) Esta pregunta se basa en suposiciones falsas. MLE no corresponde a 'usar uniforme anterior' sino a usar uniforme anterior y seleccionar el modo de la distribución posterior (entonces, MAP con uniforme anterior). Cuando se usa MLE, el parámetro no se considera una variable aleatoria, por lo que construcciones como o integrales sobre son matemáticamente significativas. θ yPr(θ[0,1]y)θy
Juho Kokkala
3
No recuerdo a ningún Bayesiano que rechace nada que no sea Bayesiano por su nombre, o que use un número limitado de distribuciones. Uno podría fácilmente reemplazar "bayesianos" con "frecuentas" en su pregunta y preguntar por qué los frecuentas rechazan todo lo que no es frecuenta y por qué usan un número limitado de distribuciones (básicamente, distribución normal en todas partes): la pregunta resultante sería lo mismo mal definido que el tuyo. También estoy de acuerdo con @JuhoKokkala en que MLE usa uniforme antes aunque sus estimaciones puntuales puedan corresponder.
Tim
55
MLE y MAP no tienen las mismas propiedades matemáticas. Si reparametriza sus variables, MLE y MAP se transforman de manera diferente (porque MLE tiene un "plano previo" en cada parametrización, MAP no). La definición de un objeto matemático incluye cómo se comporta el objeto bajo operadores como la transformación de variables (por ejemplo, ver la definición de un tensor). Entonces no son lo mismo.
lacerbi
2
Voy a hacer una respuesta (corta), ya que es sorprendente que nadie haya mencionado esto hasta ahora. También tuve que explicarlo muchas veces en el pasado, ya que es una sutileza que se puede pasar por alto fácilmente.
lacerbi
44
¿Alguna vez has jugado borradores con un juego de ajedrez? Puede suceder de vez en cuando que te encuentres en una posición de ajedrez válida y puedas hacer un movimiento legal de ajedrez que también es un movimiento de draft legal. Por supuesto, lo que sería un buen movimiento de ajedrez no siempre será un buen movimiento de draft. Y no evitarás hacer un buen movimiento de draft solo porque también es un movimiento de ajedrez. Esto es bastante diferente de describir un juego de ajedrez en francés en lugar de inglés, o de rotar el tablero para que los cuadrados negros se vuelvan blancos o intercambiar las posiciones iniciales y las reglas que rigen el ...
Scortchi - Restablece a Monica

Respuestas:

12

Me gustaría corregir una suposición errónea en la publicación original, un error que es relativamente común. El OP dice:

Por lo que he leído y por las respuestas a otras preguntas que he hecho aquí, la estimación de máxima verosimilitud corresponde matemáticamente (no me importa si corresponde filosóficamente, solo me importa si corresponde matemáticamente) a la estimación máxima a priori usando un previo uniforme ( para aquellos que se oponen a esto, vea la nota al final de esta pregunta).

Y la nota al final de la publicación dice:

Dos objetos son equivalentes en un sentido matemático si tienen las mismas propiedades, independientemente de cómo se construyan. [...]

Mi objeción es que, aparte de la filosofía, la estimación de máxima verosimilitud (MLE) y la estimación de máximo a posteriori (MAP) no tienen las mismas propiedades matemáticas.

Crucialmente, MLE y MAP se transforman de manera diferente bajo la reparametrización (no lineal) del espacio. Esto sucede porque MLE tiene un "plano anterior" en cada parametrización, mientras que MAP no (el anterior se transforma como una densidad de probabilidad , por lo que hay un término jacobiano).

La definición de un objeto matemático incluye cómo se comporta el objeto bajo operadores como la transformación de variables (por ejemplo, ver la definición de un tensor ).

En conclusión, MLE y MAP no son lo mismo, ni filosófica ni matemáticamente; Esto no es una opinión.

lacerbi
fuente
Creo que tal vez he perdido tu punto. ¿Es posible parametrizar un modelo de manera que las estimaciones puntuales de MLE no sean iguales a las de MAP con un uniforme previo? (Claramente, en el caso de MAP, el prior tiene que ser uniforme con respecto a la parametrización actual para que la igualdad funcione. Si reparametriza el modelo sin cambiar el anterior, en general ya no será uniforme)
Kodiólogo
1
@Kodiologist: el OP decía que MAP y MLE son "objetos matemáticos" idénticos. No son. Distintos objetos matemáticos pueden ser iguales en un subespacio (por ejemplo, en una parametrización dada) pero eso no los hace idénticos. Podrías decir "No me importan otras parametrizaciones" pero, bueno, entonces estás imponiendo una restricción práctica fuerte, ya no es "simplemente" un punto filosófico como el OP estaba argumentando originalmente.
lacerbi
6

Personalmente, soy un "pragmático" en lugar de un "frecuentista" o un "bayesiano", por lo que no puedo decir que hable por ningún campamento.

Dicho esto, creo que la distinción a la que te estás refiriendo probablemente no sea tanto MLE frente a MAP, sino entre estimaciones puntuales versus estimar archivos PDF posteriores . Como científico que trabaja en un campo con datos escasos y grandes incertidumbres, puedo simpatizar con no querer confiar demasiado en los resultados de "mejor conjetura" que pueden ser engañosos, lo que resulta en un exceso de confianza.

Una distinción práctica relacionada es entre métodos paramétricos versus no paramétricos . Entonces, por ejemplo, creo que tanto el filtrado de Kalman como el filtrado de partículas se aceptarían como estimación bayesiana recursiva . Pero la suposición gaussiana del filtrado de Kalman (un método paramétrico) puede dar resultados muy engañosos si el posterior no es unimodal. Para mí, este tipo de ejemplos de ingeniería destacan donde las diferencias no son filosóficas ni matemáticas, sino que se manifiestan en términos de resultados prácticos (es decir, ¿se estrellará su vehículo autónomo?). Para los entusiastas bayesianos con los que estoy familiarizado, esta actitud de "ver qué funciona" al estilo de la ingeniería parece ser predominante ... no estoy seguro de si esto es más amplio.

GeoMatt22
fuente
1
Si el ruido es modelado gaussiano o de otra distribución no es lo que determina si un método es paramétrico o no paramétrico.
Acantilado AB
1
Estaba pensando en el filtrado de partículas versus el filtrado de Kalman.
GeoMatt22
1
@CliffAB Edité mi respuesta para, con suerte, corregir la implicación no intencionada de que "Gaussian <==> paramétrico"
GeoMatt22
2
En mi experiencia (¡nada exhaustivo!), Los libros destinados a ingenieros en áreas de "tecnología" tienden a ser más así. Cosas como la robótica y otras aplicaciones robustas y en tiempo real tienden a descubrirse rápidamente cuando las cosas no funcionan. Probablemente sea nominalmente más bayesiano, pero la robótica probabilística de Sebastian Thrun me fue esclarecedora. Él es el tipo de Udacity .
GeoMatt22
2
No he estudiado esta área en absoluto, pero mi impresión es que gran parte de la Ingeniería de Confiabilidad clásica usa enfoques "frecuentas", ¿entonces esto también puede ser un área con textos pragmáticos?
GeoMatt22
6

Sin embargo, muchas personas que se autodescriben como "bayesianos" parecen rechazar el uso de la estimación de máxima verosimilitud en cualquier circunstancia, a pesar de que es un caso especial de métodos (matemáticamente) bayesianos, porque es un "método frecuentista".

Estas personas rechazarían MLE como método general para hacer estimaciones puntuales. En casos particulares en los que tenían razones para usar un uniforme antes y querían hacer una estimación máxima a posteriori, no les molestaría en absoluto la coincidencia de sus cálculos con MLE.

Aparentemente, los bayesianos también usan un número restringido / limitado de distribuciones en comparación con los frecuentistas, a pesar de que esas distribuciones también serían matemáticamente correctas desde el punto de vista bayesiano.

Quizás a veces, para hacer sus cálculos más fáciles, pero no desde ningún punto de principio.

Tengo la impresión de que hay al menos dos definiciones diferentes del término Bayesiano comúnmente en uso. El primero lo llamaría "matemáticamente bayesiano", que abarca todos los métodos de estadística, ya que incluye parámetros que son RV constantes y aquellos que no son RV constantes. Luego está "culturalmente bayesiano" que rechaza algunos métodos "matemáticamente bayesianos" porque esos métodos son "frecuentes" (es decir, por animosidad personal al parámetro que a veces se modela como una constante o frecuencia).

Ciertamente, hay que hacer distinciones entre los diferentes enfoques de la inferencia bayesiana, pero no esta. Si hay un sentido en el que el bayesianismo es más general, está en la disposición a aplicar el concepto de probabilidad a la incertidumbre epistémica sobre los valores de los parámetros y no solo a la incertidumbre aleatoria del proceso de generación de datos, que es todo lo que le preocupa al frecuentismo. La inferencia frecuente no es un caso especial de inferencia bayesiana y ninguna de las respuestas o comentarios en ¿Hay alguna base matemática para el debate bayesiano versus frecuentista?implican que es así. Si en un enfoque bayesiano considerara el parámetro una variable aleatoria constante, obtendría el mismo posterior independientemente de los datos, y decir que es constante, pero no sabe qué valor toma no sería decir nada vale la pena decir. El enfoque frecuentista toma una táctica completamente diferente y no implica el cálculo de distribuciones posteriores en absoluto.

Scortchi - Restablece a Monica
fuente
"El enfoque frecuentista adopta una táctica completamente diferente y no implica el cálculo de distribuciones posteriores en absoluto", aunque ese no es mi punto. No estoy hablando de intención filosófica, estoy hablando de equivalencia matemática. Alguien podría decir que son "sustractores" porque solo suman y restan números positivos, pero se niegan a usar números negativos, que es "negativo". Filosóficamente, ese podría ser el caso, pero matemáticamente hablando restar un número positivo es lo mismo que sumar uno negativo.
Chill2Macht
Lo que estoy tratando de decir es que "matemáticamente bayesiano" sería tanto aplicar como no aplicar el concepto de probabilidad a la incertidumbre epistémica sobre los valores de los parámetros. "Culturalmente bayesiano" solo estaría aplicando (y nunca no aplicando) el concepto de probabilidad a la incertidumbre epistémica sobre los valores de los parámetros. "Frecuentista" sería no aplicar (y nunca aplicar) la probabilidad a la incertidumbre epistémica sobre los valores de los parámetros. Lo que digo es que tanto "inferencia bayesiana = culturalmente bayesiana" como "frecuentista" parecen un caso especial basado en lo que la gente dice.
Chill2Macht
De todos modos, supongo que intentaré leer las Estadísticas asintóticas de van der Vaart antes de comentar más sobre las estadísticas frecuentas, pero después de haber leído ya Casella y Berger y cero libros de texto bayesianos, no entiendo la afirmación de que "el enfoque frecuentista toma un rumbo completamente diferente" de aplicando el concepto de probabilidad a "solo la incertidumbre aleatoria del proceso de generación de datos", ya que parece contradecir las otras partes de lo que escribió.
Chill2Macht
2
35
2
Modos de inferencia estadística paramétrica , y Barnett (1999), Inferencia estadística comparativa . (4) El enfoque frecuentista considera solo la probabilidad de los datos bajo valores de parámetros dados; El enfoque bayesiano condiciona los datos observados para obtener un posterior.
Scortchi - Restablece a Monica