¿Cómo manejan las estadísticas bayesianas la ausencia de antecedentes?

16

Esta pregunta se inspiró en dos interacciones recientes que tuve, una aquí en CV y la otra en economics.se.

Allí, había publicado una respuesta a la conocida "Paradoja de la envoltura" (fíjate, no como la "respuesta correcta" sino como la respuesta que surge de suposiciones específicas sobre la estructura de la situación). Después de un tiempo, un usuario publicó un comentario crítico, y entablé una conversación tratando de entender su punto. Era obvio que estaba pensando a la manera bayesiana, y seguía hablando sobre los antecedentes, y luego me di cuenta, y me dije a mí mismo: "Espera un momento, ¿ quién dijo algo sobre algún prior? En la forma en que formulé el problema, no hay antecedentes aquí, simplemente no entran en la imagen y no necesitan ".

Recientemente, vi esta respuesta aquí en CV, sobre el significado de Independencia estadística. Le comenté al autor que su oración

"... si los eventos son estadísticamente independientes, entonces (por definición) no podemos aprender acerca de uno observando al otro".

Estaba descaradamente equivocado. En un intercambio de comentarios, siguió volviendo al tema de (sus palabras)

¿"Aprender" no significaría cambiar nuestras creencias sobre una cosa basada en la observación de otra? Si es así, ¿la independencia (por definición) no impide esto?

Una vez más, era obvio que estaba pensando a la manera bayesiana, y que consideraba evidente que comenzamos con algunas creencias (es decir, un antecedente) , y luego el problema es cómo podemos cambiarlas / actualizarlas. Pero, ¿cómo se crea la primera creencia?

Como la ciencia debe ajustarse a la realidad, noto que existen situaciones en las que los seres humanos involucrados no tienen antecedentes (yo, en primer lugar, entro en situaciones sin ningún tipo de previo todo el tiempo, y por favor no discuta que sí tengo antecedentes pero simplemente no nos damos cuenta, evitemos el falso psicoanálisis aquí).

Desde que escuché el término "antecedentes no informativos", rompo mi pregunta en dos partes, y estoy bastante seguro de que los usuarios que conocen la teoría bayesiana saben exactamente lo que voy a preguntar:

P1: ¿Es la ausencia de un equivalente anterior (en el sentido teórico estricto) a tener un previo no informativo?

Si la respuesta a la pregunta 1 es "Sí" (con alguna explicación, por favor), entonces significa que el enfoque bayesiano es aplicable universalmente y desde el principio , ya que en cualquier caso el ser humano involucrado declara "No tengo antecedentes" podemos complementar su lugar es un previo que no es informativo para el caso en cuestión.

Pero si la respuesta a Q1 es "No", entonces aparece Q2 :

P2: Si la respuesta a la P1 es "No", ¿significa esto que, en los casos en que no hay antecedentes, el enfoque bayesiano no es aplicable desde el principio, y primero tenemos que formar un prior por alguna forma no bayesiana, para que luego podamos aplicar el enfoque bayesiano?

Alecos Papadopoulos
fuente
2
Notaré que, como científico, "ninguna creencia previa" es una declaración bastante extremista ... similar a ver solo la "nieve" estática de un viejo televisor analógico sintonizado en una estación muerta y escuchar solo ruido blanco. Manifiestamente, los científicos no creen que nada en el mundo se relacione o lleve información sobre nada ... si creyéramos que no seríamos científicos. Por supuesto, la articulación bayesiana de "no informativo" conlleva creencias muy generales sobre la posibilidad y la probabilidad.
Alexis
2
@Alexis depende de la situación. Por ejemplo, en la "Paradoja de la envoltura", el problema es, después de mirar la cantidad que contiene una envoltura, si tenía alguna creencia previa sobre si lo que estoy viendo es la cantidad "grande" o la cantidad "pequeña". Y no veo nada extremo al declarar aquí "No tengo ninguna creencia previa al respecto".
Alecos Papadopoulos
1
¿Tiene una creencia previa de que hay algunas cantidades y que tienen alguna distribución entre los sobres? (¿Incluso si eres agnóstico en cuanto a la distribución específica o su parametrización?)
Alexis
1
@Alexis Claro, pero está formulado como conocimiento estructural que existe independientemente de la información posterior. No es una creencia que necesita actualizarse. Y dado que esta formulación refleja la percepción de al menos un miembro de la raza humana (yo mismo), es una situación del mundo real, y la pregunta es si se considera susceptible de análisis bayesiano o no. Por supuesto, para alguna otra persona que declare "Tengo la siguiente creencia previa sobre la distribución de cantidades entre sobres", la aplicabilidad del enfoque bayesiano es obvia.
Alecos Papadopoulos
2
Parece creer que NO hay un prior o que existe EL anterior. En un modelo bayesiano como lo veo, el análisis posterior es condicional o relativo a la elección de A prior y no utilizo este previo como absoluto. Mi prior es una forma natural de introducir una estructura de probabilidad y medir en el espacio de parámetros.
Xi'an

Respuestas:

11

P1: ¿Es la ausencia de un equivalente anterior (en el sentido teórico estricto) a tener un previo no informativo?

No.

Primero, no existe una definición matemática para un "previo no informativo". Esta palabra solo se usa informalmente para describir algunos antecedentes.

Por ejemplo, el prior de Jeffrey a menudo se llama "no informativo". Este previo generaliza el previo uniforme para problemas invariantes de traducción. El anterior de Jeffrey se adapta de alguna manera a la geometría riemanniana (teórica de la información) del modelo y, por lo tanto, es independiente de la parametrización, solo depende de la geometría del múltiple (en el espacio de distribuciones) que es el modelo. Puede ser percibido como canónico, pero es solo una elección. Es solo el uniforme previo según la estructura de Riemann. No es absurdo definir "no informativo = uniforme" como una simplificación de la pregunta. Esto se aplica a muchos casos y ayuda a hacer una pregunta clara y simple.

E(X)XX[0;1]

Los enfoques bayesiano y frecuentista simplemente responden diferentes preguntas. Por ejemplo, sobre estimadores, que es quizás el más simple:

  • θxθ

  • θθ

De alguna manera, los frecuentistas apuntan al control del peor de los casos y no necesita un previo. Bayesian apunta al control promedio y requiere un previo para decir "promedio en qué sentido".

P2: Si la respuesta a la P1 es "No", ¿significa esto que, en los casos en que no hay antecedentes, el enfoque bayesiano no es aplicable desde el principio, y primero tenemos que formar un prior por alguna forma no bayesiana, para que luego podamos aplicar el enfoque bayesiano?

Si.

XN(μ,1)μ

Los verdaderos problemas con la especificación previa suceden en problemas más complicados en mi opinión. Lo importante aquí es entender lo que dice un cierto anterior.

Benoit Sanchez
fuente
2
(+1) Gracias, esto es realmente informativo.
Alecos Papadopoulos
4

En primer lugar, el enfoque bayesiano a menudo se usa porque desea incluir conocimientos previos en su modelo para enriquecerlo. Si no tiene ningún conocimiento previo, entonces se adhiere a los llamados informes informativos semanales o "no informativos". Observe que uniforme anterior no es "no informativo" por definición, ya que la suposición sobre uniformidad es un supuesto. No existe tal cosa como un previo verdaderamente no informativo. Hay casos en los que "podría ser cualquier cosa" es una suposición previa razonable "poco informativa", pero también hay casos en los que afirmar que "todos los valores son igualmente probables" es una suposición muy fuerte e irracional. Por ejemplo, si suponía que mi altura puede ser de entre 0 centímetros y 3 metros, con todos los valores igualmente probables a priori, esto no sería una suposición razonable y daría demasiado peso a los valores extremos, por lo que posiblemente podría distorsionar su parte posterior.

Por otro lado, Bayesian argumentaría que realmente no hay situaciones en las que no tengas conocimiento ni creencias previas. Siempre puedes asumir algo y, como ser humano, lo haces todo el tiempo (los psicólogos y los economistas del comportamiento investigaron mucho sobre este tema). Todo el alboroto bayesiano con los antecedentes tiene que ver con cuantificar esas ideas preconcebidas y exponerlas explícitamente en su modelo, ya que la inferencia bayesiana trata de actualizar sus creencias .

Es fácil presentar argumentos "sin suposiciones previas", o anteriores uniformes, para problemas abstractos, pero para problemas de la vida real tendría conocimiento previo. Si necesita hacer una apuesta sobre la cantidad de dinero en un sobre, sabrá que la cantidad debe ser no negativa y finita. También puede hacer una conjetura sobre el límite superior de la posible cantidad de dinero dado su conocimiento sobre las reglas del concurso, los fondos disponibles para su adversario, el conocimiento sobre el tamaño físico del sobre y la cantidad de dinero que podría ajustarse físicamente en él, etc. También podría hacer algunas conjeturas sobre la cantidad de dinero que su adversario podría estar dispuesto a poner en el sobre y posiblemente perder. Hay muchas cosas que conocerías como base para tu anterior.

Tim
fuente
2
@AlecosPapadopoulos lo siento por no decir lo que quería escuchar, pero creo que esto es parte de la respuesta a su pregunta. Con respecto a la Q1, obviamente, asumir un uniforme previo no es lo mismo que no asumir un anterior, ya que usted hizo una suposición. Si no quiere usar los anteriores, use la máxima probabilidad o el enfoque empírico de Bayes.
Tim
2
¿Qué "quería escuchar"? Según tengo entendido, cuando una persona hace una pregunta aquí, se espera razonablemente que la respuesta sea sobre la pregunta. No hay nada en particular que "quisiera escuchar" (no hay antecedentes aquí también), solo busqué respuestas a preguntas específicas, y mi comentario fue sobre no ver de qué manera su respuesta abordaba mis preguntas. Pero en su comentario creo que hay algo realmente relevante: ¿"enfoque empírico de Bayes"? ¿Puedes mencionar / señalar algo de literatura?
Alecos Papadopoulos
3
@AlecosPapadopoulos empírico Bayes está eligiendo sus antecedentes basados ​​en datos (es decir, trampa). Puede comenzar con Wikipedia o documentos de Efron (fácilmente buscables en Google Scholar).
Tim
2
Supongamos que comenzaste un problema el lunes y tuviste un problema anterior, digamos normal. Entonces, lo conecta a sus datos, ejecuta el análisis, aprende algo. El martes ya no puedes usar eso antes, porque ya aprendiste algo. Entonces, tienes que conectar un prior diferente, realmente. Entonces, en estricto Bayesiano, los antecedentes son de un solo uso. Literalmente, puede ejecutarlos a través del software solo UNA VEZ. En el momento en que obtienes los resultados, el anterior caduca, a menos que no hayas aprendido NADA. Entonces, en el sentido práctico, el enfoque bayesiano es inutilizable en su forma pura, todos los bayesianos se engañan constantemente a sí mismos
Aksakal
3
@Aksakal Pero, ¿por qué no es válido usar, el martes, como mi nuevo prior, el posterior que obtuve el lunes? La forma en que lo digo es un procedimiento secuencial totalmente válido. Así que no entiendo por qué escribes "Los bayesianos se engañan constantemente".
Alecos Papadopoulos
3

pregunta 1 Creo que la respuesta es probablemente no. Mi razón es que realmente no tenemos una definición para "no informativo", excepto para medir de alguna manera qué tan lejos está la respuesta final de algún modelo / probabilidad arbitrariamente informativo. Muchos antecedentes no informativos se validan con ejemplos "intuitivos" en los que ya tenemos "el modelo / probabilidad" y "la respuesta" en mente. Luego le preguntamos a los no informativos antes de darnos la respuesta que queremos.

Mi problema con esto es que me cuesta creer que alguien pueda tener un modelo o estructura de modelo realmente buena y bien informada para su población, y al mismo tiempo "no tener información" sobre valores de parámetros probables e improbables para ese modelo. Por ejemplo, mediante el uso de la regresión logística, consulte "UNA DISTRIBUCIÓN PREDETERMINADA POR DEFECTO DÉBILMENTE INFORMATIVA. PARA LOS MODELOS DE REGRESIÓN LOGÍSTICA Y OTROS"

Creo que el discreto uniforme previo es el único que razonablemente podríamos decir es el "primero primero" anterior. Pero se encuentra con problemas al usarlo, pensando que no tiene "información", pero de repente tiene reacciones a respuestas "poco intuitivas" (pista: si no le gusta una respuesta bayesiana, es posible que haya dejado información fuera de la anterior o ¡probabilidad!). Otro problema con el que se encuentra es obtener la discretización adecuada para su problema. E incluso pensando en esto, necesita saber la cantidad de valores discretos para aplicar el uniforme discreto antes.

Otra propiedad a tener en cuenta para su previo es el "comportamiento de cola" en relación con la probabilidad que está utilizando.

a la pregunta 2

Conceptualmente, no veo nada de malo en especificar una distribución sin el uso de un previo o una probabilidad. Puede comenzar un problema diciendo "mi pdf es ... y quiero calcular ... wrt este pdf". Entonces está creando una restricción para la predicción previa, previa y la probabilidad. El método bayesiano es para cuando tienes un previo y una probabilidad, y quieres combinarlos en una distribución posterior.

Probablemente sea una cuestión de tener claras cuáles son sus probabilidades. Entonces el argumento cambia a "¿representa este pdf / pmf lo que yo digo que representa?" - Creo que es el espacio en el que quieres estar. A partir de su ejemplo, está diciendo que la distribución única refleja toda la información disponible: no existe un "previo" porque ya está contenido (implícitamente) en la distribución que está utilizando.

U(0,1)Bin(n,p)Beta(0,0)21

en el llamado comentario descaradamente equivocado

Para ser sincero, me interesaría mucho ver cómo se puede utilizar cualquier cantidad de observaciones para predecir una observación "estadísticamente independiente". Como ejemplo, si te digo que generaré 100 variables normales estándar. Te doy 99 y te pido que me des tu mejor predicción para el centésimo. Digo que no puedes hacer una mejor predicción para el centésimo que 0. Pero esto es lo mismo que predecirías para el centésimo si no te diera datos. Por lo tanto, no aprende nada de los 99 puntos de datos.

Sin embargo, si le digo que fue "alguna distribución normal", puede usar los 99 puntos de datos para estimar los parámetros. Entonces los datos ya no son "estadísticamente independientes", porque aprendemos más sobre la estructura común a medida que observamos más datos. Su mejor predicción ahora usa los 99 puntos de datos

probabilidadislogica
fuente
1
(+1) Gracias por su atenta respuesta. Una aclaración con respecto a la afirmación "descaradamente errónea": se hizo porque "aprender" (y estoy hablando del significado general de la palabra) es un concepto mucho más amplio que "predecir". Si dos eventos son estructuralmente similares, podemos aprender cosas relacionadas con el uno al estudiar el otro, aunque puedan ser estadísticamente independientes. También habla sobre la "estructura común" en su respuesta, eso es todo.
Alecos Papadopoulos
@Alecos Papadopoulos: el punto es que no puedes aprender sin hacer que las cosas sean estadísticamente dependientes. Tomando mi ejemplo, ¿qué se puede aprender en el escenario 1? Además, la estructura común debe ser desconocida, no solo presente.
probabilidadislogic
1
Al comentar sobre la última oración de su publicación, el hecho de que podamos aprender algo sobre la estructura común como usted señala, no hace que las variables aleatorias involucradas sean "estadísticamente dependientes". Permanecen "independientes en probabilidad", que es otra forma de decir "estadísticamente independiente", un concepto que tiene un significado matemático muy preciso. Que compartan características comunes (aquí, su rango se caracteriza por la misma distribución de probabilidad), no los hace estadísticamente dependientes.
Alecos Papadopoulos
Tu frase "independiente en probabilidad" no me resulta clara, y sospecho que es por eso que no estoy de acuerdo con lo que estás diciendo. Si esto se reemplaza por "condicionalmente independiente" o "intercambiable", entonces lo que usted dice tiene sentido. También sigo esperando algo que se pueda aprender del 99 en los rvs normales estándar que ayude con el centésimo (no es necesario que se trate de predicciones).
probabilidadislogic
1
@probabilisticlogic "Independiente en probabilidad" es una expresión que se puede encontrar generalmente en trabajos más antiguos, y significa lo que significa independencia estadística expresada a través de funciones de distribución. Los 99 rv me permitirán aprender todo tipo de propiedades, características, etc. de los centésimos, momentos, cuantiles, lo que sea.
Alecos Papadopoulos
3

Esta es solo una breve observación como complemento a las otras excelentes respuestas. A menudo, o al menos a veces, es algo arbitrario (o convencional) qué parte de la información que ingresa a un análisis estadístico se llama datos y qué parte se llama previa . O, de manera más general, podemos decir que la información en un análisis estadístico proviene de tres fuentes: el modelo , los datos y el previo . En algunos casos, como los modelos lineales o glm's, la separación es bastante clara, al menos convencionalmente.

Reutilizaré un ejemplo de Estimación de máxima verosimilitud (MLE) en términos simples para ilustrar mi punto. Digamos que un paciente ingresa al consultorio de un médico, con algunos problemas médicos que resultan difíciles de diagnosticar. Este médico no ha visto algo similar antes. Luego, hablando con el paciente, aparece información nueva: este paciente visitó África tropical recientemente. Entonces le parece al médico que esto podría ser malaria o alguna otra enfermedad tropical. Pero tenga en cuenta que esta información es claramente para nosotros datos, pero al menos en muchos modelos estadísticos que podrían usarse, entrará en el análisis en forma de una distribución previa, una distribución previa que da mayor probabilidad a algunas enfermedades tropicales. Pero podríamos, tal vez, hacer un modelo (más grande) y más completo, donde esta información ingrese como datos. Entonces, al menos en parte, la distinción datos / previo es convencional.

Estamos acostumbrados y aceptamos esta convención debido a nuestro énfasis en algunas clases de modelos convencionales. Pero, en el esquema más amplio de las cosas, fuera del mundo de los modelos estadísticos estilizados, la situación es menos clara.

kjetil b halvorsen
fuente