Frecuentismo y antecedentes

17

Robby McKilliam dice en un comentario a esta publicación:

Cabe señalar que, desde el punto de vista de los frecuentistas, no hay razón para que no pueda incorporar el conocimiento previo al modelo. En este sentido, la vista frecuentista es más simple, solo tiene un modelo y algunos datos. No es necesario separar la información previa del modelo.

Además, aquí , @jbowman dice que los frecuentas usan la regularización mediante una función de costo / penalización, mientras que los bayesianos pueden hacer esto una prioridad:

Los frecuentes se dieron cuenta de que la regularización era buena y la usan con bastante frecuencia en estos días, y los antecedentes bayesianos se pueden interpretar fácilmente como regularización.

Entonces, mi pregunta es, ¿pueden los frecuentas en general incorporar en sus modelos lo que los bayesianos especifican como anteriores? Tomando como ejemplo la regularización, ¿está la función de costo / penalización realmente integrada en el modelo, o es este un medio puramente artificial de ajustar la solución (además de hacerla única)?

Patricio
fuente
¿Podría un moderador notificar a jbowman y Robby para que puedan dar más detalles? ¿O eso no es apropiado?
Patrick
1
Patrick, puedes notificar a cualquier miembro de este sitio utilizando la construcción "@". He ilustrado esto con una pequeña edición.
whuber
Funciona en ambos lugares :-).
whuber
Gee, @whuber, no me notificaron ... ¿tal vez las ediciones no lo hacen? Ahora estoy curioso.
jbowman
1
Bien, resulta que estaba equivocado : el mecanismo "@" funciona en los comentarios, no en las preguntas. (Pero jbowman encontró esta pregunta de todos modos.)
whuber

Respuestas:

8

Con respecto al comentario de Robby McKilliam: creo que la dificultad que un frecuentador tendría con esto radica en la definición de "conocimiento previo", no tanto en la capacidad de incorporar conocimiento previo en un modelo. Por ejemplo, considere estimar la probabilidad de que una moneda determinada salga cara. Supongamos que mi conocimiento previo fue, esencialmente, un experimento en el que esa moneda se volteó 10 veces y obtuvo 5 caras, o tal vez de la forma "la fábrica hizo 1 millón de monedas, y la diferencia de , como determinado por grandes experimentos, es β ( a , b )pβ(a,b)". Todo el mundo usa la regla de Bayes cuando realmente tiene información previa de este tipo (la regla de Bayes solo define la probabilidad condicional, no es algo solo bayesiano) así que en la vida real el frecuentista y el bayesiano usarían el mismo enfoque, y incorpore la información en el modelo a través de la regla de Bayes. (Advertencia: a menos que el tamaño de su muestra sea lo suficientemente grande como para estar bastante seguro de que la información previa no tendrá un efecto en los resultados). Sin embargo, la interpretación de los resultados es, de Por supuesto, diferente.

La dificultad surge, especialmente desde un punto de vista filosófico, ya que el conocimiento se vuelve menos objetivo / experimental y más subjetivo. A medida que esto suceda, el frecuentista probablemente se sentirá menos inclinado a incorporar esta información en el modelo, mientras que el bayesiano todavía tiene algunos mecanismos más o menos formales para hacerlo, a pesar de las dificultades de obtener un previo subjetivo.

Con respecto a la regularización: Considere una probabilidad y una p ( θ ) previa . No hay nada que impida, al menos no técnicamente, que un frecuentador use la estimación de máxima verosimilitud "regularizada" por log p ( θ ) , como en:l(θ;x)p(θ)logp(θ)

θ~=maxθ{logl(θ;x)+logp(θ)}

Para gaussiano, esto equivale a una penalización cuadrática que se reduce θ hacia la media del gaussiano, y así sucesivamente para otras distribuciones. ˜ θ es igual a la estimación puntual máxima a posteriori (MAP) de un Bayesiano usando la misma función de probabilidad y anterior. Por supuesto, nuevamente, la interpretación de las estimaciones frecuentistas y bayesianas será diferente. El Bayesiano tampoco está obligado a usar una estimación puntual MAP, teniendo acceso a una distribución posterior completa, pero tampoco es necesario que el frecuentador maximice una probabilidad logarítmica regularizada, ya que puede utilizar varias estimaciones robustas o métodos de -momentos, etc., si están disponibles.pag(θ)θθ~

Nuevamente, la dificultad surge desde un punto de vista filosófico. ¿Por qué elegir una función de regularización sobre otra? Un bayesiano puede hacerlo, cambiando a una vista previa, evaluando la información previa. Un frecuentista tendría más dificultades (¿no puede hacerlo?) Justificando una elección por esos motivos, pero probablemente lo haría en gran medida en función de las propiedades de la función de regularización aplicada a su tipo de problema, como se aprendió de la articulación trabajo / experiencia de muchos estadísticos. OTOH, (pragmáticos) los bayesianos también lo hacen con los anteriores, si tuviera $ 100 por cada artículo sobre los anteriores para las variaciones que he leído ...

Otros "pensamientos": he omitido todo el tema de seleccionar una función de probabilidad asumiendo que no se ve afectada por el punto de vista frecuentista / bayesiano. Estoy seguro de que en la mayoría de los casos lo es, pero puedo imaginar que en situaciones inusuales sería, por ejemplo, por razones computacionales.

θθ

jbowman
fuente
Entonces, si te entiendo bien: técnicamente, formalmente, un frecuentador puede regularizar todo lo que quiera, pero tendrá problemas para justificarlo. Un bayesiano aún podría tener problemas para cuantificar su regularización, pero cualitativamente tiene una forma consistente de incorporarla.
Patrick
El Bayesiano tampoco está obligado a usar una estimación puntual MAP, teniendo acceso a una distribución posterior completa, pero tampoco es necesario que el frecuentador maximice una probabilidad logarítmica regularizada, ya que puede utilizar varias estimaciones robustas o métodos de -momentos, etc., si están disponibles. El frequentista no tiene que maximizar. Pero sigue siendo un método disponible para los Frequentistas, si así lo eligen, ¿verdad? Mi intuición es que, por razones históricas (¡sin computadoras!), Los frecuentes tienen muchos estimadores inteligentes bajo la manga que usan en lugar de calcular una función de probabilidad completa.
Patrick
5

Con el fin de responder a esta pregunta, es útil definir el frecuentismo como "interesar las propiedades de la distribución de muestreo de las funciones de los datos". Dichas funciones pueden ser estimadores puntuales, valores p de estadísticas de prueba, intervalos de confianza, resultados de la prueba de Neyman-Pearson o, básicamente, cualquier otra cosa que se pueda imaginar. El frecuente no especifica cómo construir estimadores, valores p, etc., en general, aunque existen algunas pautas, por ejemplo, usar suficientes estadísticas si están disponibles, usar estadísticas fundamentales si están disponibles, etc. perspectiva, la información previa no se incorpora en el modelo per se , sino más bien en los datos de mapeo de funciones a la salida de la función.

El "interés" mencionado anteriormente está en propiedades consideradas importantes para la inferencia, tales como falta de sesgo, consistencia asintótica, varianza, error cuadrático medio, error absoluto medio, cobertura de confianza (especialmente nominal versus real), control de error Tipo I y cualquier cosa más con importancia obvia o intuitiva para aprender de los datos. Estas propiedades pueden evaluarse (por simulación, si no otra cosa) si la función incorpora o no información previa.

El interés particular se centra en las propiedades que se sabe que poseen sin importar los valores de parámetros reales subyacentes al proceso de generación de datos. Por ejemplo, en el modelo iid normal con varianza conocida, la media de datos es imparcial y asintóticamente consistente para la media de distribución, sin importar lo que sea. Por el contrario, un estimador de contracción (un promedio ponderado de la media de datos y una suposición previa para la media de distribución) tiene un error cuadrático medio más bajo si la media de distribución está cerca de la suposición anterior pero un error cuadrático medio más alto de lo contrario, aunque " hereda la "consistencia asintótica de la media de datos".

Entonces diría que uno puede poner información previa en el método de inferencia, pero no entra en el modelo. Una muy buena ilustración de las nociones que he esbozado en el contexto de los intervalos de confianza para las propiedades físicas que son necesariamente no negativas es Feldman y Cousins, un enfoque unificado para el análisis estadístico clásico de señales pequeñas .

Cian
fuente