¿Por qué deberíamos discutir los comportamientos de convergencia de diferentes estimadores en diferentes topologías?

14

En el primer capítulo del libro Algebraic Geometry and Statistical Learning Theory, que habla sobre la convergencia de las estimaciones en diferentes espacios funcionales, menciona que la estimación bayesiana corresponde a la topología de distribución de Schwartz, mientras que la estimación de máxima verosimilitud corresponde a la topología supranormal (en la página 7):

Por ejemplo, sup-norma, -norm, topología débil del espacio de Hilbert L 2 , topología de distribución de Schwartz, etc. Depende en gran medida de la topología del espacio de funciones si la convergencia K n ( w ) K ( w ) se mantiene o no. La estimación de Bayes corresponde a la topología de distribución de Schwartz, mientras que la probabilidad máxima o el método a posteriori corresponde a la sup-norma. Esta diferencia afecta fuertemente los resultados de aprendizaje en modelos singulares.LpL2Kn(w)K(w)

donde y K ( w ) son respectivamente la divergencia empírica de KL (suma sobre observaciones) y la verdadera divergencia de KL (integral wrt la distribución de datos) entre el modelo verdadero y un modelo paramétrico (con parámetro w ).Kn(w)K(w)w

¿Alguien puede dar una explicación, o insinuarme qué lugar del libro tiene la justificación? Gracias.

Actualización : se eliminan los contenidos de copyright.

ziyuang
fuente
¿Qué son y K n ? KKnorte
Taylor
@ Taylor agregué información necesaria.
ziyuang
Contestaré tu pregunta más tarde, conozco el libro de watanabe relativamente bien. Sin embargo, me desagrada la forma en que citas un libro. Puede causar un posible problema de derechos de autor si coloca secciones directamente aquí. Usar números de página y escribir citas con el babero apropiado será una mejor opción.
Henry.L
@ Henry.L Gracias, y se eliminan los contenidos de copyright.
ziyuang
@Henry: Si bien creo que es valioso ser cauteloso y concienzudo al reproducir partes de obras protegidas por derechos de autor, creo que, en este caso, ziyuang no tiene absolutamente nada de qué preocuparse. El uso por parte del OP de pequeños extractos para la crítica académica cae muy directamente dentro de la doctrina del "uso justo" (estadounidense). De hecho, tener la reproducción exacta a veces puede ser especialmente valioso, ya que elimina las ambigüedades que podrían introducirse por las reformulaciones del contenido. (Todo lo dicho, IANAL.)
cardenal

Respuestas:

2

Para entender la discusión de Watanabe, es importante darse cuenta de lo que quiso decir con "singularidad". La singularidad (estricta) coincide con la noción geométrica de métrica singular en su teoría.

p.10 [Watanabe]: "Se dice que un modelo estadístico es regular si es identificable y tiene una métrica definida positiva. Si un modelo estadístico no es regular, entonces se llama estrictamente singular".pag(Xw)

En la práctica, la singularidad generalmente surge cuando la métrica de información de Fisher inducida por el modelo se degenera en la variedad definida por el modelo, como casos de bajo rango o escasos en trabajos de "aprendizaje automático".

Lo que Watanabe dijo sobre la convergencia de la divergencia empírica KL a su valor teórico se puede entender de la siguiente manera. Un origen de la noción de divergencia proviene de estadísticas sólidas. Los estimadores M, que incluyen MLE como un caso especial con función de contraste , generalmente se discuten utilizando una topología débil. Es razonable discutir el comportamiento de convergencia usando una topología débil sobre el espacio M ( X ) (la variedad de todas las medidas posibles definidas en el espacio X polacoρ(θ,δ(X))=-Iniciar sesiónpag(Xθ)METRO(X)X) porque queremos estudiar el comportamiento de robustez de MLE. Un teorema clásico en [Huber] declaró que con una función de divergencia bien separada . inf | θ - θ 0 | ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0re(θ0 0,θ)=miθ0 0ρ(θ,δ)

infEl |θ-θ0 0El |ϵ(El |re(θ0 0,θ)-re(θ0 0,θ0 0)El |)>0 0
y buena aproximación empírica de la función de contraste a la divergencia, junto con la regularidad, podemos producir consistencia en sentido ^ θ n :=arg
cenarθEl |1norteyoρ(θ,δ(Xyo))-re(θ0 0,θ)El |0 0,norte
convergerá a θ 0 en probabilidad P θ 0 . Este resultado requiere condiciones mucho más precisas si lo comparamos con el resultado de Doob [Doob] en una consistencia débil del estimador bayesiano.
θnorte^: =unrsolmetroyonorteθρ(θ,δ(Xnorte))
θ0 0PAGθ0 0

Entonces aquí los estimadores bayesianos y MLE divergen. Si todavía utilizamos una topología débil para discutir la consistencia de los estimadores bayesianos, no tiene sentido porque los estimadores bayesianos siempre serán (con probabilidad uno) consistentes por Doob. Por lo tanto, una topología más apropiada es la topología de distribución de Schwarz que permite derivados débiles y la teoría de von Mises entró en juego. Barron tenía un informe técnico muy bueno sobre este tema sobre cómo podríamos usar el teorema de Schwartz para obtener consistencia.

En otra perspectiva, los estimadores bayesianos son distribuciones y su topología debería ser algo diferente. Entonces, ¿qué tipo de papel juega la divergencia en ese tipo de topología? La respuesta es que define el soporte KL de anteriores, lo que permite que el estimador bayesiano sea muy consistente.re

El "resultado de aprendizaje singular" se ve afectado porque, como vemos, el teorema de consistencia de Doob asegura que los estimadores bayesianos sean débilmente consistentes (incluso en modelos singulares) en topología débil, mientras que MLE debe cumplir ciertos requisitos en la misma topología.

Solo una palabra, [Watanabe] no es para principiantes. Tiene algunas implicaciones profundas en los conjuntos analíticos reales que requieren más madurez matemática que la mayoría de los estadísticos, por lo que probablemente no sea una buena idea leerlo sin la orientación adecuada.

[Watanabe] Watanabe, Sumio. Geometría algebraica y teoría del aprendizaje estadístico. Vol. 25. Cambridge University Press, 2009.

[Huber] Huber, Peter J. "El comportamiento de las estimaciones de máxima verosimilitud en condiciones no estándar". Actas del quinto simposio de Berkeley sobre estadística matemática y probabilidad. Vol. 1. No. 1. 1967.

[Doob] Doob, Joseph L. "Aplicación de la teoría de los martingales". Le calcul des probabilites et ses aplicaciones (1949): 23-27.

Henry.L
fuente
Estoy tratando de dar alguna intuición para partes de la respuesta, así que corrígeme si me equivoco. El estimador de Bayes es consistente si lo vemos como un estimador puntual (MAP, en lugar de una distribución probabilística). Requiere menos condiciones para su consistencia que MLE intuitivamente debido a la actuación previa como regularización. Por otro lado, la topología de distribución de Schwartz es más adecuada cuando vemos el estimador de Bayes como una distribución, también ayuda a construir una relación más estrecha entre la consistencia de MLE y el estimador de Bayes, de modo que el caso donde uno diverge y el otro converge no sucederá .
ziyuang
Lo siento, pero no creo que tu explicación sea correcta. Lo anterior actúa como una regularización, pero eso no necesariamente controla la tasa de convergencia. En realidad, los antecedentes planos en realidad ralentizan la convergencia. Son simplemente dos topologías diferentes.
Henry.L