Inferencia libre de verosimilitud: ¿qué significa?

11

Recientemente me he dado cuenta de los métodos 'libres de probabilidades' que se usan en la literatura. Sin embargo, no tengo claro qué significa que un método de inferencia u optimización esté libre de probabilidades .

En el aprendizaje automático, el objetivo suele ser maximizar la probabilidad de que algunos parámetros se ajusten a una función, por ejemplo, los pesos en una red neuronal.

Entonces, ¿cuál es exactamente la filosofía de un enfoque libre de probabilidades y por qué las redes adversas como las GAN entran en esta categoría?

Meloso
fuente

Respuestas:

10

Hay muchos ejemplos de métodos que no se basan en las probabilidades en las estadísticas (no sé sobre el aprendizaje automático). Algunos ejemplos:

  1. Pruebas de significancia pura de Fisher . Basado solo en una hipótesis nula claramente definida (como no haber diferencia entre la leche primero y la leche última en el experimento Lady Tasting Tea. Esta suposición conduce a una distribución de hipótesis nula, y luego a un valor p. No hay probabilidad involucrada. Esta maquinaria inferencial mínima en sí mismo no puede dar una base para el análisis de poder (sin alternativa formalmente definida) o intervalos de confianza (sin parámetro formalmente definido).

  2. Asociado a 1. son las pruebas de aleatorización Diferencia entre la prueba de aleatorización y la prueba de permutación , que en su forma más básica es una prueba de significación pura.

  3. Bootstrapping se realiza sin la necesidad de una función de probabilidad. Pero hay conexiones con ideas de probabilidad, por ejemplo, probabilidad empírica .

  4. Los métodos basados ​​en rangos generalmente no usan la probabilidad.

  5. Gran parte de las estadísticas robustas.

  6. Los intervalos de confianza para la mediana (u otros cuantiles) pueden basarse en estadísticas de pedidos. No hay probabilidad de participar en los cálculos. Intervalo de confianza para la mediana , mejor estimador para la varianza de la mediana empírica

  7. V Vapnik tuvo la idea del aprendizaje transductivo que parece estar relacionado con https://en.wikipedia.org/wiki/Epilogism como se discutió en Black Swan Taleb y Black Swan .

  8. En el libro Análisis de datos y modelos aproximados Laurie Davis construye una teoría sistemática de modelos estadísticos como aproximaciones, los intervalos de confianza fueron reemplazados por intervalos de aproximación, y no hay familias paramétricas de distribuciones , no solo y así sucesivamente. Y sin posibilidades.N(μ,σ2)N(9.37,2.122)

En el momento en que tienes una función de probabilidad, hay una inmensa maquinaria sobre la cual construir. Los bayesianos no pueden prescindir, y la mayoría de los demás utilizan la probabilidad la mayor parte del tiempo. Pero se señala en un comentario que incluso los bayesianos intentan prescindir, ver Aproximate_Bayesian_computation . Incluso hay un nuevo texto sobre ese tema.

¿Pero de dónde vienen? Para obtener una función de probabilidad de la manera habitual, necesitamos muchos supuestos que pueden ser difíciles de justificar.

Es interesante preguntar si podemos construir funciones de probabilidad, de alguna manera, a partir de algunos de estos métodos libres de probabilidad. Por ejemplo, en el punto 6. anterior, ¿podemos construir una función de probabilidad para la mediana a partir de (una familia de) intervalos de confianza calculados a partir de estadísticas de pedidos? Debería hacer eso como una pregunta separada ...

Su última pregunta sobre GAN debo dejarla para otros.

kjetil b halvorsen
fuente
77
(+1) Pero ver cálculo bayesiano aproximado . (Tengo la impresión de que "libre de probabilidades" se usa más para los procedimientos en los que esperaría tener que desarrollar una función de probabilidad, pero no es necesario, en lugar de para las pruebas de aleatorización y similares para las que obviamente no necesita " t.)
Scortchi - Restablece a Monica
9

Específicamente, [los recientes] métodos libres de probabilidad son una nueva redacción de los algoritmos ABC, donde ABC significa cómputo bayesiano aproximado . Esto tiene la intención de cubrir métodos de inferencia que no requieren el uso de una función de probabilidad de forma cerrada, pero que aún tienen la intención de estudiar un modelo estadístico específico. Están libres de la dificultad computacional asociada con la probabilidad, pero no del modelo que produce esta probabilidad. Ver por ejemplo

  1. Grelaud, A; Marin, JM; Robert, C; Rodolphe, F; Tally, F (2009). "Métodos libres de probabilidad para la elección del modelo en campos aleatorios de Gibbs". Análisis Bayesiano. 3: 427–442 .
  2. Ratmann, O; Andrieu, C; Wiuf, C; Richardson, S (2009). "Modelo de crítica basada en inferencia libre de probabilidad, con una aplicación a la evolución de la red de proteínas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. 106: 10576-10581 .
  3. Bazin, E., Dawson, KJ y Beaumont, MA (2010). Inferencia libre de probabilidad de la estructura de la población y la adaptación local en un modelo jerárquico bayesiano. Genética, 185 (2), 587-602 .
  4. Didelot, X; Everitt, RG; Johansen, AM; Lawson, DJ (2011). "Estimación sin probabilidad de evidencia modelo". Análisis Bayesiano. 6: 49-76 .
  5. Gutmann, M. y Corander, J. (2016) Optimización bayesiana para la inferencia libre de probabilidades de modelos estadísticos basados ​​en simuladores Journal of Machine Learning Research .
Xi'an
fuente
2

Para agregar a la letanía de respuestas, las estadísticas asintóticas están, de hecho, libres de probabilidades.

Una "probabilidad" aquí se refiere al modelo de probabilidad para los datos . Puede que no me importe eso. Pero puedo encontrar un estimador simple, como la media, que sea un resumen adecuado de los datos y quiero realizar una inferencia sobre la media de la distribución (suponiendo que exista, lo que a menudo es una suposición razonable).

Según el teorema del límite central, la media tiene una distribución normal aproximada en N grande cuando también existe la varianza. Puedo crear pruebas consistentes (la potencia va a 1 como N va al infinito cuando nulo es falso) que son del tamaño correcto. Si bien tengo un modelo de probabilidad (que es falso) para la distribución de muestreo de la media en tamaños de muestra finitos, puedo obtener una inferencia válida y una estimación imparcial para aumentar mi "resumen útil de los datos" (la media).

Cabe señalar que las pruebas basadas en el IC del 95% para la mediana (es decir, la opción 6 en la respuesta de @ kjetilbhalvorsen) también se basan en el teorema del límite central para mostrar que son consistentes. Por lo tanto, no es una locura considerar la prueba T simple como una prueba "no paramétrica" ​​o "basada en la no probabilidad".

AdamO
fuente
1

En el lado del aprendizaje automático: en el aprendizaje automático, generalmente intenta maximizar , donde es el objetivo e es la entrada (por ejemplo, x podría ser un ruido aleatorio e y sería una imagen ) Ahora, ¿cómo optimizamos esto? Una forma común de hacerlo es asumir que . Si suponemos esto, conduce al error cuadrático medio. Tenga en cuenta, que asumimos como forma de . Sin embargo, si no asumimos ninguna distribución determinada, se llama aprendizaje libre de probabilidades.p(y|x)xyp(y|x)=N(y|μ(x),σ)p ( y | x )p(y|x)

¿Por qué las GAN se incluyen en esto? Bueno, la función de pérdida es una red neuronal, y esta red neuronal no es fija, sino que se aprende conjuntamente. Por lo tanto, ya no asumimos ninguna forma (excepto que pertenece a la familia de distribuciones, que puede ser representada por el discriminador, pero por el bien de la teoría, decimos que de todos modos es un aproximador de función universal).p(y|x)

Luca Thiede
fuente