Recientemente me he dado cuenta de los métodos 'libres de probabilidades' que se usan en la literatura. Sin embargo, no tengo claro qué significa que un método de inferencia u optimización esté libre de probabilidades .
En el aprendizaje automático, el objetivo suele ser maximizar la probabilidad de que algunos parámetros se ajusten a una función, por ejemplo, los pesos en una red neuronal.
Entonces, ¿cuál es exactamente la filosofía de un enfoque libre de probabilidades y por qué las redes adversas como las GAN entran en esta categoría?
Específicamente, [los recientes] métodos libres de probabilidad son una nueva redacción de los algoritmos ABC, donde ABC significa cómputo bayesiano aproximado . Esto tiene la intención de cubrir métodos de inferencia que no requieren el uso de una función de probabilidad de forma cerrada, pero que aún tienen la intención de estudiar un modelo estadístico específico. Están libres de la dificultad computacional asociada con la probabilidad, pero no del modelo que produce esta probabilidad. Ver por ejemplo
fuente
Para agregar a la letanía de respuestas, las estadísticas asintóticas están, de hecho, libres de probabilidades.
Una "probabilidad" aquí se refiere al modelo de probabilidad para los datos . Puede que no me importe eso. Pero puedo encontrar un estimador simple, como la media, que sea un resumen adecuado de los datos y quiero realizar una inferencia sobre la media de la distribución (suponiendo que exista, lo que a menudo es una suposición razonable).
Según el teorema del límite central, la media tiene una distribución normal aproximada en N grande cuando también existe la varianza. Puedo crear pruebas consistentes (la potencia va a 1 como N va al infinito cuando nulo es falso) que son del tamaño correcto. Si bien tengo un modelo de probabilidad (que es falso) para la distribución de muestreo de la media en tamaños de muestra finitos, puedo obtener una inferencia válida y una estimación imparcial para aumentar mi "resumen útil de los datos" (la media).
Cabe señalar que las pruebas basadas en el IC del 95% para la mediana (es decir, la opción 6 en la respuesta de @ kjetilbhalvorsen) también se basan en el teorema del límite central para mostrar que son consistentes. Por lo tanto, no es una locura considerar la prueba T simple como una prueba "no paramétrica" o "basada en la no probabilidad".
fuente
En el lado del aprendizaje automático: en el aprendizaje automático, generalmente intenta maximizar , donde es el objetivo e es la entrada (por ejemplo, x podría ser un ruido aleatorio e y sería una imagen ) Ahora, ¿cómo optimizamos esto? Una forma común de hacerlo es asumir que . Si suponemos esto, conduce al error cuadrático medio. Tenga en cuenta, que asumimos como forma de . Sin embargo, si no asumimos ninguna distribución determinada, se llama aprendizaje libre de probabilidades.p(y|x) x y p(y|x)=N(y|μ(x),σ) p ( y | x )p(y|x)
¿Por qué las GAN se incluyen en esto? Bueno, la función de pérdida es una red neuronal, y esta red neuronal no es fija, sino que se aprende conjuntamente. Por lo tanto, ya no asumimos ninguna forma (excepto que pertenece a la familia de distribuciones, que puede ser representada por el discriminador, pero por el bien de la teoría, decimos que de todos modos es un aproximador de función universal).p(y|x)
fuente