En Bishop's Pattern Recognition and Machine Learning leí lo siguiente, justo después de que se introdujera la densidad de probabilidad :
Bajo un cambio no lineal de variable, una densidad de probabilidad se transforma de manera diferente a una función simple, debido al factor jacobiano. Por ejemplo, si consideramos un cambio de variables , entonces una función convierte en . Ahora considere una densidad de probabilidad que corresponde a una densidad con respecto a la nueva variable , donde los denotan el hecho de que y son densidades diferentes. Las observaciones que caen en el rango , para valores pequeños de , se transformarán en el rango ) donde , y por lo tanto p_y (y) = p_x (x) | \ frac {dx} {dy} | = p_x (g (y)) | g \ prime (y) | .
¿Cuál es el factor jacobiano y qué significa exactamente todo (tal vez cualitativamente)? Bishop dice que una consecuencia de esta propiedad es que el concepto del máximo de una densidad de probabilidad depende de la elección de la variable. ¿Qué significa esto?
Para mí, todo esto surge de la nada (considerando que está en el capítulo de introducción). Agradecería algunos consejos, gracias!
Respuestas:
Le sugiero que lea la solución de la Pregunta 1.4 que proporciona una buena intuición.
En pocas palabras, si tiene una función arbitraria y dos variables e que están relacionadas entre sí por la función , entonces puede encontrar el máximo de la función analizando directamente : o la función transformada : . No es sorprendente que y estarán relacionados con cada uno como (aquí supuse que .x y x = g ( Y ) f ( x ) x = un r g m un x x ( f ( x ) ) f ( g ( Y ) ) y = un r g m un x y ( f ( g ( Y ) ) x yF( x ) X y x=g(y) f(x) x^=argmaxx(f(x)) f(g(y)) y^=argmaxy(f(g(y)) x^ y^ ∀y:g'(y)≠0)x^=g(y^) ∀y:g′(y)≠0)
Este no es el caso de las distribuciones de probabilidad. Si tiene una distribución de probabilidad y dos variables aleatorias que están relacionadas entre sí por . Entonces no hay una relación directa entre y . Esto sucede debido al factor jacobiano, un factor que muestra cómo una función como Cambia relativamente el volumen .x = g ( Y ) x = un r g m un x x ( p x ( x ) ) y = un r g m un x y ( p y ( y ) ) g ( . )px(x) x=g(y) x^=argmaxx(px(x)) y^=argmaxy(py(y)) g(.)
fuente