Suponga en general que decidió tomar un modelo del formulario
P(y=1|X=x)=h(x;Θ)
para algún parámetro . Luego, simplemente escriba la probabilidad de ello, es decirΘ
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0P(y=0|x=x;Θ)
que es lo mismo que
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0(1−P(y=1|x=x;Θ))
Ahora ha decidido 'asumir' (modelo)
P(y=1|X=x)=σ(Θ0+Θ1x)
donde
σ(z)=1/(1+e−z)
así que solo calcule la fórmula para la probabilidad y realice algún tipo de algoritmo de optimización para encontrar el , por ejemplo, el método newtons o cualquier otro método basado en gradiente.argmaxΘL(Θ)
Tenga en cuenta que a veces, las personas dicen que cuando están haciendo una regresión logística no maximizan una probabilidad (como lo hicimos nosotros / usted anteriormente) sino que minimizan una función de pérdida
l(Θ)=−∑i=1Nyilog(P(Yi=1|X=x;Θ))+(1−yi)log(P(Yi=0|X=x;Θ))
pero observe que .−log(L(Θ))=l(Θ)
Este es un patrón general en el aprendizaje automático: el lado práctico (que minimiza las funciones de pérdida que miden cuán 'incorrecto' es un modelo heurístico) es, de hecho, igual al 'lado teórico' (modelado explícito con el símbolo , maximizando cantidades estadísticas como verosimilitudes) y, de hecho, muchos modelos que no se parecen a los probabilísticos (SVM, por ejemplo) pueden reunirse en un contexto probabilístico y, de hecho, son maximizaciones de probabilidades.P
Su función de probabilidad (4) consta de dos partes: el producto de la probabilidad de éxito solo para aquellas personas de su muestra que experimentaron un éxito, y el producto de la probabilidad de fracaso solo para las personas de su muestra que experimentaron un fracaso. Dado que cada individuo experimenta un éxito o un fracaso, pero no ambos, la probabilidad aparecerá para cada individuo solo una vez. Eso es lo que y significan en la parte inferior de los signos del producto., y i = 0,yi=1 ,yi=0
Los coeficientes se incluyen en la función de probabilidad sustituyendo (1) en (4). De esa manera, la función de probabilidad se convierte en una función de . El punto de máxima probabilidad es encontrar el que maximice la probabilidad.ωω ω
fuente