Comprender la regresión logística y la probabilidad

12

¿Cómo funciona realmente la estimación de parámetros / Entrenamiento de regresión logística? Trataré de poner lo que tengo hasta ahora.

  1. La salida es y la salida de la función logística en forma de probabilidad dependiendo del valor de x:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. Para una dimensión, las llamadas Probabilidades se definen de la siguiente manera:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. Ahora agregue la logfunción para obtener W_0 y W_1 en forma lineal:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. Ahora a la parte del problema Uso de la probabilidad (Big X es y) ¿ puede decir por qué estamos considerando la probabilidad de y = 1 dos veces? desde:
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    P(y=0|x)=1P(y=1|x)

¿Y cómo obtener los valores de ω?

Motor
fuente

Respuestas:

10

Suponga en general que decidió tomar un modelo del formulario

P(y=1|X=x)=h(x;Θ)

para algún parámetro . Luego, simplemente escriba la probabilidad de ello, es decirΘ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

que es lo mismo que

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

Ahora ha decidido 'asumir' (modelo)

P(y=1|X=x)=σ(Θ0+Θ1x)

donde

σ(z)=1/(1+ez)

así que solo calcule la fórmula para la probabilidad y realice algún tipo de algoritmo de optimización para encontrar el , por ejemplo, el método newtons o cualquier otro método basado en gradiente.argmaxΘL(Θ)

Tenga en cuenta que a veces, las personas dicen que cuando están haciendo una regresión logística no maximizan una probabilidad (como lo hicimos nosotros / usted anteriormente) sino que minimizan una función de pérdida

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

pero observe que .log(L(Θ))=l(Θ)

Este es un patrón general en el aprendizaje automático: el lado práctico (que minimiza las funciones de pérdida que miden cuán 'incorrecto' es un modelo heurístico) es, de hecho, igual al 'lado teórico' (modelado explícito con el símbolo , maximizando cantidades estadísticas como verosimilitudes) y, de hecho, muchos modelos que no se parecen a los probabilísticos (SVM, por ejemplo) pueden reunirse en un contexto probabilístico y, de hecho, son maximizaciones de probabilidades.P

Fabian Werner
fuente
@Werner gracias por tu respuesta. Pero todavía necesito un poco de aclaración. En primer lugar, ¿podría explicar por qué se quedan los 2 en la definición de ya que, por lo que he entendido, estoy interesado en el caso de . y cómo puedo obtener los valores de y gracias por su ayuda! L(θ)yi=1ω1ω0
Motor
@Engine: El gran 'pi' es un producto ... como un gran Sigma es una suma ... ¿entiendes o necesitas más aclaraciones sobre eso también? Sobre la segunda pregunta: Digamos que queremos minimizar una función y comenzamos en pero supongamos que no sabemos / no podemos expresar / no podemos visualizar como es para Complicado. Ahora la derivada de es . Curiosamente, si estamos en lo correcto desde el mínimo , apunta a la derecha y si nos queda, apunta a la izquierda. Matemáticamente, la derivada apunta en la dirección del "ascenso más fuerte"Σf(x)=x2x=3fff=2xx=0
Fabian Werner,
@ Motor: en más dimensiones, reemplaza la derivada por el gradiente, es decir, comienza en un punto aleatorio y calcula el gradiente en si desea maximizar, su próximo punto es . Luego calcula y su siguiente es y así sucesivamente. Esto se llama gradiente de ascenso / descenso y es la técnica más común para maximizar una función. Ahora haz eso con o en tu notación para encontrar el que maximizax0fxx1x1=x0+f(x0)f(x1)xx2=x1+f(x1)L(Θ)L(ω)ωL
Fabian Werner
@Engine: ¡No te interesa en absoluto el caso ! Usted está interesado en 'la' que 'mejor explica sus datos'. De thet aou, deje que el modelo 'hable por sí mismo' y regrese al caso de pero antes que nada debe configurar un modelo. Aquí, 'mejor explica' significa 'tener la mayor probabilidad' porque eso es lo que se les ocurrió a las personas (y creo que es muy natural) ... sin embargo, hay otras métricas (diferentes funciones de pérdida, etc.) que uno podría ¡utilizar! ¡Hay dos productos porque queremos que el modelo explique el así como el 'bueno'! y=1ωωy=1y=1 y=0
Fabian Werner
8

Su función de probabilidad (4) consta de dos partes: el producto de la probabilidad de éxito solo para aquellas personas de su muestra que experimentaron un éxito, y el producto de la probabilidad de fracaso solo para las personas de su muestra que experimentaron un fracaso. Dado que cada individuo experimenta un éxito o un fracaso, pero no ambos, la probabilidad aparecerá para cada individuo solo una vez. Eso es lo que y significan en la parte inferior de los signos del producto., y i = 0,yi=1,yi=0

Los coeficientes se incluyen en la función de probabilidad sustituyendo (1) en (4). De esa manera, la función de probabilidad se convierte en una función de . El punto de máxima probabilidad es encontrar el que maximice la probabilidad.ωωω

Maarten Buis
fuente
Muchas gracias por su respuesta, lo siento pero aún no lo entiendo. no es significa la probabilidad de que y = 0 [No ocurra] para todas las y del producto. y viceversa para y_i = 1. Y aún después de la subtitulación de cómo puedo encontrar valores , calculando la segunda derivada? o gradiente? muchas gracias por tu ayuda ! ωyi=0ω
Motor
i = 1 N y = 1i=1,y=1N debe leerse como "producto para personas hasta , pero solo si Por lo tanto, la primera parte solo se aplica a aquellas personas en sus datos que experimentaron el evento De manera similar, la segunda parte solo se refiere a personas que no experimentaron el evento.i=1Ny=1
Maarten Buis
Hay muchos algoritmos posibles para maximizar la función de probabilidad. El más común, el método de Newton-Raphson , de hecho implica calcular la primera y segunda derivada.
Maarten Buis