¿Cómo puede la regresión logística producir curvas que no son funciones tradicionales?

15

Creo que tengo una confusión fundamental sobre cómo funcionan las funciones en la regresión logística (o tal vez solo funciona en su conjunto).

¿Cómo es que la función h (x) produce la curva que se ve a la izquierda de la imagen?

Veo que este es un gráfico de dos variables, pero estas dos variables (x1 y x2) también son argumentos de la función en sí. Conozco las funciones estándar de un mapa variable a una salida, pero esta función claramente no está haciendo eso, y no estoy totalmente seguro de por qué.

Mi intuición es que la curva azul / rosa no está realmente trazada en este gráfico, sino que es una representación (círculos y X) que se asignan a los valores en la siguiente dimensión (tercera) del gráfico. ¿Este razonamiento es defectuoso y solo me falta algo? Gracias por cualquier idea / intuición.

logistic data-visualization function Sam
fuente

8

Presta atención a las etiquetas de los ejes, observa que ninguno está etiquetado como

.

y

$y$

Matthew Drury

3

¿Cuál sería una "función tradicional"?

whuber

@matthewDrury Entiendo eso, y esto explica las X / Os 2D. Estoy preguntando de dónde viene la curva trazada

Sam

19

Este es un ejemplo de sobreajuste en el curso Coursera en ML por Andrew Ng en el caso de un modelo de clasificación con dos características , en el que los valores verdaderos están simbolizados por y y el límite de decisión es adaptado con precisión al conjunto de entrenamiento mediante el uso de términos polinomiales de alto orden. $(x_1, x_2)$ $\color{red}{\large \times}$ $\color{blue}{\large\circ},$

El problema que intenta ilustrar se relaciona con el hecho de que, aunque la línea de decisión límite (línea curvilínea en azul) no clasifica mal ningún ejemplo, su capacidad de generalizar fuera del conjunto de entrenamiento se verá comprometida. Andrew Ng continúa explicando que la regularización puede mitigar este efecto y dibuja la curva magenta como un límite de decisión menos ajustado al conjunto de entrenamiento y más probable de generalizar.

Con respecto a su pregunta específica:

Mi intuición es que la curva azul / rosa no está realmente trazada en este gráfico, sino que es una representación (círculos y X) que se asignan a los valores en la siguiente dimensión (tercera) del gráfico.

No hay altura (tercera dimensión): hay dos categorías, y y la línea de decisión muestra cómo los separa el modelo. En el modelo más simple $(\large\times$ $\large\circ),$

h_{θ} (X) = sol (θ_{0 0} + θ_{1} X_{1} + θ_{2} X_{2})

$h_\theta(x)=g\left(\theta_0 + \theta_1 \, x_1 + \theta_2 \, x_2 \right)$

El límite de decisión será lineal.

Quizás tenga en mente algo como esto, por ejemplo:

5 5 + 2 X - 1.3 X^{2} - 1,2 X^{2} y + 1 X^{2} y^{2} + 3 X^{2} y^{3}

$5 + 2 x - 1.3 x^2 -1.2 x^2 y + 1 x^2 y^2 + 3 x^2 y^3$

$g(\cdot)$ $x_1$ $x_2$ $\large \times$ $\large($ $\large \circ).$ $(1,0)$

$(x_1,x_2)$ $\large \times$ $\large \circ$ $\color{red}{\large \times}$ $\color{blue}{\large \circ}$ $\large \times$ $\large \circ$ esta entrada de blog en R-bloggers ).

Observe la entrada en Wikipedia sobre el límite de decisión :

En un problema de clasificación estadística con dos clases, un límite de decisión o superficie de decisión es una hiperesuperficie que divide el espacio vectorial subyacente en dos conjuntos, uno para cada clase. El clasificador clasificará todos los puntos de un lado del límite de decisión como pertenecientes a una clase y todos los del otro lado como pertenecientes a la otra clase. Un límite de decisión es la región de un espacio problemático en el que la etiqueta de salida de un clasificador es ambigua.

$∈[0,1]),$

$3$

$y_1 = h_\theta(x)$ $\mathbf W$ $(\Theta)$ $\Theta$

Al unirse a múltiples neuronas, estos hiperplanos de separación se pueden sumar y restar para terminar con formas caprichosas:

Esto enlaza con el teorema de aproximación universal .

Antoni Parellada
fuente

1

+1 siempre disfruta leyendo tu respuesta. Podría ser aún mejor si puede hacer que un plano de decisión se cruce con su trama. para mostrar algunos arriba y otros abajo.

Haitao Du

Muchas gracias por esto. Todavía siento que me falta algo pequeño sobre la curva en sí misma. ¿Es esto decir que el límite de decisión realmente no se está "dibujando" sino que es solo la manera de Andrew Ng de indicar los umbrales de valor de x1 y x2 que hacer que la hipótesis sea × o ∘? Creo que parte de mi confusión surgió de cómo esa curva podría ser una función en primer lugar, pero ahora me doy cuenta de que no lo es.

Sam

1

@AntoniParellada Esto es genial, ahora veo la distinción. Muchas gracias por la ayuda.

Sam

0

Tenemos algunos matemáticos pesados que responden esta pregunta. Nunca he visto un diagrama como el que representa aquí, con los valores para los predictores X1 y X2 y la línea de 'límite de decisión' que separa los positivos pronosticados de los negativos predichos. (¿o es un mapa de resultados pronosticados versus reales?) Pero es útil, siempre y cuando solo tenga dos predictores de interés que desee mapear.
Parece que la línea magenta separa los positivos pronosticados de los negativos predichos, mientras que la línea azul oscuro incluye todos los positivos. Este suele ser el caso en la regresión logística: el modelo predecirá correctamente el resultado en menos del 100% de los casos (y predecirá algunos falsos positivos y / o falsos negativos).
Es posible ejecutar una regresión logística y hacer que el procedimiento produzca la función h (x) para cada caso individual en el conjunto de datos. Esto producirá un puntaje de propensión para cada sujeto, de 0 a 1, que proporciona la probabilidad o probabilidad pronosticada del resultado positivo para cada sujeto en función de las variables predictoras de ese sujeto, según el modelo de regresión logística que utiliza todos los sujetos. Se predice que aquellos en el punto de corte de puntaje de propensión de 0.5 o superior tendrán el resultado, y se pronostica que aquellos por debajo de 0.5 no tendrán el resultado. Pero puede ajustar este nivel de corte como mejor le parezca, por ejemplo, para hacer un modelo de predicción de diagnóstico de algún resultado basado en todas las variables de entrada que se ingresan en su análisis de regresión logística. Puede establecer el límite en 0.3 por ejemplo. Luego puede hacer una tabla 2X2 de resultados pronosticados vs reales y determinar su sensibilidad, especificidad, tasa de falsos positivos y tasa de falsos negativos del modelo en función de este nivel de corte. Esto proporciona más información y también lo libera del límite de 2 variables utilizadas en su gráfico. Puede usar tantos predictores como pueda encajar razonablemente en el modelo y aún así hacer una tabla 2X2 de resultados reales vs pronosticados. Dado que la regresión logística utiliza resultados categóricos (sí-no), cada celda en la tabla 2X2 es simplemente un recuento de los sujetos que cumplen con los criterios de fila y columna. Puede usar tantos predictores como pueda encajar razonablemente en el modelo y aún así hacer una tabla 2X2 de resultados reales vs pronosticados. Dado que la regresión logística utiliza resultados categóricos (sí-no), cada celda en la tabla 2X2 es simplemente un recuento de los sujetos que cumplen con los criterios de fila y columna. Puede usar tantos predictores como pueda encajar razonablemente en el modelo y aún así hacer una tabla 2X2 de resultados reales vs pronosticados. Dado que la regresión logística utiliza resultados categóricos (sí-no), cada celda en la tabla 2X2 es simplemente un recuento de los sujetos que cumplen con los criterios de fila y columna.
En el gráfico que proporciona, probablemente asume un límite de 0.5. Este es el valor predeterminado común para el software. Si lo ajustara más alto (a 0,65 por ejemplo), podría incluir todas las O dentro de la línea, pero también tendría algunos falsos positivos (X que cree que deberían ser O) que el modelo predeciría como resultado de interesar. (o ajuste la puntuación de corte más baja y tenga más falsos negativos).
Espero que esto ayude.

alemán
fuente

¿Cómo puede la regresión logística producir curvas que no son funciones tradicionales?

Respuestas: