Creo que tengo una confusión fundamental sobre cómo funcionan las funciones en la regresión logística (o tal vez solo funciona en su conjunto).
¿Cómo es que la función h (x) produce la curva que se ve a la izquierda de la imagen?
Veo que este es un gráfico de dos variables, pero estas dos variables (x1 y x2) también son argumentos de la función en sí. Conozco las funciones estándar de un mapa variable a una salida, pero esta función claramente no está haciendo eso, y no estoy totalmente seguro de por qué.
Mi intuición es que la curva azul / rosa no está realmente trazada en este gráfico, sino que es una representación (círculos y X) que se asignan a los valores en la siguiente dimensión (tercera) del gráfico. ¿Este razonamiento es defectuoso y solo me falta algo? Gracias por cualquier idea / intuición.
Respuestas:
Este es un ejemplo de sobreajuste en el curso Coursera en ML por Andrew Ng en el caso de un modelo de clasificación con dos características , en el que los valores verdaderos están simbolizados por × y ∘ , y el límite de decisión es adaptado con precisión al conjunto de entrenamiento mediante el uso de términos polinomiales de alto orden.(x1,x2) × ∘ ,
El problema que intenta ilustrar se relaciona con el hecho de que, aunque la línea de decisión límite (línea curvilínea en azul) no clasifica mal ningún ejemplo, su capacidad de generalizar fuera del conjunto de entrenamiento se verá comprometida. Andrew Ng continúa explicando que la regularización puede mitigar este efecto y dibuja la curva magenta como un límite de decisión menos ajustado al conjunto de entrenamiento y más probable de generalizar.
Con respecto a su pregunta específica:
No hay altura (tercera dimensión): hay dos categorías, y ∘ ) , y la línea de decisión muestra cómo los separa el modelo. En el modelo más simple( × ∘ ) ,
El límite de decisión será lineal.
Quizás tenga en mente algo como esto, por ejemplo:
Observe la entrada en Wikipedia sobre el límite de decisión :
Al unirse a múltiples neuronas, estos hiperplanos de separación se pueden sumar y restar para terminar con formas caprichosas:
Esto enlaza con el teorema de aproximación universal .
fuente
Tenemos algunos matemáticos pesados que responden esta pregunta. Nunca he visto un diagrama como el que representa aquí, con los valores para los predictores X1 y X2 y la línea de 'límite de decisión' que separa los positivos pronosticados de los negativos predichos. (¿o es un mapa de resultados pronosticados versus reales?) Pero es útil, siempre y cuando solo tenga dos predictores de interés que desee mapear.
Parece que la línea magenta separa los positivos pronosticados de los negativos predichos, mientras que la línea azul oscuro incluye todos los positivos. Este suele ser el caso en la regresión logística: el modelo predecirá correctamente el resultado en menos del 100% de los casos (y predecirá algunos falsos positivos y / o falsos negativos).
Es posible ejecutar una regresión logística y hacer que el procedimiento produzca la función h (x) para cada caso individual en el conjunto de datos. Esto producirá un puntaje de propensión para cada sujeto, de 0 a 1, que proporciona la probabilidad o probabilidad pronosticada del resultado positivo para cada sujeto en función de las variables predictoras de ese sujeto, según el modelo de regresión logística que utiliza todos los sujetos. Se predice que aquellos en el punto de corte de puntaje de propensión de 0.5 o superior tendrán el resultado, y se pronostica que aquellos por debajo de 0.5 no tendrán el resultado. Pero puede ajustar este nivel de corte como mejor le parezca, por ejemplo, para hacer un modelo de predicción de diagnóstico de algún resultado basado en todas las variables de entrada que se ingresan en su análisis de regresión logística. Puede establecer el límite en 0.3 por ejemplo. Luego puede hacer una tabla 2X2 de resultados pronosticados vs reales y determinar su sensibilidad, especificidad, tasa de falsos positivos y tasa de falsos negativos del modelo en función de este nivel de corte. Esto proporciona más información y también lo libera del límite de 2 variables utilizadas en su gráfico. Puede usar tantos predictores como pueda encajar razonablemente en el modelo y aún así hacer una tabla 2X2 de resultados reales vs pronosticados. Dado que la regresión logística utiliza resultados categóricos (sí-no), cada celda en la tabla 2X2 es simplemente un recuento de los sujetos que cumplen con los criterios de fila y columna. Puede usar tantos predictores como pueda encajar razonablemente en el modelo y aún así hacer una tabla 2X2 de resultados reales vs pronosticados. Dado que la regresión logística utiliza resultados categóricos (sí-no), cada celda en la tabla 2X2 es simplemente un recuento de los sujetos que cumplen con los criterios de fila y columna. Puede usar tantos predictores como pueda encajar razonablemente en el modelo y aún así hacer una tabla 2X2 de resultados reales vs pronosticados. Dado que la regresión logística utiliza resultados categóricos (sí-no), cada celda en la tabla 2X2 es simplemente un recuento de los sujetos que cumplen con los criterios de fila y columna.
En el gráfico que proporciona, probablemente asume un límite de 0.5. Este es el valor predeterminado común para el software. Si lo ajustara más alto (a 0,65 por ejemplo), podría incluir todas las O dentro de la línea, pero también tendría algunos falsos positivos (X que cree que deberían ser O) que el modelo predeciría como resultado de interesar. (o ajuste la puntuación de corte más baja y tenga más falsos negativos).
Espero que esto ayude.
fuente