¿Cuál es la diferencia entre regresión lineal y regresión logística?

Respuestas:

270
  • Salida de regresión lineal como probabilidades

    Es tentador usar la salida de regresión lineal como probabilidades, pero es un error porque la salida puede ser negativa y mayor que 1, mientras que la probabilidad no puede. Como la regresión en realidad podría producir probabilidades que podrían ser menores que 0, o incluso mayores que 1, se introdujo la regresión logística.

    Fuente: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    ingrese la descripción de la imagen aquí

  • Salir

    En regresión lineal, el resultado (variable dependiente) es continuo. Puede tener cualquiera de un número infinito de valores posibles.

    En la regresión logística, el resultado (variable dependiente) tiene solo un número limitado de valores posibles.

  • La variable dependiente

    La regresión logística se usa cuando la variable de respuesta es de naturaleza categórica. Por ejemplo, sí / no, verdadero / falso, rojo / verde / azul, 1 ° / 2 ° / 3 ° / 4 °, etc.

    La regresión lineal se usa cuando la variable de respuesta es continua. Por ejemplo, peso, altura, número de horas, etc.

  • Ecuación

    La regresión lineal da una ecuación que tiene la forma Y = mX + C, significa ecuación con grado 1.

    Sin embargo, la regresión logística da una ecuación que tiene la forma Y = e X + e -X

  • Interpretación coeficiente

    En la regresión lineal, la interpretación del coeficiente de las variables independientes es bastante sencilla (es decir, si se mantienen constantes todas las demás variables, con un aumento unitario en esta variable, se espera que la variable dependiente aumente / disminuya en xxx).

    Sin embargo, en la regresión logística, depende de la familia (binomial, Poisson, etc.) y el enlace (log, logit, inverso-log, etc.) que utilice, la interpretación es diferente.

  • Técnica de minimización de errores

    La regresión lineal usa el método de mínimos cuadrados ordinarios para minimizar los errores y llegar al mejor ajuste posible, mientras que la regresión logística usa el método de máxima verosimilitud para llegar a la solución.

    La regresión lineal generalmente se resuelve minimizando el error de mínimos cuadrados del modelo a los datos, por lo tanto, los errores grandes se penalizan de forma cuadrática.

    La regresión logística es todo lo contrario. El uso de la función de pérdida logística hace que grandes errores sean penalizados a una asintóticamente constante.

    Considere la regresión lineal en resultados categóricos {0, 1} para ver por qué esto es un problema. Si su modelo predice que el resultado es 38, cuando la verdad es 1, no ha perdido nada. La regresión lineal trataría de reducir ese 38, la logística no (tanto) 2 .

Sayali Sonawane
fuente
¿Hay alguna diferencia entre Y = e ^ X / 1 + e ^ -X e Y = e ^ X + e ^ -X?
MMS
3
e ^ X / 1? cualquier cosa dividida por 1 es igual. Entonces no hay diferencia. Estoy seguro de que querías preguntar algo más.
spacewanderer
Sé que este es un hilo viejo, pero dada su afirmación "La regresión logística se usa cuando la variable de respuesta es de naturaleza categórica. Por ejemplo, sí / no, verdadero / falso, rojo / verde / azul, 1 ° / 2 ° / 3 ° / 4 °, etc. "; ¿Cuál es la diferencia entre esto y la clasificación entonces?
kingJulian
@kingJulian La regresión logística se usa para la clasificación. Mira esto , puede que te resulte útil como lo he hecho
QuantumHoneybees
@kingJulian: La regresión logística es una técnica de clasificación y la clasificación representa varios algoritmos que intentan predecir pocos resultados.
user3676305
204

En regresión lineal, el resultado (variable dependiente) es continuo. Puede tener cualquiera de un número infinito de valores posibles. En la regresión logística, el resultado (variable dependiente) tiene solo un número limitado de valores posibles.

Por ejemplo, si X contiene el área en pies cuadrados de casas e Y contiene el precio de venta correspondiente de esas casas, podría usar una regresión lineal para predecir el precio de venta en función del tamaño de la casa. Si bien el posible precio de venta en realidad puede no ser ninguno , hay tantos valores posibles que se elegiría un modelo de regresión lineal.

Si, en cambio, desea predecir, en función del tamaño, si una casa se vendería por más de $ 200K, utilizaría la regresión logística. Los posibles resultados son Sí, la casa se venderá por más de $ 200K o No, la casa no.

Eric G
fuente
3
En el ejemplo de regresión logística de cáncer de andrews, puedo dibujar una línea horizontal y = .5 (que obviamente pasa por y = .5), diez si algún punto está por encima de esta línea y = .5 => + ve, de lo contrario -ve . Entonces, ¿por qué necesito una regresión logística? ¿Solo estoy tratando de entender la mejor explicación del caso para usar la regresión logística?
vinita
@vinita: aquí o aquí hay un ejemplo simple para no usar regresión lineal y luego mantener la trilla, para problemas de clasificación.
Ankush Shah
3
La regresión logística es el mejor clasificador de datos categóricos que la regresión lineal. Utiliza una función de error de entropía cruzada en lugar de mínimos cuadrados. Por lo tanto, no es tan sensible a los valores atípicos y tampoco castiga los puntos de datos "demasiado correctos" como lo hacen los mínimos cuadrados.
Marcel_marcel1991
15

Solo para agregar las respuestas anteriores.

Regresión lineal

Está destinado a resolver el problema de predecir / estimar el valor de salida para un elemento dado X (digamos f (x)). El resultado de la predicción es una función común donde los valores pueden ser positivos o negativos. En este caso, normalmente tiene un conjunto de datos de entrada con muchos ejemplos y el valor de salida para cada uno de ellos. El objetivo es poder ajustar un modelo a este conjunto de datos para que pueda predecir esa salida para nuevos elementos diferentes / nunca vistos. El siguiente es el ejemplo clásico de ajustar una línea a un conjunto de puntos, pero en general la regresión lineal podría usarse para ajustar modelos más complejos (usando grados polinómicos más altos):

ingrese la descripción de la imagen aquí Resolviendo el problema

La regresión lineal se puede resolver de dos maneras diferentes:

  1. Ecuación normal (forma directa de resolver el problema)
  2. Descenso de gradiente (enfoque iterativo)

Regresión logística

Está destinado a resolver problemas de clasificación cuando se le da un elemento para clasificarlo en N categorías. Ejemplos típicos son, por ejemplo, recibir un correo para clasificarlo como spam o no, o encontrar un vehículo a la categoría a la que pertenece (automóvil, camión, camioneta, etc.). Eso es básicamente la salida es un conjunto finito de valores discretos.

Resolviendo el problema

Los problemas de regresión logística solo podrían resolverse mediante el uso de Descenso de gradiente. La formulación en general es muy similar a la regresión lineal, la única diferencia es el uso de diferentes funciones de hipótesis. En regresión lineal, la hipótesis tiene la forma:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

donde theta es el modelo que estamos tratando de ajustar y [1, x_1, x_2, ..] es el vector de entrada. En la regresión logística, la función de hipótesis es diferente:

g(x) = 1 / (1 + e^-x)

ingrese la descripción de la imagen aquí

Esta función tiene una buena propiedad, básicamente asigna cualquier valor al rango [0,1] que sea apropiado para manejar las propagabilidades durante la clasificación. Por ejemplo, en el caso de una clasificación binaria, g (X) podría interpretarse como la probabilidad de pertenecer a la clase positiva. En este caso, normalmente tiene diferentes clases que están separadas con un límite de decisión que básicamente es una curva que decide la separación entre las diferentes clases. El siguiente es un ejemplo de conjunto de datos separados en dos clases.

ingrese la descripción de la imagen aquí

rkachach
fuente
7

Ambas son bastante similares en la resolución de la solución, pero como han dicho otros, una (Regresión logística) es para predecir una categoría de "ajuste" (S / N o 1/0), y la otra (Regresión lineal) es para predecir un valor.

Entonces, si desea predecir si tiene cáncer S / N (o una probabilidad), utilice la logística. Si quieres saber cuántos años vivirás, ¡usa la regresión lineal!

Doug F
fuente
6

La diferencia básica:

La regresión lineal es básicamente un modelo de regresión, lo que significa que dará una salida no discreta / continua de una función. Entonces este enfoque le da valor. Por ejemplo: dado x qué es f (x)

Por ejemplo, dado un conjunto de capacitación de diferentes factores y el precio de una propiedad después de la capacitación, podemos proporcionar los factores necesarios para determinar cuál será el precio de la propiedad.

La regresión logística es básicamente un algoritmo de clasificación binaria, lo que significa que aquí habrá una salida discreta y valorada para la función. Por ejemplo: para un determinado x si f (x)> umbral lo clasifica como 1 más lo clasifica como 0.

Por ejemplo, dado un conjunto de tamaño de tumor cerebral como datos de entrenamiento, podemos usar el tamaño como entrada para determinar si se trata de un tumor benigno o maligno. Por lo tanto, aquí la salida es discreta 0 o 1.

* aquí la función es básicamente la función de hipótesis

sayantan ghosh
fuente
5

En pocas palabras, la regresión lineal es un algoritmo de regresión, que supera un posible valor continuo e infinito; La regresión logística se considera como un algoritmo clasificador binario, que genera la 'probabilidad' de la entrada que pertenece a una etiqueta (0 o 1).

Jason CHAN
fuente
Gracias a Dios leí tu nota sobre la probabilidad. Estaba a punto de descartar la logística como un clasificador binario.
HashRocketSyntax
4

Regresión significa variable continua, lineal significa que existe una relación lineal entre y y x. Ej = Está tratando de predecir el salario a partir de ninguno de los años de experiencia. Entonces, aquí el salario es una variable independiente (y) y los años de experiencia son variables dependientes (x). y = b0 + b1 * x1 Regresión lineal Estamos tratando de encontrar el valor óptimo de la constante b0 y b1 que nos dará la mejor línea de ajuste para sus datos de observación. Es una ecuación de línea que da un valor continuo de x = 0 a un valor muy grande. Esta línea se llama modelo de regresión lineal.

La regresión logística es un tipo de técnica de clasificación. No se deje engañar por la regresión de términos. Aquí predecimos si y = 0 o 1.

Aquí primero necesitamos encontrar p (y = 1) (probabilidad de w de y = 1) dada x de la fórmula siguiente.

problema

Probabilidad p está relacionada con y por debajo de formuale

s

Ej = podemos hacer una clasificación de tumor que tiene más del 50% de probabilidad de tener cáncer como 1 y tumor que tiene menos del 50% de probabilidad de tener cáncer como 0. 5 5

Aquí el punto rojo se pronosticará como 0, mientras que el punto verde se pronosticará como 1.

Ashish Anand
fuente
1

En resumen: la regresión lineal proporciona una salida continua. es decir, cualquier valor entre un rango de valores. La regresión logística proporciona resultados discretos. es decir, Sí / No, 0/1 tipo de salidas.

Sudeep K Rana
fuente
1

No puedo estar más de acuerdo con los comentarios anteriores. Por encima de eso, hay algunas diferencias más como

En la regresión lineal, se supone que los residuos se distribuyen normalmente. En la regresión logística, los residuos deben ser independientes pero no distribuidos normalmente.

La regresión lineal supone que un cambio constante en el valor de la variable explicativa da como resultado un cambio constante en la variable de respuesta. Este supuesto no se cumple si el valor de la variable de respuesta representa una probabilidad (en Regresión logística)

GLM (modelos lineales generalizados) no asume una relación lineal entre variables dependientes e independientes. Sin embargo, supone una relación lineal entre la función de enlace y las variables independientes en el modelo logit.

Rakend Dubba
fuente
1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |
Sinfonía
fuente
0

En pocas palabras, si en el modelo de regresión lineal llegan más casos de prueba que están muy lejos del umbral (digamos = 0.5) para una predicción de y = 1 e y = 0. Entonces, en ese caso, la hipótesis cambiará y empeorará. Por lo tanto, el modelo de regresión lineal no se utiliza para problemas de clasificación.

Otro problema es que si la clasificación es y = 0 e y = 1, h (x) puede ser> 1 o <0. Por lo tanto, utilizamos la regresión logística donde 0 <= h (x) <= 1.

Adarsh ​​Bahadur
fuente
0

La regresión logística se usa para predecir resultados categóricos como Sí / No, Bajo / Medio / Alto, etc. Tiene básicamente 2 tipos de regresión logística Regresión logística binaria (Sí / No, Aprobado / Desaprobado) o Regresión logística multiclase (Bajo / Medio / Alto, dígitos de 0-9, etc.)

Por otro lado, la regresión lineal es si su variable dependiente (y) es continua. y = mx + c es una ecuación de regresión lineal simple (m = pendiente y c es la intersección en y). La regresión multilineal tiene más de 1 variable independiente (x1, x2, x3 ... etc.)

ketan solanki
fuente
0

En la regresión lineal, el resultado es continuo, mientras que en la regresión logística, el resultado tiene solo un número limitado de valores posibles (discreto).

ejemplo: en un escenario, el valor dado de x es el tamaño de una parcela en pies cuadrados y luego predice y, es decir, la tasa de la parcela se somete a una regresión lineal.

Si, en cambio, desea predecir, en función del tamaño, si la parcela se vendería por más de 300000 Rs, utilizaría la regresión logística. Las salidas posibles son Sí, la trama se venderá por más de 300000 Rs o No.

Pradeep Kumar
fuente
0

En caso de regresión lineal, el resultado es continuo, mientras que en caso de regresión logística el resultado es discreto (no continuo)

Para realizar la regresión lineal, necesitamos una relación lineal entre las variables dependientes e independientes. Pero para realizar la regresión logística no necesitamos una relación lineal entre las variables dependientes e independientes.

La regresión lineal se trata de ajustar una línea recta en los datos, mientras que la regresión logística se trata de ajustar una curva a los datos.

La regresión lineal es un algoritmo de regresión para el aprendizaje automático, mientras que la regresión logística es un algoritmo de clasificación para el aprendizaje automático.

La regresión lineal supone la distribución gaussiana (o normal) de la variable dependiente. La regresión logística supone la distribución binomial de la variable dependiente.

Sandeep R
fuente