¿Cuál es la diferencia entre la regresión logística y las redes neuronales?

32

¿Cómo explicamos la diferencia entre la regresión logística y la red neuronal a una audiencia que no tiene antecedentes en estadísticas?

usuario16789
fuente
77
¿Alguien sin experiencia en estadísticas realmente querría saber? Y, ¿qué constituiría una explicación aceptable de la diferencia? Quizás una metáfora. Ciertamente, ninguna de las respuestas a continuación (hasta la fecha), todas las cuales omiten por completo el requisito de "sin antecedentes".
rolando2
3
P: "¿Cómo explicamos la diferencia entre la regresión logística y la red neuronal a una audiencia que no tiene antecedentes en estadísticas?" R: Primero debes darles un trasfondo en estadísticas.
Firebug
2
No veo ninguna razón para que esto no deba permanecer abierto. No necesitamos tomar "explicar ... sin antecedentes en estadísticas" tan literalmente. Es común pedir explicaciones que funcionen para 'un niño de 5 años' o 'su abuela'. Estas son solo formas coloquiales de pedir respuestas no técnicas (o al menos menos ). Para decirlo más explícitamente, las respuestas siempre buscan satisfacer múltiples restricciones simultáneamente, como precisión y brevedad; aquí agregamos minimizando lo técnico que es. No hay ninguna razón por la que no podamos tener una pregunta que busque una explicación menos técnica de la diferencia b / t LR y ANN.
gung - Restablecer Monica
2
@mbq Es curioso que en noviembre de 2012 fue posible describir las redes neuronales como obsoletas.
littleO
2
@littleO Esto sigue en pie; compare NNs'18 con NNs'12 y verá que el progreso se produjo al eliminar la similitud con las redes reales y las neuronas reales, en lugar de avanzar en conjuntos de operaciones algebraicas con optimización estocástica. Pero claro, aparentemente la marca NN demostró ser tan poderosa que vivirá mucho tiempo y prosperará, independientemente de lo que signifique.

Respuestas:

27

Supongo que está pensando en lo que solía ser, y tal vez todavía se los conoce como 'perceptrones multicapa' en su pregunta sobre redes neuronales. Si es así, explicaría todo en términos de flexibilidad sobre la forma del límite de decisión en función de las variables explicativas. En particular, para esta audiencia, no mencionaría funciones de enlace / probabilidades de registro, etc. Simplemente manténgase con la idea de que la probabilidad de un evento se predice sobre la base de algunas observaciones.

Aquí hay una posible secuencia:

  • Asegúrese de que sepan qué es una probabilidad predicha, conceptualmente hablando. Muéstrela como una función de una variable en el contexto de algunos datos familiares. Explicar el contexto de decisión que será compartido por la regresión logística y las redes neuronales.
  • Comience con la regresión logística. Indique que es el caso lineal, pero muestre la linealidad del límite de decisión resultante utilizando una gráfica de calor o contorno de las probabilidades de salida con dos variables explicativas.
  • Tenga en cuenta que dos clases pueden no estar bien separadas por el límite que ven y motivar un modelo más flexible para hacer un límite más curvilíneo. Si es necesario, muestre algunos datos que se distingan bien de esta manera. (Es por eso que comienzas con 2 variables)
  • Tenga en cuenta que podría comenzar a complicar el modelo lineal original con términos adicionales, por ejemplo, cuadrados u otras transformaciones, y tal vez mostrar los límites que generan.
  • Pero luego deséchelos, observando que no sabe de antemano cuál debería ser la forma de la función y preferiría aprenderla de los datos. Justo cuando se entusiasman con esto, tenga en cuenta la imposibilidad de esto en general y sugiera que está contento de suponer que al menos debería ser "suave" en lugar de "entrecortado", pero determinado por los datos. (Afirma que probablemente ya solo pensaban en límites suaves, de la misma manera que habían estado hablando en prosa toda su vida).
  • Muestre la salida de un modelo aditivo generalizado donde la probabilidad de salida es una función conjunta del par de variables originales en lugar de una combinación aditiva verdadera; esto es solo para fines de demostración. Es importante destacar que es más sencillo porque es agradable y general y describe las cosas de forma intuitiva. Demuestre el límite de decisión no lineal en la imagen como antes.
  • Tenga en cuenta que este suavizador (actualmente anónimo) tiene un parámetro de suavidad que controla qué tan suave es en realidad, refiérase a esto de pasada como una creencia previa sobre la suavidad de la función que convierte las variables explicativas en la probabilidad predicha. Quizás muestre las consecuencias de diferentes configuraciones de suavidad en el límite de decisión.
  • Ahora introduzca la red neuronal como un diagrama. Señale que la segunda capa es solo un modelo de regresión logística, pero también señale la transformación no lineal que ocurre en las unidades ocultas. Recuerde a la audiencia que esta es solo otra función de entrada a salida que no será lineal en su límite de decisión.
  • Tenga en cuenta que tiene muchos parámetros y que algunos de ellos deben limitarse para tomar un límite de decisión uniforme: reintroduzca la idea de un número que controla la suavidad como el mismo número (conceptualmente hablando) que mantiene los parámetros unidos y alejados valores extremos. También tenga en cuenta que cuantas más unidades ocultas tenga, más tipos diferentes de formas funcionales puede realizar. Para mantener la intuición, hable sobre unidades ocultas en términos de flexibilidad y restricción de parámetros en términos de suavidad (a pesar de la descuido matemático de esta caracterización)
  • Luego, sorpréndelos afirmando que aún no conoces la forma funcional, por lo que quieres ser infinitamente flexible agregando un número infinito de unidades ocultas. Deje que la imposibilidad práctica de esto se hunda un poco. Luego observe que este límite se puede tomar en las matemáticas, y pregunte (retóricamente) cómo se vería tal cosa.
  • Responda que sería más fácil nuevamente (un proceso gaussiano, como sucede; Neal, 1996, pero este detalle no es importante), como el que vieron antes. Observe que nuevamente hay una cantidad que controla la suavidad pero no otros parámetros particulares (integrados, para aquellos que se preocupan por este tipo de cosas).
  • Concluya que las redes neuronales son implementaciones particulares, implícitamente limitadas, de suavizadores comunes, que son las extensiones no lineales, no necesariamente aditivas del modelo de regresión logística. Luego hágalo de la otra manera, concluyendo que la regresión logística es equivalente a un modelo de red neuronal o más suave con el parámetro de suavizado establecido en 'extra extra suave', es decir, lineal.

Las ventajas de este enfoque es que no tiene que entrar realmente en ningún detalle matemático para dar la idea correcta. De hecho, no tienen que entender ya sea la regresión logística o las redes neuronales para comprender las similitudes y diferencias.

La desventaja del enfoque es que tienes que hacer muchas fotos y resistir fuertemente la tentación de caer en el álgebra para explicar las cosas.

conjugadoprior
fuente
14

Para un resumen más simple:

Regresión logística: la forma más simple de red neuronal, que da como resultado límites de decisión que son una línea recta

ingrese la descripción de la imagen aquí

Redes neuronales: un superconjunto que incluye regresión logística y también otros clasificadores que pueden generar límites de decisión más complejos.

ingrese la descripción de la imagen aquí

(nota: me refiero a la regresión logística "simple", sin la ayuda de núcleos integrales)

(referencia: cursos de deeplearning.ai de Andrew Ng, "Regresión logística como red neuronal" y "Clasificación de datos planar con una capa oculta")

Eusebio Rufian-Zilbermann
fuente
1
De todas las respuestas actuales, creo que esto es lo más realista posible para explicar los conceptos a una persona sin antecedentes estadísticos.
Firebug
1
Entonces, ¿un clasificador de regresión logística es una red neuronal? Eso tiene mucho sentido.
Björn Lindqvist
8

Voy a tomar la pregunta literalmente: alguien sin experiencia en estadísticas. Y no voy a tratar de darle a esa persona antecedentes en estadísticas. Por ejemplo, suponga que tiene que explicar la diferencia al CEO de una empresa o algo así.

Entonces: la regresión logística es una herramienta para modelar una variable categórica en términos de otras variables. Le brinda formas de descubrir cómo los cambios en cada una de las "otras" variables afectan las probabilidades de diferentes resultados en la primera variable. La salida es bastante fácil de interpretar.

Las redes neuronales son un conjunto de métodos para permitir que una computadora intente aprender de ejemplos de maneras que se asemejan vagamente a cómo los humanos aprenden sobre las cosas. Puede dar lugar a modelos que son buenos predictores, pero generalmente son mucho más opacos que los de la regresión logística.

Peter Flom - Restablece a Monica
fuente
55
+1 Este es un buen esfuerzo inicial para enfrentar el desafío original de proporcionar una explicación que pueda entender un laico, pero que sea razonablemente clara y precisa.
whuber
2
Tendrás que explicar qué son "categóricas", "variables", "probabilidades". Además, las redes neuronales artificiales se inspiran simplemente en redes neuronales reales. Nuestro cerebro no puede aprender por propagación hacia atrás hasta donde sabemos. Entonces, sí, es sobre todo un término genial para un concepto relativamente simplificado. Además, la regresión logística es una forma de red neuronal, por lo que también existe eso.
Firebug
7

Me enseñaron que se puede pensar en las redes neuronales (con funciones de activación logística) como un promedio ponderado de las funciones logit, con los propios pesos estimados. Al elegir una gran cantidad de logits, puede adaptarse a cualquier forma funcional. Hay cierta intuición gráfica en la publicación del blog Econometric Sense .

Dimitriy V. Masterov
fuente
6

Las otras respuestas son geniales. Simplemente agregaría algunas imágenes que muestran que puede pensar en la regresión logística y la regresión logística de varias clases (también conocida como maxent, regresión logística multinomial, regresión softmax, clasificador de entropía máxima) como una arquitectura especial de redes neuronales.

De Sebastian Raschka, Michigan State University, en KDnuggets :

ingrese la descripción de la imagen aquí


Algunas ilustraciones más para la regresión logística de varias clases:

ingrese la descripción de la imagen aquí

Una ilustración similar tomada de http://www.deeplearningbook.org/ capítulo 1:

ingrese la descripción de la imagen aquí

Y uno más de los tutoriales de TensorFlow :

ingrese la descripción de la imagen aquí

Por ejemplo, en Caffe , implementaría la regresión logística de la siguiente manera :

ingrese la descripción de la imagen aquí

Franck Dernoncourt
fuente
2
Entonces, ¿la retropropagación en una red neuronal de este tipo calcula los mismos pesos que la regresión logística?
Mitch
1
@ Mitch: puedo llegar demasiado tarde al juego para contribuir. Una diferencia clave es que para una regresión logística se usa el mle para obtener los coeficientes. En esencia, esa es la elección de un error específico o una función de pérdida. Para una red neuronal, la función de pérdida es una de las opciones. Entonces, con la pérdida correcta fn (creo que fuera de mi cabeza es la norma estándar L ^ 2) este es el caso.
aginensky
Por lo tanto, la regresión logística se puede formular exactamente como ADALINE (red neuronal de una sola capa que utiliza el descenso por gradiente discontinuo / estocástico), siendo las únicas diferencias clave la función de activación que se cambia a sigmoide en lugar de lineal, y la función de predicción cambia a> = 0.5 con 0,1 etiquetas en lugar de> = 0 con -1,1 etiquetas. Otra diferencia muy preferida, pero opcional, es cambiar la función de costo de RSS a función de costo logístico porque la activación sigmoidea hace que RSS no sea convexo para que RSS pueda atascarse en minimas locales.
Austin
5

Usaría un ejemplo de un problema complicado pero concreto que la audiencia comprende. Utilice nodos ocultos cuyas interpretaciones no estén entrenadas, pero tengan significados particulares.

64×12

La regresión lineal determina cuán bueno es tener un caballero blanco en h4. Puede que no sea obvio que es bueno en absoluto, pero si está en h4 no se ha capturado, lo que probablemente supera otras consideraciones. La regresión lineal probablemente recupera los valores aproximados de las piezas, y que es mejor tener sus piezas hacia el centro del tablero y en el lado del tablero de su oponente. La regresión lineal no puede valorar combinaciones, como que tu reina en b2 de repente sea más valiosa si el rey contrario está en a1.

Una red neuronal podría tener nodos ocultos para conceptos, tales como "ventaja material", "seguridad del rey negro", "control del centro", "ambas torres en el archivo d", "peón de torres reina aislado" u "obispo movilidad." Algunos de estos pueden estimarse solo a partir de las entradas de la placa, mientras que otros pueden tener que estar en una segunda capa oculta o posterior. La red neuronal puede usarlos como entradas para la evaluación final de la posición. Estos conceptos ayudan a un experto a evaluar una posición, por lo que una red neuronal debería ser capaz de realizar evaluaciones más precisas que una regresión lineal. Sin embargo, se necesita más trabajo para crear la red neuronal, ya que debe elegir su estructura y tiene muchos más parámetros para entrenar.

Douglas Zare
fuente