Definición de regresión

8

De Wikipedia:

En el modelado estadístico, el análisis de regresión es un proceso estadístico para estimar las relaciones entre variables. Incluye muchas técnicas para modelar y analizar varias variables, cuando el foco está en la relación entre una variable dependiente y una o más variables independientes (o 'predictores').

¿No es lo mismo para la clasificación ? Al final, ¿no es el propósito del aprendizaje automático ?

usuario_anon
fuente
Pregunta relacionada: Definición y delimitación del modelo de regresión
Richard Hardy

Respuestas:

14

La regresión es mucho más amplia en propósito y alcance que la clasificación o el aprendizaje automático (sin embargo, este último podría entenderse). Hay, sin embargo, mucha superposición.

Relaciones

Las relaciones analizadas por regresión pueden consistir en

  • Asociación

  • Dependencia

  • Causalidad

La clasificación proporciona información sobre los dos primeros, pero no dice nada sobre la causalidad. Tanto la regresión como el aprendizaje automático se han utilizado, a veces con éxito, a menudo con problemas, para sacar conclusiones sobre la causalidad.

Fines de regresión

  1. Para obtener un resumen de datos multivariados.

  2. Para dejar de lado el efecto de una variable que podría confundir el problema.

  3. Contribuir a los intentos de análisis causal.

  4. Mide el tamaño de un efecto.

  5. Intenta descubrir una ley matemática o empírica.

  6. Predicción.

  7. Exclusión: conseguir x "fuera del camino" cuando queremos estudiar la relación entre otras dos variables que podrían verse afectadas por x.

(Después de Mosteller & Tukey, Análisis de datos y regresión, Capítulo 12B.)

La clasificación no logra casi ninguno de estos propósitos. De manera limitada, podría proporcionar algún tipo de resumen (1) y ayudar con el descubrimiento (5).

El aprendizaje automático apunta a la predicción (6) casi exclusivamente. La mayoría de las técnicas de aprendizaje automático, que van desde bosques aleatorios a través de redes neuronales para soportar modelos vectoriales, son opacas para la comprensión: específicamente no tienen como objetivo resumir datos (1), eliminar los efectos de las variables de confusión (2 y 7), o ayudar descubrimos regularidades que pueden incorporarse en una ley empírica (5).


Esta publicación es una ligera expansión de una presentación introductoria que hice recientemente para un curso semestral de regresión. Muchos más materiales sobre los objetivos y la práctica de la regresión están disponibles allí.

whuber
fuente