Diferencia entre análisis de regresión y ajuste de curvas

17

¿Alguien puede explicarme las diferencias reales entre el análisis de regresión y el ajuste de curvas (lineal y no lineal), con un ejemplo si es posible?

Parece que ambos intentan encontrar una relación entre dos variables (dependiente frente a independiente) y luego determinan el parámetro (o coeficiente) asociado con los modelos propuestos. Por ejemplo, si tengo un conjunto de datos como:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

¿Alguien puede sugerir una fórmula de correlación entre estas dos variables? Tengo dificultades para comprender la diferencia entre estos dos enfoques. Si prefiere apoyar su respuesta con otros conjuntos de datos, está bien, ya que parece difícil de adaptar (tal vez solo para mí).

El conjunto de datos anterior representa la y ejes de una característica de funcionamiento del receptor (ROC) curva, donde y es la verdadera tasa positiva (TPR) y x es la tasa de falsos positivos (FPR).xyyx

Estoy tratando de ajustar una curva, o hacer un análisis de regresión según mi pregunta original, aún no estoy seguro, entre estos puntos para estimar el TPR para cualquier FPR en particular (o viceversa).

Primero, ¿es científicamente aceptable encontrar una función de ajuste de curva entre dos variables independientes (TPR y FPR)?

Segundo, ¿es científicamente aceptable encontrar dicha función si sé que las distribuciones de los casos negativos reales y positivos reales no son normales?

Ali Sultan
fuente
1
Los términos (desafortunadamente) son utilizados de manera diferente por diferentes personas y en diferentes contextos. ¿Puedes vincular / proporcionar un ejemplo donde las personas distingan entre ellos?
gung - Restablece a Monica
Eso es lo que estoy tratando de entender, cómo son diferentes y cómo puedo distinguir entre ellos.
Ali Sultan
1
Es justo, pero ¿alguien te dijo que se suponía que eran diferentes?
gung - Restablece a Monica
2
En este sitio, algunas personas han utilizado el "ajuste de curvas" en sentidos que no pueden considerarse regresión. Por ejemplo, algunos de ellos ven estimar una densidad como una forma de "ajuste de curva" a un histograma.
Whuber

Respuestas:

22

Dudo que haya una distinción clara y consistente entre las ciencias y los campos con mentalidad estadística entre la regresión y el ajuste de curvas .

La regresión sin calificación implica regresión lineal y estimación de mínimos cuadrados. Eso no excluye otros sentidos más amplios: de hecho, una vez que permite logit, Poisson, regresión binomial negativa, etc., etc., es más difícil ver qué modelado no es regresión en algún sentido.

El ajuste de curvas sugiere literalmente una curva que se puede dibujar en un plano o al menos en un espacio de baja dimensión. La regresión no es tan limitada y puede predecir superficies en un espacio de varias dimensiones.

El ajuste de curvas puede o no usar regresión lineal y / o mínimos cuadrados. Puede referirse a ajustar un polinomio (serie de potencia) o un conjunto de términos seno y coseno o, de alguna otra manera, calificar como regresión lineal en el sentido clave de ajustar una forma funcional lineal en los parámetros. De hecho, el ajuste de curvas cuando la regresión no lineal también es regresión.

El término ajuste de curva podría usarse en un sentido despectivo, despectivo, despectivo o despectivo ("¡eso es solo ajuste de curva!") O (casi todo lo contrario) podría referirse a ajustar una curva específica cuidadosamente elegida con un físico específico (biológico, justificación económica, lo que sea) o adaptada para que coincida con tipos particulares de comportamiento inicial o limitante (por ejemplo, ser siempre positivo, limitado en una o ambas direcciones, monótono, con una inflexión, con un único punto de inflexión, oscilatorio, etc.).

Una de las varias cuestiones confusas aquí es que la misma forma funcional puede ser, en el mejor de los casos, empírica en algunas circunstancias y excelente teoría en otras. Newton enseñó que las trayectorias de los proyectiles pueden ser parabólicas y, por lo tanto, ajustadas naturalmente por las cuadráticas, mientras que una cuadrática ajustada a la dependencia de la edad en las ciencias sociales a menudo es solo un dulce que coincide con alguna curvatura en los datos. La descomposición exponencial es una muy buena aproximación para los isótopos radiactivos y, a veces, no es una locura para la forma en que los valores de la tierra disminuyen con la distancia desde un centro.

Su ejemplo no recibe conjeturas explícitas de mi parte. Gran parte del punto aquí es que con un conjunto muy pequeño de datos y precisamente sin información sobre cuáles son las variables o cómo se espera que se comporten, podría ser irresponsable o tonto sugerir una forma de modelo. Quizás los datos deberían aumentar bruscamente desde (0, 0) y luego acercarse (1, 1), o quizás algo más. ¡Tú dinos!

Nota. Ni la regresión ni el ajuste de la curva se limitan a predictores únicos o parámetros únicos (coeficientes).

Nick Cox
fuente
2
"Ajuste de curva" connota algo a-teórico (por ejemplo, lowess) para mí. Los economistas a veces ridiculizan el ajuste de funciones teóricas como "gráficos", que suena similar a algunos usos del ajuste de curvas. Creo que (por ejemplo, lowess) tiene ventajas y desventajas, cuando se entiende correctamente. Sin embargo, es difícil saber cómo alguien quiso decir los términos claramente sin más contexto.
gung - Restablece a Monica
1
@gung Creo que hay un uso similar parcialmente jocoso y serio en varias ciencias naturales (y no naturales). Uno de los problemas es que dados suficientes parámetros, necesariamente tiene mucho margen de maniobra. Recuerdo los modelos de series de tiempo que permiten no solo ARIMA sino también términos y pasos sinusoidales, rampas y picos donde lo sugieren los datos.
Nick Cox
Segundo @gung, el ajuste de la curva tiene una connotación más no paramétrica, al menos para mí.
Christoph Hanck
1
@ ChristophHanck ¡Por favor no traiga "no paramétrico" a esto! ¡La discusión ya es bastante turbia!
Nick Cox
1
@gung: Pensando en suavizar splines y métodos RKHS en general como la columna vertebral de "ajuste de curva", por ejemplo, siento que "ajuste de curva" es mucho más teórico que "regresión". (+1 a NickCox por esta respuesta)
usεr11852 dice Reinstate Monic
8

Además de la excelente respuesta de @ NickCox (+1), quería compartir mi impresión subjetiva sobre este tema de terminología algo confuso . Creo que una diferencia bastante sutil entre los dos términos radica en lo siguiente. Por un lado, la regresión a menudo, si no siempre, implica una solución analítica (la referencia a los regresores implica determinar sus parámetros , de ahí mi argumento sobre la solución analítica). Por otro lado, el ajuste de la curva no implica necesariamente producir una solución analítica y, en mi humilde opinión, a menudo puede usarse y se utiliza como un enfoque exploratorio .

Aleksandr Blekh
fuente
2
¿No se puede usar algo con una solución analítica por razones exploratorias también? No creo que tenga la oposición que estás haciendo.
ameba dice Reinstate Monica
@amoeba: las soluciones analíticas ciertamente también se pueden utilizar para la investigación exploratoria. Sin embargo, el punto que estoy haciendo es sobre la esencia implícita más popular de los términos en cuestión.
Aleksandr Blekh