¿Alguien puede explicarme las diferencias reales entre el análisis de regresión y el ajuste de curvas (lineal y no lineal), con un ejemplo si es posible?
Parece que ambos intentan encontrar una relación entre dos variables (dependiente frente a independiente) y luego determinan el parámetro (o coeficiente) asociado con los modelos propuestos. Por ejemplo, si tengo un conjunto de datos como:
Y = [1.000 1.000 1.000 0.961 0.884 0.000]
X = [1.000 0.063 0.031 0.012 0.005 0.000]
¿Alguien puede sugerir una fórmula de correlación entre estas dos variables? Tengo dificultades para comprender la diferencia entre estos dos enfoques. Si prefiere apoyar su respuesta con otros conjuntos de datos, está bien, ya que parece difícil de adaptar (tal vez solo para mí).
El conjunto de datos anterior representa la y ejes de una característica de funcionamiento del receptor (ROC) curva, donde y es la verdadera tasa positiva (TPR) y x es la tasa de falsos positivos (FPR).
Estoy tratando de ajustar una curva, o hacer un análisis de regresión según mi pregunta original, aún no estoy seguro, entre estos puntos para estimar el TPR para cualquier FPR en particular (o viceversa).
Primero, ¿es científicamente aceptable encontrar una función de ajuste de curva entre dos variables independientes (TPR y FPR)?
Segundo, ¿es científicamente aceptable encontrar dicha función si sé que las distribuciones de los casos negativos reales y positivos reales no son normales?
fuente
Respuestas:
Dudo que haya una distinción clara y consistente entre las ciencias y los campos con mentalidad estadística entre la regresión y el ajuste de curvas .
La regresión sin calificación implica regresión lineal y estimación de mínimos cuadrados. Eso no excluye otros sentidos más amplios: de hecho, una vez que permite logit, Poisson, regresión binomial negativa, etc., etc., es más difícil ver qué modelado no es regresión en algún sentido.
El ajuste de curvas sugiere literalmente una curva que se puede dibujar en un plano o al menos en un espacio de baja dimensión. La regresión no es tan limitada y puede predecir superficies en un espacio de varias dimensiones.
El ajuste de curvas puede o no usar regresión lineal y / o mínimos cuadrados. Puede referirse a ajustar un polinomio (serie de potencia) o un conjunto de términos seno y coseno o, de alguna otra manera, calificar como regresión lineal en el sentido clave de ajustar una forma funcional lineal en los parámetros. De hecho, el ajuste de curvas cuando la regresión no lineal también es regresión.
El término ajuste de curva podría usarse en un sentido despectivo, despectivo, despectivo o despectivo ("¡eso es solo ajuste de curva!") O (casi todo lo contrario) podría referirse a ajustar una curva específica cuidadosamente elegida con un físico específico (biológico, justificación económica, lo que sea) o adaptada para que coincida con tipos particulares de comportamiento inicial o limitante (por ejemplo, ser siempre positivo, limitado en una o ambas direcciones, monótono, con una inflexión, con un único punto de inflexión, oscilatorio, etc.).
Una de las varias cuestiones confusas aquí es que la misma forma funcional puede ser, en el mejor de los casos, empírica en algunas circunstancias y excelente teoría en otras. Newton enseñó que las trayectorias de los proyectiles pueden ser parabólicas y, por lo tanto, ajustadas naturalmente por las cuadráticas, mientras que una cuadrática ajustada a la dependencia de la edad en las ciencias sociales a menudo es solo un dulce que coincide con alguna curvatura en los datos. La descomposición exponencial es una muy buena aproximación para los isótopos radiactivos y, a veces, no es una locura para la forma en que los valores de la tierra disminuyen con la distancia desde un centro.
Su ejemplo no recibe conjeturas explícitas de mi parte. Gran parte del punto aquí es que con un conjunto muy pequeño de datos y precisamente sin información sobre cuáles son las variables o cómo se espera que se comporten, podría ser irresponsable o tonto sugerir una forma de modelo. Quizás los datos deberían aumentar bruscamente desde (0, 0) y luego acercarse (1, 1), o quizás algo más. ¡Tú dinos!
Nota. Ni la regresión ni el ajuste de la curva se limitan a predictores únicos o parámetros únicos (coeficientes).
fuente
Además de la excelente respuesta de @ NickCox (+1), quería compartir mi impresión subjetiva sobre este tema de terminología algo confuso . Creo que una diferencia bastante sutil entre los dos términos radica en lo siguiente. Por un lado, la regresión a menudo, si no siempre, implica una solución analítica (la referencia a los regresores implica determinar sus parámetros , de ahí mi argumento sobre la solución analítica). Por otro lado, el ajuste de la curva no implica necesariamente producir una solución analítica y, en mi humilde opinión, a menudo puede usarse y se utiliza como un enfoque exploratorio .
fuente