Tengo un conjunto de datos empíricamente recopilado que relaciona dos variables. En un rango pequeño, la relación parece lineal, sin embargo, en un rango mayor, claramente existe una relación polinómica de segundo orden como se puede ver en la imagen en http://imgur.com/W7f9p .
Estoy tratando de obtener una medida de linealidad para diferentes rangos considerados. Por ejemplo, a 20 <x <60 o 100 <x <120 es muy lineal, pero a 20 <x <180 no es muy lineal. Intenté ajustar una línea recta a los datos y calcular los datos R ^ 2 (bondad de ajuste), pero esto muestra que la línea recta sobre el rango más grande tiene un mejor ajuste que sobre el rango más pequeño. Si bien esto puede ser cierto con MS Excel, de la imagen está claro que el rango más grande es menos lineal ... si mantiene el lado de un papel contra los puntos.
¿Existe una mejor manera de medir la "linealidad" de un conjunto de datos?
fuente
Respuestas:
Ajuste una función cuadrática en lugar de lineal. El valor absoluto de la estimación del coeficiente más alto de la cuadrática sirve como una medida razonable de linealidad, que es cero si los datos se encuentran exactamente en una línea. Además, si los datos provienen de un modelo lineal con ruido gaussiano, el teorema de Gauss-Markov garantiza que las estimaciones del coeficiente son insesgadas, por lo tanto, bajo la repetición del ajuste con múltiples datos de la misma distribución del modelo, el valor esperado del coeficiente será cero.
Por supuesto, en un solo ajuste, uno generalmente no obtiene cero, por lo que uno tendría que usar alguna prueba para determinar la importancia de los coeficientes.
fuente
Una forma de hacerlo sería ejecutar una regresión jerárquica con la variable del eje Y como resultado / criterio. En el paso / bloque 1 ingresaría su variable X como predictor, y en el paso / bloque 2, ingresaría un término de producto (X al cuadrado o multiplicado contra sí mismo). El término X cuadrado representa su componente cuadrático. Los pesos de regresión estandarizados (betas) para X y X al cuadrado le darían una idea de la "fuerza" de los componentes lineales y cuadráticos entre sí, y el cambio en R-cuadrado de paso / bloque 1 a paso / bloque 2 es una indicación de cuánto mejor se ajusta el modelo a los datos cuando ha agregado el componente cuadrático.
Ver cap. 8 en Keith, TZ (2005). Regresión múltiple y más allá. Allyn y tocino. 978-0205326440
fuente
La mejor medida de linealidad entre dos variables x e y es el coeficiente de correlación de momento del producto de Pearson. Cuanto más cerca esté de 1 en valor absoluto, más cerca estará el ajuste de una línea recta perfecta. Ahora, si cree que hay una buena linealidad en una subregión, calcule la correlación solo para esos pares en la subregión. Si hay un cambio de forma fuera de esa región, debería aparecer en una caída en la correlación cuando se incluyen todos los datos.
fuente
Las herramientas estadísticas estándar son el coeficiente de correlación (ver la respuesta de Michael Chernick) que es un valor entre [-1,1] y es independiente de la unidad. Relacionado con el coeficiente de correlación está la covarianza. La covarianza se ve afectada por las unidades, pero puede ser más fácil de interpretar. Sin embargo, no me gusta ninguna de esas opciones en el caso general. No me gustan porque no son independientes de la transformación conforme. Considere que una línea recta horizontal o vertical se considera no lineal por ambas medidas.
Una mejor opción sin unidades es utilizar una descomposición de valor singular (SVD). El SVD divide los datos en partes componentes clasificadas por la magnitud de su contribución al conjunto. La razón del número singular más grande al segundo número singular más grande es, por lo tanto, una métrica de linealidad. Tenga en cuenta que para usar este método primero debe centralizar los datos (hacer que las coordenadas X, Y, Z, etc., sean iguales a cero).
Ejemplo: Pts: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;
Pts centralizados: 9.792639127 0.656480018; -0.340591673 -1.68817349; -4.519928343 -1.801499913; -4.932119113 2.833193384;
SVD, matriz D: 11.86500017 0; 0 3.813448344
Relación de valores singulares 3.111357
La relación anterior se puede interpretar aproximadamente como que los datos son tres veces más largos en la dirección de la línea de mejor ajuste, ya que son lineales cruzados.
Para una solución con unidades que tiene unidades y no requiere una SVD. Haga un ajuste de línea que tenga el centro de la línea como uno de los parámetros. Usar los datos centralizados anteriores es simple: línea pt = 0 0 (siempre el caso para datos centralizados) dirección de línea = -0.999956849 -0.009289783
Los vectores desde el centro de la línea a cada punto son las coordenadas centralizadas de los puntos. Encuentre las longitudes de la proyección de estos vectores en la línea (valor absoluto del punto del vector en la dirección de la línea), y la longitud del componente perpendicular del vector (longitud de la dirección de la línea transversal del vector). Longitud paralela, longitud perpendicular 9.798315123, 0.565480194; 0.356259742, 1.684936621; 4.536468847, 1.759433021; 4.905586534, 2.878889448;
El máximo de proyecciones paralelas es el tramo de datos a lo largo de la línea. La longitud máxima de la proyección perpendicular es una medida de la no linealidad. La relación de los dos es una aproximación de la relación de valores singulares anterior.
Notas 1. La invariancia afina en la linealidad no es posible. Considere que, en una transformación afín, podríamos escalar todos los ejes de coordenadas menos uno a cerca de cero (haciendo que cualquier conjunto de puntos sea lineal). Entonces, la invariancia conforme es lo mejor que podemos hacer. 2. Estos métodos NO SON ROBUSTOS para datos atípicos. 3. Los ejemplos son 2D pero generalizados a N-dimensional.
fuente