Echa un vistazo a este gráfico de Excel:
La línea de "sentido común" de mejor ajuste aparecería como una línea casi vertical recta a través del centro de los puntos (editada a mano en rojo). Sin embargo, la línea de tendencia lineal según lo decidido por Excel es la línea diagonal negra que se muestra.
- ¿Por qué Excel ha producido algo que (para el ojo humano) parece estar mal?
- ¿Cómo puedo producir una línea de mejor ajuste que se vea un poco más intuitiva (es decir, algo así como la línea roja)?
Actualización 1. Aquí está disponible una hoja de cálculo Excel con datos y gráficos: datos de ejemplo , CSV en Pastebin . ¿Las técnicas de regresión tipo 1 y tipo 2 están disponibles como funciones de Excel?
Actualización 2. Los datos representan un parapente que sube en una térmica mientras se desplaza con el viento. El objetivo final es investigar cómo la fuerza y dirección del viento varía con la altura. Soy ingeniero, NO matemático o estadístico, por lo que la información en estas respuestas me ha dado muchas más áreas de investigación.
fuente
Respuestas:
¿Hay una variable dependiente?
Así es como puedes hacerlo en R:
Si desea tratar las variables por igual o no depende del objetivo. No es la calidad inherente de los datos. Debe elegir la herramienta estadística adecuada para analizar los datos, en este caso, elija entre la regresión y PCA.
Una respuesta a una pregunta que no se hizo
Entonces, ¿por qué en su caso una línea de tendencia (de regresión) en Excel no parece ser una herramienta adecuada para su caso? La razón es que la línea de tendencia es una respuesta a una pregunta que no se hizo. Este es el por qué.
Imagina que no hubiera viento. Un parapente estaría haciendo el mismo círculo una y otra vez. ¿Cuál sería la línea de tendencia? Obviamente, sería una línea horizontal plana, su pendiente sería cero, ¡pero no significa que el viento esté soplando en dirección horizontal!
Código R para la simulación:
Entonces, la dirección del viento claramente no está alineada con la línea de tendencia. Están vinculados, por supuesto, pero de una manera no trivial. Por lo tanto, mi afirmación de que la línea de tendencia de Excel es una respuesta a alguna pregunta, pero no la que usted hizo.
¿Por qué PCA?
Como notó, hay al menos dos componentes del movimiento de un parapente: la deriva con un viento y un movimiento circular controlado por un parapente. Esto se ve claramente cuando conecta los puntos en su trama:
Por un lado, el movimiento circular es realmente una molestia para ti: estás interesado en el viento. Aunque, por otro lado, no observas la velocidad del viento, solo observas el parapente. Por lo tanto, su objetivo es inferir el viento no observable a partir de la lectura de ubicación del parapente observable. Esta es exactamente la situación en la que herramientas como el análisis factorial y PCA pueden ser útiles.
El objetivo de PCA es aislar algunos factores que determinan las salidas múltiples mediante el análisis de las correlaciones en las salidas. Es efectivo cuando la salida está vinculada a factores linealmente, como sucede en los datos: la deriva del viento simplemente se suma a las coordenadas del movimiento circular, por eso PCA está trabajando aquí.
Configuración de PCA
Entonces, establecimos que PCA debería tener una oportunidad aquí, pero ¿cómo lo configuraremos realmente? Comencemos agregando una tercera variable, el tiempo. Vamos a asignar tiempo de 1 a 123 a cada 123 observación, suponiendo la frecuencia de muestreo constante. Así es como se ve el diagrama 3D de los datos, revelando su estructura espiral:
La siguiente gráfica muestra el centro imaginario de rotación de un parapente como círculos marrones. Puedes ver cómo se desplaza en el plano lat-lon con el viento, mientras que el parapente que se muestra con un punto azul está dando vueltas alrededor de él. El tiempo está en eje vertical. Conecté el centro de rotación a la ubicación correspondiente de un parapente que muestra solo los dos primeros círculos.
El código R correspondiente:
La deriva del centro de rotación del parapente es causada principalmente por el viento, y la trayectoria y la velocidad de la deriva se correlacionan con la dirección y la velocidad del viento, variables de interés no observables. Así es como se ve la deriva cuando se proyecta al plano lat-lon:
Regresión PCA
Entonces, anteriormente establecimos que la regresión lineal regular no parece funcionar muy bien aquí. También descubrimos por qué: porque no refleja el proceso subyacente, porque el movimiento del parapente es altamente no lineal. Es una combinación de movimiento circular y una deriva lineal. También discutimos que en esta situación el análisis factorial podría ser útil. Aquí hay un resumen de un posible enfoque para modelar estos datos: la regresión de PCA . Pero puño, te mostraré la curva ajustada de regresión de PCA :
Esto se ha obtenido de la siguiente manera. Ejecute PCA en el conjunto de datos que tiene una columna adicional t = 1: 123, como se discutió anteriormente. Obtienes tres componentes principales. El primero es simplemente t. El segundo corresponde a la columna lon, y el tercero a la columna lat.
Eso es. Para obtener los valores ajustados, recupere los datos de los componentes ajustados conectando la transposición de la matriz de rotación de PCA a los componentes principales pronosticados. Mi código R anterior muestra partes del procedimiento, y el resto puede resolverlo fácilmente.
Conclusión
Es interesante ver cuán poderoso es PCA y otras herramientas simples cuando se trata de fenómenos físicos donde los procesos subyacentes son estables y las entradas se traducen en salidas a través de relaciones lineales (o linealizadas). Entonces, en nuestro caso, el movimiento circular es muy no lineal, pero lo linealizamos fácilmente mediante el uso de funciones seno / coseno en un parámetro de tiempo t. Mis tramas se produjeron con solo unas pocas líneas de código R como viste.
El modelo de regresión debe reflejar el proceso subyacente, entonces solo usted puede esperar que sus parámetros sean significativos. Si se trata de un parapente a la deriva en el viento, entonces un diagrama de dispersión simple como en la pregunta original ocultará la estructura temporal del proceso.
También la regresión de Excel fue un análisis transversal, para el cual la regresión lineal funciona mejor, mientras que sus datos son un proceso de series de tiempo, donde las observaciones se ordenan a tiempo. El análisis de series de tiempo debe aplicarse aquí, y se realizó en regresión PCA.
Notas sobre una función
fuente
La respuesta probablemente tenga que ver con cómo juzga mentalmente la distancia a la línea de regresión. La regresión estándar (Tipo 1) minimiza el error al cuadrado, donde el error se calcula en función de la distancia vertical a la línea .
La regresión de tipo 2 puede ser más análoga a su juicio de la mejor línea. En él, el error al cuadrado minimizado es la distancia perpendicular a la línea . Hay una serie de consecuencias a esta diferencia. Una importante es que si intercambia los ejes X e Y en su gráfico y vuelve a ajustar la línea, obtendrá una relación diferente entre las variables para la regresión de Tipo 1. Para la regresión de tipo 2, la relación sigue siendo la misma.
Mi impresión es que hay una gran cantidad de debate sobre dónde usar la regresión Tipo 1 vs Tipo 2, por lo que sugiero leer detenidamente las diferencias antes de decidir cuál aplicar. La regresión tipo 1 se recomienda con frecuencia en los casos en que un eje se controla experimentalmente o al menos se mide con mucho menos error que el otro. Si no se cumplen estas condiciones, la regresión de Tipo 1 sesgará las pendientes hacia 0 y, por lo tanto, se recomienda la regresión de Tipo 2. Sin embargo, con suficiente ruido en ambos ejes, la regresión tipo 2 aparentemente tiende a sesgarlos hacia 1. Warton et al. (2006) y Smith (2009) son buenas fuentes para comprender el debate.
También tenga en cuenta que hay varios métodos sutilmente diferentes que caen dentro de la categoría amplia de regresión de Tipo 2 (eje mayor, eje mayor reducido y regresión de eje mayor estándar), y que la terminología sobre los métodos específicos es inconsistente.
Warton, DI, IJ Wright, DS Falster y M. Westoby. 2006. Métodos bivariados de ajuste de línea para alometría. Biol. Apocalipsis 81: 259–291. doi: 10.1017 / S1464793106007007
Smith, RJ 2009. Sobre el uso y mal uso del eje mayor reducido para el ajuste de línea. A.m. J. Phys. Anthropol 140: 476–486. doi: 10.1002 / ajpa.21090
EDITAR :
@amoeba señala que lo que llamo regresión Tipo 2 anterior también se conoce como regresión ortogonal; Este puede ser el término más apropiado. Como dije anteriormente, la terminología en esta área es inconsistente, lo que garantiza un cuidado adicional.
fuente
La pregunta que Excel intenta responder es: "Suponiendo que y depende de x, qué línea predice y mejor". La respuesta es que debido a las grandes variaciones en y, ninguna línea podría ser particularmente buena, y lo que Excel muestra es lo mejor que puede hacer.
Si toma su línea roja propuesta y la continúa hasta x = -0.714 yx = -0.712, encontrará que sus valores están muy, muy lejos del gráfico, y está a una gran distancia de los valores de y correspondientes .
La pregunta que Excel responde no es "qué línea está más cerca de los puntos de datos", sino "qué línea es mejor para predecir los valores y de los valores x", y lo hace correctamente.
fuente
No quiero agregar nada a las otras respuestas, pero sí quiero decir que se ha desviado por una mala terminología, en particular el término "línea de mejor ajuste" que se utiliza en algunos cursos de estadística.
Intuitivamente, una "línea de mejor ajuste" se vería como su línea roja. Pero la línea producida por Excel no es una "línea de mejor ajuste"; Ni siquiera está tratando de ser. Es una línea que responde a la pregunta: dado el valor de x, ¿cuál es mi mejor predicción posible para y? o alternativamente, ¿cuál es el valor promedio de y para cada valor de x?
Observe la asimetría aquí entre x e y; el uso del nombre "línea de mejor ajuste" lo oculta. También lo hace el uso de Excel de "línea de tendencia".
Se explica muy bien en el siguiente enlace:
https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm
Es posible que desee algo más parecido a lo que se llama "Tipo 2" en la respuesta anterior, o "Línea SD" en la página del curso de estadísticas de Berkeley.
fuente
Parte del problema óptico proviene de las diferentes escalas: si usa la misma escala en ambos ejes, ya se verá diferente.
En otras palabras, puede hacer que la mayoría de las líneas de "mejor ajuste" parezcan "poco intuitivas" extendiendo la escala de un eje.
fuente
Algunas personas han notado que el problema es visual: la escala gráfica empleada produce información engañosa. Más específicamente, la escala de "lon" es tal que parece ser una espiral apretada que sugiere que la línea de regresión proporciona un ajuste deficiente (una evaluación con la que estoy de acuerdo, la línea roja que dibuje proporcionaría errores al cuadrado más bajos si los datos fueron formados de la manera presentada).
A continuación proporciono un diagrama de dispersión creado en Excel con una escala para "lon" alterada para que no produzca la espiral apretada en su diagrama de dispersión. Con este cambio, la línea de regresión ahora proporciona un mejor ajuste visual y creo que ayuda a demostrar cómo la escala en el diagrama de dispersión original proporcionó una evaluación engañosa del ajuste.
Creo que la regresión funciona bien aquí. No creo que se necesite un análisis más complejo.
Para cualquier interesado, he trazado los datos usando una herramienta de mapeo y muestro la regresión ajustada a los datos. Los puntos rojos son los datos registrados y el verde es la línea de regresión.
Y aquí están los mismos datos en un diagrama de dispersión con línea de regresión; aquí lat se trata como dependiente y los puntajes lat se invierten para ajustarse al perfil geográfico.
fuente
Su regresión confusa de mínimos cuadrados ordinarios (MCO) (que minimiza la suma de la desviación al cuadrado sobre los valores pronosticados, (observada-predicha) ^ 2) y la regresión del eje mayor (que minimiza las sumas de cuadrados de la distancia perpendicular entre cada punto y la línea de regresión, a veces esto se conoce como regresión de Tipo II, regresión ortogonal o regresión estandarizada de componentes principales).
Si desea comparar los dos enfoques solo en R, simplemente eche un vistazo
Lo que encuentra más intuitivo (su línea roja) es solo la regresión del eje mayor, que visualmente hablando es la que parece más lógica, ya que minimiza la distancia perpendicular a sus puntos. La regresión OLS solo aparecerá para minimizar la distancia perpendicular a sus puntos si las variables xey están en la misma escala de medición y / o tienen la misma cantidad de error (puede ver esto simplemente basado en el teorema de Pitágoras). En su caso, su variable y tiene mucha más difusión, de ahí la diferencia ...
fuente
La respuesta de PCA es la mejor porque creo que eso es lo que debería estar haciendo dada la descripción de su problema, sin embargo, la respuesta de PCA podría confundir PCA y la regresión, que son cosas totalmente diferentes. Si desea extrapolar este conjunto de datos en particular, entonces necesita hacer una regresión, y es probable que desee hacer la regresión de Deming (que supongo que a veces pasa por Tipo II, nunca escuché esta descripción). Sin embargo, si desea averiguar qué direcciones son más importantes (vectores propios) y tener una métrica de su impacto relativo en el conjunto de datos (valores propios), entonces PCA es el enfoque correcto.
fuente