Tengo datos para los que calculé la correlación de Spearman y quiero visualizarlos para una publicación. La variable dependiente se clasifica, la variable independiente no. Lo que quiero visualizar es más la tendencia general que la pendiente real, por lo que clasifiqué la independiente y apliqué la correlación / regresión de Spearman. Pero justo cuando tracé mis datos y estaba a punto de insertarlos en mi manuscrito, me topé con esta declaración (en este sitio web ):
Casi nunca usará una línea de regresión para la descripción o la predicción cuando realice la correlación de rango de Spearman, así que no calcule el equivalente de una línea de regresión .
y después
Puede graficar los datos de correlación de rango de Spearman de la misma manera que lo haría para una regresión lineal o correlación. Sin embargo, no ponga una línea de regresión en el gráfico ; sería engañoso poner una línea de regresión lineal en un gráfico cuando la haya analizado con correlación de rango.
La cuestión es que las líneas de regresión no son tan diferentes de cuando no clasifico el independiente y calculo la correlación de Pearson. La tendencia es la misma, pero debido a las tarifas exorbitantes para los gráficos en color en las revistas, utilicé una representación monocromática y los puntos de datos reales se superponen tanto que no es reconocible.
Podría solucionar esto, por supuesto, haciendo dos trazados diferentes: uno para los puntos de datos (clasificados) y otro para la línea de regresión (sin clasificar), pero si resulta que la fuente que cité es incorrecta o el problema No es tan problemático en mi caso, me facilitaría la vida. (También vi esta pregunta , pero no me ayudó).
Editar para obtener información adicional:
La variable independiente en el eje x representa el número de características y la variable dependiente en el eje y representa el rango si los algoritmos de clasificación se comparan en su rendimiento. Ahora tengo algunos algoritmos que son comparables en promedio, pero lo que quiero decir con mi gráfico es algo así como: "Mientras el clasificador A mejora cuanto más características están presentes, el clasificador B es mejor cuando hay menos características".
Editar 2 para incluir mis tramas:
Rangos de algoritmos trazados versus el número de características
Rangos de algoritmos trazados versus el número clasificado de características
Entonces, para repetir la pregunta del título:
¿Está bien trazar una línea de regresión para los datos clasificados de una correlación / regresión de Spearman?
Respuestas:
Se puede usar una correlación de rango para recoger la asociación monotónica entre las variables como se observa; como tal, normalmente no trazarías una línea para eso.
Hay situaciones en las que tiene mucho sentido usar correlaciones de rango para ajustar realmente las líneas a numeric-y vs numeric-x, ya sea Kendall o Spearman (o algún otro). Vea la discusión (y en particular, la última trama) aquí .
Sin embargo, esa no es tu situación. En su caso, me inclinaría a presentar un diagrama de dispersión de los datos originales, tal vez con una relación fluida (por ejemplo, LOESS).
Esperas que la relación sea monótona; quizás podría intentar estimar y trazar una relación monotónica. [Hay una función R discutió aquí que se ajuste de regresión isotónica -. Mientras que el ejemplo no es unimodal no isotónica, la función puede hacer ajustes isotónicas]
Aquí hay un ejemplo del tipo de cosas que quiero decir:
La gráfica muestra una relación monotónica entre x e y; la curva roja es un loess suave (en este caso, generada en R por
scatter.smooth
), que también resulta ser montónica (hay formas de obtener ajustes suaves que se garantiza que sean monótonos, pero en este caso el loess liso predeterminado fue monotónico, por lo que No sentí la necesidad de preocuparme.Gráfica de rango (y) vs rango (x), lo que indica una relación monotónica. La línea verde muestra los rangos de los valores ajustados de la curva de loess contra el rango (x).
La correlación entre los rangos de x e y (es decir, la correlación de Spearman) es 0.892, una asociación monotónica alta. De manera similar, la correlación de Spearman entre la curva ajustada de loess (montonic) ( ) y los valores de y también es 0.892. [Sin embargo, esto no es sorprendente, ya que sería cierto para cualquier curva que sea una función monotónica de aumento de x, todo lo cual también correspondería a la línea verde. La línea verde no es una línea de regresión entre el rango (x) y el rango (y), pero es la línea correspondiente a un ajuste monotónico en la trama original. La 'línea de regresión' para los datos clasificados tiene una pendiente de 0,892, no 1, por lo que es un poco "más plana".]y^
Si no está mostrando nada más que rango (Y) vs X, creo que evitaría usar líneas en los gráficos; Por lo que puedo ver, no transmiten mucho valor por encima del coeficiente de correlación. Y ya dije que solo te interesa la tendencia.
[No sé si está mal trazar una línea de regresión en una trama clasificada y vs clasificada x, la dificultad sería su interpretación.]
fuente
El uso de Spearman es equivalente a usar el modelo logístico ordinal de probabilidades proporcionales si uno clasificara el vector mientras modela. El modelo PO generalmente modela en su escala original y puede incluir términos no lineales. Para obtener predicciones, es ventajoso utilizar un enfoque basado en modelos. Puede, por ejemplo, trazar frente a la media pronosticada o la mediana pronosticada partir de un ajuste del modelo PO. Los ejemplos se encuentran en los folletos de http://biostat.mc.vanderbilt.edu/rms .ρ X X X Y Y
fuente