Estoy observando patrones extraños en residuos para mis datos:
[EDITAR] Aquí están los gráficos de regresión parcial para las dos variables:
[EDIT2] Se agregó la trama PP
La distribución parece estar funcionando bien (ver más abajo) pero no tengo idea de dónde podría provenir esta línea recta. ¿Algunas ideas?
[ACTUALIZACIÓN 31.07]
Resulta que tenías toda la razón, tuve casos en los que el recuento de retweets fue de hecho 0 y estos ~ 15 casos resultaron en esos patrones residuales extraños.
Los residuos se ven mucho mejor ahora:
También he incluido las regresiones parciales con una línea de loess.
Respuestas:
Parece que en algunos de sus subrangos su variable dependiente es constante o depende linealmente de los predictores. Tengamos dos variables correlacionadas, X e Y (Y es dependiente). El diagrama de dispersión está a la izquierda.
Regresemos, por ejemplo, a la primera posibilidad ("constante"). Recodifique todos los valores Y desde el más bajo hasta -0.5 a un solo valor -1 (vea la imagen en el centro). Regrese Y en X y grafique la dispersión de los residuos, es decir, gire la imagen central para que la línea de predicción sea horizontal ahora. ¿Se parece a tu foto?
fuente
No es sorprendente que no vea el patrón en el histograma, el patrón impar abarca bastante del rango del histograma y representa solo unos pocos puntos de datos en cada bin. Realmente necesita averiguar qué puntos de datos son esos y mirarlos. Podrías usar los valores pronosticados y los residuos para encontrarlos lo suficientemente fácil. Una vez que encuentre los valores, comience a investigar por qué esos podrían ser especiales.
Dicho esto, este patrón particular es solo especial porque es largo. Si observa detenidamente su gráfica de residuos y su gráfica de cuantiles, verá que se repite pero que son secuencias más pequeñas. Quizás en realidad solo sea una anomalía. O tal vez realmente es un patrón que se repite. Pero, tendrá que encontrar dónde está en los datos sin procesar y examinarlo para tener alguna esperanza de comprenderlo.
Para darle un poco de ayuda, el gráfico cuantil-cuantil sugiere que tiene un montón de residuos idénticos. Es posible que sea un error de codificación. Puedo generar algo similar en R con ...
Tenga en cuenta los dos puntos planos en la línea. Sin embargo, parece más complejo que eso porque hay una implicación de que los residuos idénticos se encuentran en un rango de predictores.
fuente
Parece que lo estás usando
R
. Si es así, tenga en cuenta que puede identificar puntos en un diagrama de dispersión usando ? Identificar . Creo que hay varias cosas pasando aquí. Primero, tiene un punto muy influyente en la trama deLN_RT_vol_in ~ LN_AT_vol_in
(el resaltado) en aproximadamente (.2, 1.5). Es muy probable que este sea el residuo estandarizado que es aproximadamente -3.7. El efecto de ese punto será aplanar la línea de regresión, inclinándola más horizontalmente que la línea agudamente ascendente que de otro modo habría obtenido. Un efecto de eso es que todos sus residuos se rotarán en sentido contrario a las agujas del reloj en relación con el lugar donde de otro modo se habrían ubicado dentro delresidual ~ predicted
trama (al menos cuando se piensa en términos de esa covariable e ignora la otra).No obstante, la línea recta aparente de los residuos que ve todavía estaría allí, ya que existen en algún lugar de la nube tridimensional de sus datos originales. Pueden ser difíciles de encontrar en cualquiera de las parcelas marginales. Puede usar la función de identificación () para ayudar, y también puede usar la paquete rgl para crear un diagrama de dispersión 3D dinámico que puede rotar libremente con el mouse. Sin embargo, tenga en cuenta que los residuos de línea recta están todos por debajo de 0 en su valor predicho, y tienen por debajo de 0 residuos (es decir, están por debajo de la línea de regresión ajustada); eso te da una gran pista sobre dónde mirar. Mirando de nuevo a tu parcela de
LN_RT_vol_in ~ LN_AT_vol_in
, Creo que puedo verlos. Hay un grupo bastante recto de puntos que se extiende diagonalmente hacia abajo y hacia la izquierda desde aproximadamente (-.01, -1.00) en el borde inferior de la nube de puntos en esa región. Sospecho que esos son los puntos en cuestión.En otras palabras, los residuos se ven de esa manera porque ya están en algún lugar dentro del espacio de datos. En esencia, esto es lo que sugiere @ttnphns, pero no creo que sea una constante en ninguna de las dimensiones originales: es una constante en una dimensión en ángulo con respecto a los ejes originales. Además, estoy de acuerdo con @MichaelChernick en que esta aparente rectitud en el gráfico residual es probablemente inofensiva, pero que sus datos no son realmente muy normales. Sin embargo, son algo normales, y parece que tiene una cantidad de datos decente, por lo que el CLT puede cubrirlo, pero es posible que desee arrancar por si acaso. Finalmente, me preocuparía que ese "valor atípico" esté impulsando sus resultados; Un enfoque robusto es probablemente merecido.
fuente
it's a constant in a dimension at an angle to your original axes
ser comparable con miis exactly linearly dependent on the predictor(s)
o quieres decir algo diferente?No necesariamente diría que el histograma está bien. La superposición visual de la mejor adaptación normal en un histograma puede ser engañosa y su histogrsm podría ser sensible a la elección del ancho del contenedor. La gráfica de probabilidad normal parece indicar una gran desviación de lo normal e incluso mirar el histograma parece ser un ligero sesgo (mayor frecuencia en el bin [0, + 0.5] en comparación con el bin [-0.5,0]) y curtosis severa (una frecuencia demasiado grande en los intervalos [-4, -3.5] y [2.5, 3]).
Con respecto al patrón que ve, puede provenir de la exploración selectiva a través del diagrama de dispersión. Parece que si caza un poco más, puede encontrar dos o tres líneas más casi paralelas a la que seleccionó. Creo que estás leyendo demasiado sobre esto. Pero la no normalidad es una preocupación real. Tienes un valor atípico muy grande con un residuo de casi -4. ¿Estos residuos provienen de un ajuste de mínimos cuadrados? Estoy de acuerdo en que podría ser esclarecedor mirar la línea ajustada en un diagrama de dispersión de los datos.
fuente