¿Cómo leer los diagramas de distancia de Cook?

¿Alguien sabe cómo resolver si los puntos 7, 16 y 29 son puntos influyentes o no? Leí en alguna parte que debido a que la distancia de Cook es inferior a 1, no lo son. Estoy bien?

ingrese la descripción de la imagen aquí

r regression residuals diagnostic cooks-distance Platypezid
fuente

Hay varias opiniones. Algunos de ellos se relacionan con el número de observaciones o con el número de parámetros. Estos se bosquejan en en.wikipedia.org/wiki/… .

whuber

@whuber Gracias. Esta siempre es un área gris cuando realizo una exploración de datos para mí. El punto de datos 16 anterior influye masivamente en los resultados del modelo, aumentando así los errores de Tipo I.

Platypezid

Se podría argumentar que también aumenta los errores de "Tipo III", que (genérica e informalmente) son errores relacionados con la inaplicabilidad del modelo de probabilidad subyacente.

whuber

@whuber sí, muy cierto!

Platypezid

Respuestas:

Algunos textos le dicen que los puntos para los cuales la distancia de Cook es mayor que 1 deben considerarse influyentes. Otros textos le dan un umbral de o , donde es el número de observaciones el número de variables explicativas. En su caso, la última fórmula debería producir un umbral de alrededor de 0.1. $4/N$ $4/(N - k - 1)$ $N$ $k$

John Fox (1), en su folleto sobre diagnósticos de regresión, es bastante cauteloso cuando se trata de dar umbrales numéricos. Él aconseja el uso de gráficos y examinar con más detalle los puntos con "valores de D que son sustancialmente más grandes que el resto". Según Fox, los umbrales solo deberían usarse para mejorar las pantallas gráficas.

En su caso, las observaciones 7 y 16 podrían considerarse influyentes. Bueno, al menos los miraría más de cerca. La observación 29 no es sustancialmente diferente de un par de otras observaciones.

(1) Fox, John. (1991) Diagnóstico de regresión: una introducción . Publicaciones sabias.

fuente

+1 Resumen claro. Yo añadiría que los casos influyentes no suelen ser un problema cuando su eliminación del conjunto de datos que dejaría el parámetro calcula esencialmente sin cambios: los que nos preocupan son aquellos cuya presencia realmente no cambió los resultados.

whuber

@lejohn Muy agradecido por su respuesta. Whuber tiene razón, excelente claridad en su respuesta. Esto es muy informativo. ¡Te sugiero que destaques a Fox y tus opiniones en la página de wikipedia!

Platypezid

$k$ $k+1$ $\beta_0$ $\beta$

Hay otro punto que vale la pena mencionar aquí. En la investigación observacional, a menudo es difícil muestrear uniformemente en el espacio del predictor, y es posible que tenga solo algunos puntos en un área determinada. Dichos puntos pueden diferir del resto. Tener algunos casos distintos puede ser desconcertante, pero merece una reflexión considerable antes de ser relegado. Puede haber legítimamente una interacción entre los predictores, o el sistema puede cambiar para comportarse de manera diferente cuando los valores de los predictores se vuelven extremos. Además, pueden ayudarlo a desenredar los efectos de los predictores colineales. Los puntos influyentes pueden ser una bendición disfrazada.

gung - Restablece a Monica
fuente

+1 "La distancia de Cook es probablemente más importante para usted si está haciendo modelado predictivo, mientras que dfbeta es más importante en el modelado explicativo": este es un consejo muy útil.

Anne Z.

Hola, interesante discusión. ¿Pero no podría ser racional integrar una variable ficticia para medir el efecto de, por ejemplo, la observación 16?

Pantera

@Pantera eliminé 16 y

comparé los

Hola: si elimina las observaciones, debe asegurarse de tener un argumento "bueno" para hacerlo, por ejemplo, que la observación se mide incorrectamente. Si descartamos la observación porque solo causan algunos problemas estadísticos, entonces estamos cerca de la minería de datos.

Pantera