Residuos sin procesar versus residuos estandarizados versus residuos estudiados: ¿qué usar cuando?

31

Esto parece una pregunta similar y no obtuvo muchas respuestas.

Omitiendo pruebas como la D de Cook, y solo mirando los residuos como grupo, estoy interesado en cómo otros usan los residuos al evaluar la bondad de ajuste. Yo uso los residuos en bruto:

  1. en un gráfico QQ, para evaluar la normalidad
  2. en un diagrama de dispersión de versus residuos, para la verificación del globo ocular de (a) hetereoscedasticidad y (b) autocorrelación en serie.y

Para trazar frente a los residuales para examinar los valores de donde pueden ocurrir valores atípicos, prefiero usar los residuales estudiados . El motivo de mi preferencia es que permite ver fácilmente qué residuos con qué valores de son problemáticos, aunque los residuos estandarizados proporcionan un resultado extremadamente similar. Mi teoría sobre la que se usa es que depende de a qué universidad asistió.y yyyy

¿Es esto similar a cómo otros usan residuos? ¿Otros usan este número de gráficos en combinación con estadísticas resumidas?

Michelle
fuente
3
Los residuos estudiados son indudablemente mejores en la detección de valores atípicos y, tal vez, un poco mejores en la inspección de heterocedasticidad. Para otros fines, no me importa qué residuos usar.
ttnphns
Para llamar la atención sobre una pregunta, Michelle, o para solicitar un cambio en su estado (como CW), siga el enlace "bandera" debajo de la pregunta. Esto notificará automáticamente a todos los moderadores. Incrustar solicitudes en preguntas, comentarios o respuestas es impredecible porque depende de la esperanza de que un moderador (u otro usuario de alta reputación) lo lea en un tiempo razonable.
whuber
@whuber Ah, mira, pensé que uno de ustedes lo leería eventualmente. :) Gracias por el consejo sobre el uso de banderas.
Michelle
1
Hola @ttnphns ¿Por qué serían mejores? En particular, ¿por qué sería mejor estudiante que estandarizado? (Nunca he sabido realmente la respuesta aquí)
Peter Flom - Restablece a Monica
44
@ Peter, los residuos Studentizados están menos "distorsionados" por el algoritmo de ajuste de OLS y están más cerca de la noción teórica de "errores" . Se pueden comparar directamente en diferentes regiones de la línea de ajuste, por lo tanto, son mejores en la decisión si un punto es un valor atípico.
ttnphns

Respuestas:

8

Esto no es tanto una respuesta como una aclaración sobre la terminología. Su pregunta se refiere a los residuos sin procesar, estandarizados y estudiados. Sin embargo, esta no es la terminología utilizada por la mayoría de los estadísticos, aunque noto que las notas de su clase indican que sí.

Crudo: igual que lo tienes.

Estandarizado: esto es en realidad los residuos brutos divididos por la verdadera desviación estándar de los residuos. Como rara vez se conoce la verdadera desviación estándar, casi nunca se usa un residuo estandarizado.

Studentizado internamente: debido a que la verdadera desviación estándar de los residuos no se conoce típicamente, en su lugar se usa la desviación estándar estimada. Este es un residuo interanalmente estudiado, y es lo que usted llamó estandarizado.

Studentizado externamente: lo mismo que el residuo internamente estudiado, excepto que la estimación de la desviación estándar de los residuos se calcula a partir de una regresión que deja de lado la observación en cuestión.

Pearson: el residuo bruto dividido por la desviación estándar de la variable de respuesta (la variable y) en lugar de los residuos. No tienes este listado.

"dejar uno afuera": no tiene un nombre formal, pero es lo mismo que las notas de la clase.

"dejar uno afuera" estandarizado: tampoco tiene un nombre formal, pero esto no es lo que las notas de clase llaman studentized.

Fuentes:

  1. el mismo enlace wiki que tiene sobre los residuos estudiados ("un residuo estudiado es el cociente resultante de la división de un residuo por una estimación de su desviación estándar")

  2. documentación para el cálculo residual en SAS

Michael Cooney
fuente
2
+1 Ciertamente, algunos estadísticos han usado los términos en la pregunta del OP (y no siempre de manera perfectamente consistente con otros que usan las mismas palabras). Creo que los términos que usa se están volviendo más comunes, pero no estoy seguro sobre qué base podríamos adivinar su uso relativamente mundial entre los estadísticos: los documentos, por ejemplo, no necesariamente ayudan porque el estadístico promedio no será activamente publicación. Puede que tengas razón, pero ¿cómo lo sabríamos? [Si vuelve a editar, es posible que desee reemplazar "estandarizado" cerca del final con "estandarizado".]
Glen_b -Reinstale Monica el
2

Re: parcelas,

Existe un ajuste excesivo, pero el trazado excesivo no puede hacer mucho daño, especialmente en la etapa de diagnóstico. Una gráfica de probabilidad normal estandarizada no puede doler al lado de su gráfica QQ. Me parece mejor evaluar el medio de la distribución.

Re: residuos,

Ejecuto residuos tanto estandarizados como estudiados en la etapa de borrador y generalmente termino codificando los estandarizados. No sé qué ejecutan otras personas, porque los diagnósticos están realmente codificados en el material de replicación que encuentro en línea.

Re: diagnóstico,

Para un modelo lineal, generalmente agrego factores de inflación de varianza (con el vifcomando en Stata) y algunas pruebas de homocedasticidad (por ejemplo, con el hettestcomando en Stata), así como descomposición del modelo con regresión anidada para verificar si tiene algún sentido .R2

El p.
fuente