¿Es que en la estandarización se conoce la varianza, mientras que en la estudianteización no se conoce y, por lo tanto, se estima? Gracias.
standardization
58485362
fuente
fuente
Respuestas:
Una breve recapitulación. Dado un modelo , donde es , y , donde es la "matriz del sombrero". Los residuos son e = y- \ hat y = y-Hy = (IH) y La varianza de la población \ sigma ^ 2 es desconocida y puede estimarse por MSE , el error cuadrático medio.X n × p β = ( X ' X ) - 1 X ' y Y = X β = X ( X ' X ) - 1 X ' y = H y H = X ( X ' X ) - 1 X ' e = y -y= Xβ+ ε X n × p β^= ( X′X)- 1X′y y^= Xβ^= X( X′X)- 1X′y= Hy H= X( X′X)- 1X′ σ2MSE
Los residuos semistudentizados se definen como
Los residuos estandarizados , también llamados residuos internamente estudiados , son:
Sin embargo, el único y no son independientes, por lo que no puede tener una distribución . El procedimiento consiste entonces en eliminar la ésima observación, ajustar la función de regresión a las observaciones restantes y obtener nuevos 's que pueden denotarse por . La diferencia: se llama borrado residual . Una expresión equivalente que no requiere un recálculo es: Denotando la nueva y por y M S E r i camiseta T i n - 1 y y i ( i ) D i = y i - y i ( i ) d i = e iei MSE ri t i n−1 y^ y^i(i)
Ver Kutner et al., Modelos estadísticos lineales aplicados , Capítulo 10.
Editar: Debo decir que la respuesta de rpierce es perfecta. Pensé que el OP se trataba de residuos estandarizados y estudiados (y dividirlo por la desviación estándar de la población para obtener residuos estandarizados me parecía extraño, por supuesto), pero estaba equivocado. Espero que mi respuesta pueda ayudar a alguien, incluso si OT.
fuente
En las ciencias sociales que se suele decir que las puntuaciones Studentizated utiliza / cálculo de Gosset de Student para la estimación de la desviación varianza de la población / estándar de la muestra de varianza / desviación estándar ( ). Por el contrario, se dice que las puntuaciones estandarizadas (un sustantivo, un tipo particular de estadística, la puntuación Z) utilizan la desviación estándar de la población? ( ).σs σ
Sin embargo, parece que hay algunas diferencias terminológicas entre los campos (consulte los comentarios sobre esta respuesta). Por lo tanto, se debe proceder con precaución al hacer estas distinciones. Además, los puntajes estudiados rara vez se denominan así y, por lo general, uno ve los valores "estudiados" en el contexto de la regresión. @Sergio proporciona detalles sobre esos tipos de residuos eliminados studentizados en su respuesta.
fuente
¡Estoy muy tarde en responder esta pregunta! Pero no pude encontrar la respuesta en un lenguaje muy simple, tan humilde intento de responder esto.
¿Por qué hacemos estandarización? Imagine que tiene dos modelos: uno predice la locura por la cantidad de tiempo dedicado a estudiar estadísticas, mientras que otro predice el registro (locura) con la cantidad de tiempo en estadísticas.
Sería difícil entender que los residuos están en unidades diferentes. Entonces los estandarizamos (teoría similar a la puntuación Z)
Residuos estandarizados: - Cuando los residuos se dividen por una estimación de la desviación estándar. En general, si el valor absoluto> 3 es motivo de preocupación.
Usamos esto para investigar valores atípicos en el modelo.
Residual Studentizado: Usamos esto para estudiar la estabilidad del modelo.
El proceso es simple. Eliminamos el caso de prueba individual del modelo y descubrimos el nuevo valor predicho. La diferencia entre el nuevo valor y el valor original observado se puede estandarizar dividiendo el error estándar. este valor es Residual Studentizado
Para obtener más información descubriendo estadísticas usando R - http://www.statisticshell.com/html/dsur.html
fuente
Wikipedia tiene una buena descripción general en https://en.wikipedia.org/wiki/Normalization_(statistics) :
fuente