¿Cuál es la diferencia entre estandarización y studentización?

21

¿Es que en la estandarización se conoce la varianza, mientras que en la estudianteización no se conoce y, por lo tanto, se estima? Gracias.

standardization 58485362
fuente

2

Es posible que desee aclarar el contexto de su pregunta. ¿Qué tipo de estandarización, qué tipo de estudianteización? ¿Para qué se utilizan estos valores?

russellpierce

3

Si está preguntando acerca de los residuos , entonces la terminología no está (ejem) estandarizada . Diferentes autores usan diferentes nombres para la misma cosa, y ocasionalmente, y tristemente de manera más confusa, el mismo nombre para diferentes cosas. Hay lo que yo llamo (i) residuos escalados ( , llamados residuos estandarizados por algunos autores); (ii) residuos internamente estudiados (llamados estandarizados por algunos autores / paquetes, estudiados por otros); (iii) residuos eliminados externamente studentizados / studentizados

(y - {\hat{y}}_{i}) / s

$(y-\hat{y}_i)/s$

Glen_b -Reinstate Monica

20

Una breve recapitulación. Dado un modelo , donde es , y , donde es la "matriz del sombrero". Los residuos son La varianza de la población es desconocida y puede estimarse por , el error cuadrático medio. $y=X\beta+\varepsilon$ $X$ $n\times p$ $\hat\beta=(X'X)^{-1}X'y$ $\hat y=X\hat\beta=X(X'X)^{-1}X'y=Hy$ $H=X(X'X)^{-1}X'$

e = y - \hat{y} = y - H y = (I - H) y

$e=y-\hat y=y-Hy=(I-H)y$

σ^{2}

$\sigma^2$

M S E

$MSE$

Los residuos semistudentizados se definen como

e_{i}^{*} = \frac{e_{i}}{\sqrt{M S E}}

$e_i^*=\frac{e_i}{\sqrt{MSE}}$ pero, dado que la varianza de los residuales depende tanto de

σ^{2}

$\sigma^2$ como de

X

$X$ , su varianza estimada es:

\hat{V} (e_{i}) = M S E (1 - h_{i i})

$\widehat V(e_i)=MSE(1-h_{ii})$ donde

h_{i i}

$h_{ii}$ es el

i

$i$ ésimo elemento diagonal de la matriz del sombrero.

Los residuos estandarizados , también llamados residuos internamente estudiados , son:

r_{i} = \frac{e_{i}}{\sqrt{M S E (1 - h_{i i})}}

$r_i=\frac{e_i}{\sqrt{MSE(1-h_{ii})}}$

Sin embargo, el único y no son independientes, por lo que no puede tener una distribución . El procedimiento consiste entonces en eliminar la ésima observación, ajustar la función de regresión a las observaciones restantes y obtener nuevos 's que pueden denotarse por . La diferencia: se llama borrado residual . Una expresión equivalente que no requiere un recálculo es: Denotando la nueva y por y $e_i$ $MSE$ $r_i$ $t$ $i$ $n-1$ $\hat y$ $\hat y_{i(i)}$

d_{i} = y_{i} - {\hat{y}}_{i (i)}

$d_i=y_i-\hat y_{i(i)}$

d_{i} = \frac{e_{i}}{1 - h_{i i}}

$d_i=\frac{e_i}{1-h_{ii}}$

X

$X$

M S E

$MSE$

X_{(i)}

$X_{(i)}$

M S E_{(i)}

$MSE_{(i)}$ , dado que no dependen de la ésima observación, obtenemos: Los se llaman residuales studentized (eliminados) , o externamente Residuos estudiados .

i

$i$

t_{i} = \frac{d_{i}}{\sqrt{\frac{M S E_{(i)}}{1 - h_{i i}}}} = \frac{e_{i}}{\sqrt{M S E_{(i)} (1 - h_{i i})}} \sim t_{n - p - 1}

$t_i=\frac{d_i}{\sqrt{\frac{MSE_{(i)}}{1-h_{ii}}}} =\frac{e_i}{\sqrt{MSE_{(i)}(1-h_{ii})}}\sim t_{n-p-1}$

t_{i}

$t_i$

Ver Kutner et al., Modelos estadísticos lineales aplicados , Capítulo 10.

Editar: Debo decir que la respuesta de rpierce es perfecta. Pensé que el OP se trataba de residuos estandarizados y estudiados (y dividirlo por la desviación estándar de la población para obtener residuos estandarizados me parecía extraño, por supuesto), pero estaba equivocado. Espero que mi respuesta pueda ayudar a alguien, incluso si OT.

Sergio
fuente

2

... y esta respuesta es correcta al definir los residuos estudiados de una ecuación de regresión. No existe una definición de un residuo estandarizado correspondiente. El marco de regresión no parece aplicarse a la pregunta formulada. Pero esto sigue siendo una valiosa contribución; +1

russellpierce

2

@rpierce, tienes razón: tan pronto como leí "studentización", también leí "residuales", pero solo estaban en mi mente ;-) Lo siento. He notado mi descuido solo después del último clic.

Sergio

9

En las ciencias sociales que se suele decir que las puntuaciones Studentizated utiliza / cálculo de Gosset de Student para la estimación de la desviación varianza de la población / estándar de la muestra de varianza / desviación estándar ( ). Por el contrario, se dice que las puntuaciones estandarizadas (un sustantivo, un tipo particular de estadística, la puntuación Z) utilizan la desviación estándar de la población? ( ). $s$ $\sigma$

Sin embargo, parece que hay algunas diferencias terminológicas entre los campos (consulte los comentarios sobre esta respuesta). Por lo tanto, se debe proceder con precaución al hacer estas distinciones. Además, los puntajes estudiados rara vez se denominan así y, por lo general, uno ve los valores "estudiados" en el contexto de la regresión. @Sergio proporciona detalles sobre esos tipos de residuos eliminados studentizados en su respuesta.

russellpierce
fuente

2

Wikipedia agrega: "El término también se usa para la estandarización de una estadística de grado superior por otra estadística del mismo grado: por ejemplo, una estimación del tercer momento central se estandarizaría dividiendo por el cubo de la desviación estándar de la muestra. "

Nick Stauner

2

Creo que sería más seguro decir que Studentización es la forma de estandarización disponible si se desconoce la varianza de la población. Esto toma la forma de un punto de distinción técnico y terminológico en lugar de una declaración engañosa sobre el término más general y ampliamente utilizado.

Nick Stauner

2

@whuber: El contexto de la pregunta era básico, así que di una respuesta básica. Los puntajes estándar (Z) se calculan en estadísticas introductorias y se les da . A veces, realmente tiene la desviación estándar de la población (por ejemplo, un censo de datos no faltante de 10 personas).

σ

$\sigma$

russellpierce

2

@Nick Eso suena como una buena resolución, dado que varias autoridades usan la "estandarización" ampliamente pero ninguna (AFAIK) usa "studentize" en un sentido tan amplio.

whuber

2

@rpierce El segundo libro (Freedman, Pisani y Purves) ha existido durante aproximadamente 40 años, a través de cinco ediciones (en gran parte sin cambios), y comenzó su vida como el texto para el curso de introducción de estadísticas de UC Berkeley. Cubre casi todos los campos concebibles, no solo la salud pública. Por otro lado, uno de sus puntos fuertes es evitar enfatizar distinciones pequeñas, sin sentido o demasiado técnicas, por lo que, aunque es una buena guía para las estadísticas en general, no se puede confiar para resolver asuntos arcanos.

whuber

3

¡Estoy muy tarde en responder esta pregunta! Pero no pude encontrar la respuesta en un lenguaje muy simple, tan humilde intento de responder esto.

¿Por qué hacemos estandarización? Imagine que tiene dos modelos: uno predice la locura por la cantidad de tiempo dedicado a estudiar estadísticas, mientras que otro predice el registro (locura) con la cantidad de tiempo en estadísticas.

Sería difícil entender que los residuos están en unidades diferentes. Entonces los estandarizamos (teoría similar a la puntuación Z)

Residuos estandarizados: - Cuando los residuos se dividen por una estimación de la desviación estándar. En general, si el valor absoluto> 3 es motivo de preocupación.

Usamos esto para investigar valores atípicos en el modelo.

Residual Studentizado: Usamos esto para estudiar la estabilidad del modelo.

El proceso es simple. Eliminamos el caso de prueba individual del modelo y descubrimos el nuevo valor predicho. La diferencia entre el nuevo valor y el valor original observado se puede estandarizar dividiendo el error estándar. este valor es Residual Studentizado

Para obtener más información descubriendo estadísticas usando R - http://www.statisticshell.com/html/dsur.html

NBhoyar
fuente

1

Wikipedia tiene una buena descripción general en https://en.wikipedia.org/wiki/Normalization_(statistics) :

$\frac{X - \mu}{\sigma}$

$\frac{X - \overline{X}}{s}$

asmaier
fuente

¿Cuál es la diferencia entre estandarización y studentización?

Respuestas: