¿Son los residuos "predicho menos real" o "real menos predicho"

46

He visto "residuales" definidos de manera diversa como "pronosticados menos valores reales" o "reales menos valores pronosticados". Con fines ilustrativos, para mostrar que ambas fórmulas se usan ampliamente, compare las siguientes búsquedas web:

En la práctica, casi nunca hace la diferencia, ya que el signo de los residuos invidividuales generalmente no importa (por ejemplo, si están al cuadrado o se toman los valores absolutos). Sin embargo, mi pregunta es: ¿una de estas dos versiones (predicción primero versus real primero) se considera "estándar"? Me gusta ser coherente en mi uso, por lo que si hay un estándar convencional bien establecido, preferiría seguirlo. Sin embargo, si no hay un estándar, me complace aceptarlo como respuesta, si se puede demostrar de manera convincente que no existe un convenio estándar.

residuals terminology error Tripartio
fuente

8

Como el residual está conectado al error del modelo, cuando escribimos

y = a + b x + ϵ

$y = a + bx + \epsilon$ nos hace pensar que

y

$y$ es una "parte fija" más una "parte aleatoria", por lo que el residual es el

y

$y$ menos el

a + b x

$a + bx$ .

AdamO

Predicho menos real o real menos predicho sería un error de predicción (o el negativo del mismo), mientras que ajustado menos real o real menos ajustado sería residual (o el negativo del mismo). La respuesta de Stephen Kolassa menciona errores de pronóstico por una razón.

Richard Hardy

Encuentro (predicho-real) más conveniente para trabajar. A menudo necesita calcular derivadas del residuo con respecto a algunos parámetros. Si usa (predicho real), aparecen signos menos que debe realizar un seguimiento durante el resto de sus cálculos, lo que requiere el uso de más paréntesis, asegurándose de cancelar dobles negativos cuando ocurren, y así sucesivamente. En mi experiencia, esto lleva a más errores

Nick Alger

42

Los residuos son siempre reales menos predichos. Los modelos son: Por lo tanto, los residuos , que son estimaciones de los errores :

y = F (X; β) + ε

$y=f(x;\beta)+\varepsilon$

\hat{ε}

$\hat\varepsilon$

ε

$\varepsilon$

\hat{ε} = y - \hat{y} \hat{y} = F (X; \hat{β})

$\hat\varepsilon=y-\hat y\\\hat y=f(x;\hat\beta)$

Estoy de acuerdo con @whuber en que el signo realmente no importa matemáticamente. Sin embargo, es bueno tener una convención. Y la convención actual es como en mi respuesta.

Dado que OP cuestionó mi autoridad en este tema, agrego algunas referencias:

" (2008) Residual. En: The Concise Encyclopedia of Statistics. Springer, Nueva York, NY , que da la misma definición.
Los "Métodos estadísticos para trabajadores de investigación" de Fisher de 1925 también tienen la misma definición, ver la Sección 26 en esta versión de 1934 . A pesar de su título sin pretensiones, este es un trabajo importante en el contexto histórico.

Aksakal
fuente

3

Edité mi pregunta para agregar algunas búsquedas web de muestra que muestran claramente que los residuales NO SIEMPRE son reales menos predichos; la alternativa también es bastante frecuente, de ahí mi confusión. Mi pregunta es si existe una documentación autorizada de la convención correcta, que, desafortunadamente, su respuesta no proporciona.

Tripartio

55

En mi lectura observado

predicho es la convención moderna mayoritaria en estadística. Sin embargo, es notable que Gauss usó la convención opuesta: los residuos al cuadrado naturalmente son iguales de cualquier manera en el contexto de mínimos cuadrados, sumas de cuadrados o cuadrados medios. Aunque existen precedentes del siglo XIX y anteriores para observar los residuos individuales, el cuidado y el trazado de los residuos en particular no comenzaron a generalizarse y convertirse en rutina hasta principios de la década de 1960. Es decir, es solo cuando el signo de los residuos está a la vista que alguien debe preocuparse por lo que es.

-

$-$

Nick Cox

18

+1. El concepto de residuo proviene de "un resto; lo que queda atrás" : en otras palabras, lo que queda en los datos después de que se ha contabilizado la predicción. Esto sugiere que quienquiera que denominó a estas cantidades como "residual" tenía en mente la definición "valor de datos menos valor ajustado".

whuber

3

@ NickCox, ¿podría formalizar sus comentarios como respuesta, con citas? Mi pregunta no es tanto sobre estadísticas como sobre convenciones científicas, por lo que el tipo de conocimiento histórico y de uso indicado en su comentario es el tipo de respuestas que estoy buscando.

Tripartio

66

La palabra residual largo, largo es anterior a Salsburg. Tengo que decir que su libro, aunque a veces entretenido, está lejos de ser autoritario. Si está interesado, puede buscar mi reseña en Biometrics jstor.org/stable/3068274

Nick Cox

22

Acabo de encontrar una razón convincente para que una respuesta sea la correcta.

La regresión (y la mayoría de los modelos estadísticos de cualquier tipo) se refieren a cómo las distribuciones condicionales de una respuesta dependen de variables explicativas. Un elemento importante de la caracterización de esas distribuciones es alguna medida generalmente llamada "asimetría" (a pesar de que se han ofrecido varias y diferentes fórmulas): se refiere a la forma más básica en que la forma de distribución se aparta de la simetría. Aquí hay un ejemplo de datos bivariados (una respuesta y una sola variable explicativa ) con respuestas condicionales positivamente sesgadas: $y$ $x$

La curva azul es el ajuste de mínimos cuadrados ordinarios. Traza los valores ajustados.

Cuando se calcula la diferencia entre una respuesta y su valor ajustado , cambiamos la ubicación de la distribución condicional, pero no de otra manera cambiar su forma. En particular, su asimetría será inalterada. $y$ $\hat y$

Este es un gráfico de diagnóstico estándar que muestra cómo las distribuciones condicionales desplazadas varían con los valores predichos. Geométricamente, es casi lo mismo que "hasta" el diagrama de dispersión anterior.

Si por el contrario se calcula la diferencia en el otro esto va a cambiar y luego revertir la forma de la distribución condicional. Su asimetría será la negativa de la distribución condicional original. $\hat y - y,$

Esto muestra las mismas cantidades que la figura anterior, pero los residuos se han calculado restando los datos de sus ajustes, lo que, por supuesto, es lo mismo que negar los residuos anteriores.

Aunque ambas figuras anteriores son matemáticamente equivalentes en todos los aspectos, una se convierte en la otra simplemente volteando los puntos a través del horizonte azul, una de ellas tiene una relación visual mucho más directa con la trama original.

En consecuencia, si nuestro objetivo es relacionar las características de distribución de los residuos con las características de los datos originales, y ese es casi siempre el caso, entonces es mejor simplemente cambiar las respuestas en lugar de cambiarlas y revertirlas.

La respuesta correcta es clara: calcular sus residuos como $y - \hat y.$

whuber
fuente

1

No creo que siga lo que es especial acerca de la asimetría aquí: ¿no se sostiene de inmediato su argumento sobre los residuos que coinciden con la trama original?

MichaelChirico

2

@ Michael Tienes toda la razón. Sin embargo, la inclinación es útil para ilustrar el punto porque distingue claramente la forma de una distribución de la forma de su negativo.

whuber

10

Green & Tashman (2008, Foresight ) informan sobre una pequeña encuesta sobre la pregunta análoga de errores de pronóstico. Resumiré argumentos para cualquiera de las convenciones según lo informado por ellos:

Argumentos para "real-predicho"

La convención estadística es . $y=\hat{y}+\epsilon$
Al menos un encuestado de sismología escribió que esta es también la convención para modelar el tiempo de viaje de las ondas sísmicas. "Cuando la onda sísmica real llega antes del tiempo predicho por el modelo, tenemos un tiempo de viaje negativo residual (error)". ( sic )
$\hat{y}$
$+$ $-$

Argumentos para "predicho-real"

$y=\hat{y}-\epsilon$

De manera similar, si un sesgo positivo se define como errores positivos esperados, significaría que los pronósticos son en promedio demasiado altos con esta convención.

Y este es prácticamente el único argumento dado para esta convención. Por otra parte, dados los malentendidos que puede provocar la otra convención (errores positivos = pronóstico demasiado bajo), es muy fuerte.

Al final, diría que se trata de a quién necesita comunicar sus residuos. Y dado que ciertamente hay dos lados en esta discusión, tiene sentido anotar explícitamente qué convención sigue.

S. Kolassa - Restablece a Monica
fuente

77

x

$x$

3

@ NickCox: en resumen, tienes razón. Sin embargo, tome un gran número de personas y pregúnteles: "El pronóstico del tiempo para la temperatura de hoy tuvo un gran error positivo . ¿Cree que el pronóstico fue (A) demasiado alto o (B) demasiado bajo ?" Creo que puedo predecir cuál de (A) o (B) elegirá una mayoría abrumadora.

S. Kolassa - Restablece a Mónica el

66

Sí, y si tuviera que formular esa pregunta como "¿Cree que la temperatura era (A) más alta o (B) más baja que el pronóstico", muy bien podría obtener exactamente las respuestas opuestas ! Hacer referencia a un "error positivo" solo plantea la cuestión de "cuál es el error", y eso nos lleva, de manera perfectamente circular, a la pregunta original.

whuber

2

@whuber, sin embargo, esa es una formulación poco natural de la pregunta. Dado que lo "observado" es "fijo", la relación del modelo con él parece más natural que al revés. Recibo una multa por exceso de velocidad por ir demasiado rápido, en lugar de "el límite de velocidad estaba por debajo de mi velocidad". Los argumentos del lenguaje natural definitivamente tienen una aplicación limitada a los términos técnicos / lenguaje aunque /

mbrig

2

@whuber Lo que digo es que una forma de formular la pregunta es claramente más natural (al menos en inglés).

mbrig

4

Una terminología diferente sugiere diferentes convenciones. El término "residual" implica que es lo que queda después de que se hayan tenido en cuenta todas las variables explicativas, es decir, las predicciones reales. El "error de predicción" implica que es cuánto se desvía la predicción de la real, es decir, la predicción real.

$X = x_1,x_2...$ $y$ $\hat y$

$y$ $\hat y$ $X$ $y$ $\hat y$ $\hat y$ $y$ $\hat y$ $\hat y$ $y$ $\hat y$ $y$ $e = \hat y -y$

$\hat y$ $X$ $X$ $x \rightarrow f(X)\rightarrow f(X)+error()$ $\hat y$ $X$ $y$ $\sqrt{\frac{2x}{g}}$

$\hat y = \sqrt{\frac{2x}{g}}$
$y = \hat y +error$

$\hat y$ $y$ $\hat y$ $X$

$\sqrt{\frac{2x}{g}}$ $y = \hat y +error$

$X$

$\hat y = f(X)$
$y = \hat y+g(?)$
$g = y-\hat y$

Acumulacion
fuente

4

La respuesta de @Aksakal es completamente correcta, pero agregaré un elemento adicional que creo que me ayuda (y a mis alumnos).

El lema: la estadística es "perfecta". Como en, siempre puedo proporcionar la predicción perfecta (sé que algunas cejas se están levantando en este momento ... así que escúchame).

$y_i$ $\hat{y}_i$

y_{yo} \neq {\hat{y}}_{yo}

$y_i \ne \hat{y}_i$

ϵ_{i}

$\epsilon_i$

y_{yo} = {\hat{y}}_{yo} + ϵ_{yo}

$y_i = \hat{y}_i + \epsilon_i$ Ahora, tenemos una predicción "perfecta" ... nuestro valor "final" coincide con nuestro valor observado.

$\epsilon_i$

Gregg H
fuente

2

{\hat{y}}_{i} - y_{i}

$\hat{y}_i - y_i$

66

¿Por qué "es mejor agregarlo a nuestro valor predicho"? ¿Por qué no "ver cuánto debe ajustarse el dato para estar de acuerdo con nuestra predicción"? Ningún enfoque parece tener la pretensión de ser más obvio, significativo o "intuitivo" que el otro.

whuber

2

@whuber un elemento es "real" (observado, concreto), el otro es una construcción (hipotética); Si estuviéramos modelando la altura en función del peso, ¿sería razonable "reducir" a alguien en 3 pulgadas solo para hacer coincidir su altura real / observada con algún valor predicho (imaginario)?

Gregg H

2

Sí, esa es una forma común de pensar acerca de los datos. Solo estoy tratando de señalar la posibilidad de que sus suposiciones sobre cómo las personas percibirán esta pregunta y entiendan el significado de "mejor" podrían ser especulativas y subjetivas.

whuber

punto justo ... se actualizará con un breve comentario

Gregg H

2

$\newcommand{\e}{\varepsilon}$ $Y = X\beta + \e$ $\e = Y - X\beta$ $\hat \e = Y - \hat Y$ $Y = X\beta - \e$ $\e = X\beta - Y \implies \hat \e = \hat Y - Y$ $1$ $-1$

Pero si no es en sí mismo como idempotente $\hat \e = Y - \hat Y$ $(I - P_X)Y$ $I - P_X$ $X$ $Y = X\beta - \e$ $\hat \e = (P_X - I)Y$ $P_X - I$ $(P_X - I)^2 = P_X^2 - 2P_X + I = -(P_X - I)$ $P_X - I$ $I - P_X$ $Y = X\beta - \e$ $Y = X\beta + \e$ $Y - \hat Y$

$\hat Y - Y$ $Y - \hat Y$

jld
fuente

+ e

$+ e$

e

$e$

y = β_{0} + β_{1} x

$y = \beta_0 + \beta_1 x$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

e

$e$

Y = X β + ε

$Y = X\beta + \varepsilon$

¿Son los residuos "predicho menos real" o "real menos predicho"

Respuestas: