He visto "residuales" definidos de manera diversa como "pronosticados menos valores reales" o "reales menos valores pronosticados". Con fines ilustrativos, para mostrar que ambas fórmulas se usan ampliamente, compare las siguientes búsquedas web:
En la práctica, casi nunca hace la diferencia, ya que el signo de los residuos invidividuales generalmente no importa (por ejemplo, si están al cuadrado o se toman los valores absolutos). Sin embargo, mi pregunta es: ¿una de estas dos versiones (predicción primero versus real primero) se considera "estándar"? Me gusta ser coherente en mi uso, por lo que si hay un estándar convencional bien establecido, preferiría seguirlo. Sin embargo, si no hay un estándar, me complace aceptarlo como respuesta, si se puede demostrar de manera convincente que no existe un convenio estándar.
fuente
Respuestas:
Los residuos son siempre reales menos predichos. Los modelos son: Por lo tanto, los residuos varepsilon , que son estimaciones de los errores ε : ε = y - y
Estoy de acuerdo con @whuber en que el signo realmente no importa matemáticamente. Sin embargo, es bueno tener una convención. Y la convención actual es como en mi respuesta.
Dado que OP cuestionó mi autoridad en este tema, agrego algunas referencias:
fuente
Acabo de encontrar una razón convincente para que una respuesta sea la correcta.
La regresión (y la mayoría de los modelos estadísticos de cualquier tipo) se refieren a cómo las distribuciones condicionales de una respuesta dependen de variables explicativas. Un elemento importante de la caracterización de esas distribuciones es alguna medida generalmente llamada "asimetría" (a pesar de que se han ofrecido varias y diferentes fórmulas): se refiere a la forma más básica en que la forma de distribución se aparta de la simetría. Aquí hay un ejemplo de datos bivariados (una respuesta y una sola variable explicativa x ) con respuestas condicionales positivamente sesgadas:y X
La curva azul es el ajuste de mínimos cuadrados ordinarios. Traza los valores ajustados.
Cuando se calcula la diferencia entre una respuesta y su valor ajustado y , cambiamos la ubicación de la distribución condicional, pero no de otra manera cambiar su forma. En particular, su asimetría será inalterada.y y^
Este es un gráfico de diagnóstico estándar que muestra cómo las distribuciones condicionales desplazadas varían con los valores predichos. Geométricamente, es casi lo mismo que "hasta" el diagrama de dispersión anterior.
Si por el contrario se calcula la diferencia en el otro esto va a cambiar y luego revertir la forma de la distribución condicional. Su asimetría será la negativa de la distribución condicional original.y^- y,
Esto muestra las mismas cantidades que la figura anterior, pero los residuos se han calculado restando los datos de sus ajustes, lo que, por supuesto, es lo mismo que negar los residuos anteriores.
Aunque ambas figuras anteriores son matemáticamente equivalentes en todos los aspectos, una se convierte en la otra simplemente volteando los puntos a través del horizonte azul, una de ellas tiene una relación visual mucho más directa con la trama original.
En consecuencia, si nuestro objetivo es relacionar las características de distribución de los residuos con las características de los datos originales, y ese es casi siempre el caso, entonces es mejor simplemente cambiar las respuestas en lugar de cambiarlas y revertirlas.
La respuesta correcta es clara: calcular sus residuos comoy- y^.
fuente
Green & Tashman (2008, Foresight ) informan sobre una pequeña encuesta sobre la pregunta análoga de errores de pronóstico. Resumiré argumentos para cualquiera de las convenciones según lo informado por ellos:
Argumentos para "real-predicho"
Al menos un encuestado de sismología escribió que esta es también la convención para modelar el tiempo de viaje de las ondas sísmicas. "Cuando la onda sísmica real llega antes del tiempo predicho por el modelo, tenemos un tiempo de viaje negativo residual (error)". ( sic )
Argumentos para "predicho-real"
De manera similar, si un sesgo positivo se define como errores positivos esperados, significaría que los pronósticos son en promedio demasiado altos con esta convención.
Y este es prácticamente el único argumento dado para esta convención. Por otra parte, dados los malentendidos que puede provocar la otra convención (errores positivos = pronóstico demasiado bajo), es muy fuerte.
Al final, diría que se trata de a quién necesita comunicar sus residuos. Y dado que ciertamente hay dos lados en esta discusión, tiene sentido anotar explícitamente qué convención sigue.
fuente
Una terminología diferente sugiere diferentes convenciones. El término "residual" implica que es lo que queda después de que se hayan tenido en cuenta todas las variables explicativas, es decir, las predicciones reales. El "error de predicción" implica que es cuánto se desvía la predicción de la real, es decir, la predicción real.
fuente
La respuesta de @Aksakal es completamente correcta, pero agregaré un elemento adicional que creo que me ayuda (y a mis alumnos).
El lema: la estadística es "perfecta". Como en, siempre puedo proporcionar la predicción perfecta (sé que algunas cejas se están levantando en este momento ... así que escúchame).
fuente
Pero si ε = no es en sí mismo como idempotenteε^= Y- Y^ ( Yo- PX) Y yo- PX X Y= Xβ- ε ε^= ( PX- yo) Y PAGSX- yo ( PX- yo)2= P2X- 2 PX+ I= - ( PX- yo) PAGSX- yo yo- PX Y= Xβ- ε Y= Xβ+ ε Y- Y^
fuente