Diferencia entre intervalos de confianza e intervalos de predicción

80

Para un intervalo de predicción en regresión lineal, todavía usa para generar el intervalo. También usa esto para generar un intervalo de confianza de . ¿Cuál es la diferencia entre los dos?E[Y| x0]E^[Y|x]=β0^+β^1xE[Y|x0]

pregunta
fuente
77
E^[Y|x]=β0^+β^1x no "genera el intervalo".
Glen_b
No veo una razón para la divergencia entre los dos métodos en ninguna de las respuestas anteriores. Los resultados de la regresión generalmente se estiman en función de los parámetros de distribución t de Student paramétricos y, por lo general, la regresión, especialmente de los modelos de regresión de datos mal emparejados, conduce a residuos que no están estudiados, por ejemplo, sesgados, pero especialmente con colas pesadas (por lo general) medidas paramétricas de dispersión de datos mayores que sus correspondientes cuantiles medidos anticipados Una regla general que he encontrado útil: si veo residuos con valores atípicos, colas largas, y
Carl

Respuestas:

75

Tu pregunta no es correcta. Un intervalo de confianza proporciona un rango para , como usted dice. Un intervalo de predicción da un rango para . Naturalmente, nuestra mejor suposición para es , por lo que los intervalos se centrarán en el mismo valor, .Y y E [ y | x ] x βE[yx]yyE[yx]xβ^

Como dice @Greg, los errores estándar serán diferentes --- suponemos que el valor esperado de más preciso de lo que estimamos . Estimar requiere incluir la varianza que proviene del término de error verdadero.y yE[yx]yy

Para ilustrar la diferencia, imagine que podríamos obtener estimaciones perfectas de nuestros coeficientes . Entonces, nuestra estimación de sería perfecta. Sin embargo, todavía no estaríamos seguros de qué sí era porque hay un cierto término de error que hay que tener en cuenta. Nuestro "intervalo" de confianza sería solo un punto porque estimamos exactamente correcto, pero nuestro intervalo de predicción sería más amplio porque tomamos en cuenta el verdadero término de error.E [ y x ] y E [ y x ]βE[yx]yE[yx]

Por lo tanto, un intervalo de predicción será más amplio que un intervalo de confianza.

Charlie
fuente
40

La diferencia entre un intervalo de predicción y un intervalo de confianza es el error estándar.

El error estándar para un intervalo de confianza en la media tiene en cuenta la incertidumbre debida al muestreo. La línea que calculó a partir de su muestra será diferente de la línea que se habría calculado si hubiera tenido toda la población, el error estándar tiene en cuenta esta incertidumbre.

El error estándar para un intervalo de predicción en una observación individual tiene en cuenta la incertidumbre debido al muestreo como el anterior, pero también tiene en cuenta la variabilidad de los individuos en torno a la media pronosticada. El error estándar para el intervalo de predicción será más amplio que para el intervalo de confianza y, por lo tanto, el intervalo de predicción será más amplio que el intervalo de confianza.

Greg Snow
fuente
39

La siguiente explicación me pareció útil:

Los intervalos de confianza le indican qué tan bien ha determinado la media. Suponga que los datos realmente se muestrean aleatoriamente de una distribución gaussiana. Si hace esto muchas veces y calcula un intervalo de confianza de la media de cada muestra, esperaría que alrededor del 95% de esos intervalos incluyeran el valor verdadero de la media de la población. El punto clave es que el intervalo de confianza le informa sobre la ubicación probable del parámetro de población real.

Los intervalos de predicción le indican dónde puede esperar ver el siguiente punto de datos muestreado. Suponga que los datos realmente se muestrean aleatoriamente de una distribución gaussiana. Recolecte una muestra de datos y calcule un intervalo de predicción. Luego muestre un valor más de la población. Si hace esto muchas veces, esperaría que el próximo valor se encuentre dentro de ese intervalo de predicción en el 95% de las muestras. El punto clave es que el intervalo de predicción le informa sobre la distribución de valores, no la incertidumbre en la determinación de la población. media.

Los intervalos de predicción deben tener en cuenta tanto la incertidumbre en conocer el valor de la media de la población, más la dispersión de datos. Por lo tanto, un intervalo de predicción siempre es más amplio que un intervalo de confianza.

Fuente: http://www.graphpad.com/support/faqid/1506/

vonjd
fuente
¿Qué diablos se entiende por "dispersión de datos" aquí?
tel
2
@tel: Obviamente la variación
vonjd
36

Uno es una predicción de una observación futura, y el otro es una respuesta media pronosticada. Daré una respuesta más detallada para, con suerte, explicar la diferencia y de dónde viene, así como cómo esta diferencia se manifiesta en intervalos más amplios para la predicción que para la confianza.

x0

  1. x0x0

    y=x0Tβ+ϵ
    E(ϵ)=0
    y^=x0Tβ^
    β^ϵ
  2. x0x0

    y^=x0Tβ^
    β^

var(x0Tβ^)=x0T(XTX)1x0σ2

x0Tβ^+ϵϵσ2β^

  1. x0

    y^0±tnp(α/2)σ^x0T(XTX)1x0+1
  2. x0

    y^0±tnp(α/2)σ^x0T(XTX)1x0

tnpα/2npα/2

Esperemos que esto aclare un poco por qué el intervalo de predicción es siempre más amplio y cuál es la diferencia subyacente entre los dos intervalos. Este ejemplo fue adaptado de Faraway, Linear Models con R, Sec. 4.1.

jpgard
fuente
2
Es agradable ver un hilo viejo considerablemente mejorado por una respuesta clara y reflexiva. ¡Bienvenido a nuestro sitio!
whuber
¿No debería ser esto ... x0 + 1 / n +1 (para el intervalo de predicción (1)) y ... x0 + 1 / n (para el intervalo de confianza (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…
user48956
12

Respuesta corta:

Un intervalo de predicción es un intervalo asociado con una variable aleatoria aún por observar (pronóstico).

Un intervalo de confianza es un intervalo asociado con un parámetro y es un concepto frecuente.

Verifique la respuesta completa aquí de Rob Hyndman, el creador del paquete de pronóstico en R.

pablo_sci
fuente
3

Esta respuesta es para aquellos lectores que no pudieron entender completamente las respuestas anteriores. Discutamos un ejemplo específico. Suponga que intenta predecir el peso de las personas a partir de su estatura, sexo (hombre, mujer) y dieta (estándar, baja en carbohidratos, vegetariana). Actualmente, hay más de 8 mil millones de personas en la Tierra. Por supuesto, puede encontrar miles de personas con la misma altura y otros dos parámetros pero con un peso diferente. Sus pesos difieren enormemente porque algunos de ellos tienen obesidad y otros pueden sufrir de inanición. La mayoría de esas personas estarán en algún lugar en el medio.

Una tarea es predecir el peso promedio de todas las personas que tienen los mismos valores de las tres variables explicativas. Aquí usamos el intervalo de confianza. Otro problema es pronosticar el peso de alguna persona específica. Y no sabemos las circunstancias de vida de ese individuo. Aquí se debe usar el intervalo de predicción. Se centra en el mismo punto, pero debe ser mucho más amplio que el intervalo de confianza.

Serhii Kushchenko
fuente