¿Cómo conceptualizar el error en un modelo de regresión?

11

Asisto a una clase de análisis de datos y algunas de mis ideas bien enraizadas están siendo sacudidas. A saber, la idea de que el error (épsilon), así como cualquier otro tipo de variación, solo se aplica (por lo que pensé) a un grupo (una muestra o población completa). Ahora, se nos enseña que uno de los supuestos de regresión es que la varianza es "la misma para todos los individuos". Esto es de alguna manera impactante para mí. Siempre pensé que se suponía que era la varianza en Y entre todos los valores de X que era constante.

Tuve una conversación con el profesor, quien me dijo que cuando hacemos una regresión, asumimos que nuestro modelo es verdadero. Y creo que esa es la parte difícil. Para mí, el término de error (épsilon) siempre significó algo así como "cualquier elemento que no conozcamos y que pueda afectar nuestra variable de resultado, más algún error de medición". En la forma en que se enseña la clase, no existe tal cosa como "otras cosas"; Se supone que nuestro modelo es verdadero y completo. Esto significa que toda variación residual debe considerarse como un producto del error de medición (por lo tanto, se espera que medir a un individuo 20 veces produzca la misma variación que medir 20 individuos una vez).

Siento que algo está mal en alguna parte, me gustaría tener una opinión experta sobre esto ... ¿Hay algún lugar para la interpretación de cuál es el término de error, conceptualmente hablando?

Dominic Comtois
fuente
3
Quizás lo que quiso decir fue que, incluso si el modelo es verdadero, todavía hay una variación aleatoria en las respuestas, esto es capturado por la varianza del error, esto puede, por ejemplo, atribuirse a un aparato de medición imperfecto. Otros a veces conceptualizan la varianza del error como la que falta debido a predictores (no necesariamente errores en la forma del modelo), lo que implica que si se midieran todos los predictores posibles, la varianza del error sería 0. Esto no es inconsistente con el primero: los errores en la medición puede considerarse como un "predictor faltante".
Macro
Creo que una cosa que siempre es difícil de entender al principio es que "error" podría significar cosas diferentes en este caso. "Error" podría referirse a la diferencia entre los valores ajustados que obtenemos de nuestro modelo y los valores observados (la discrepancia puede deberse a un modelo bastante parsimonioso, por ejemplo). "Error" también podría significar la diferencia entre los valores observados y los valores verdaderos (la discrepancia puede deberse, por ejemplo, al dispositivo que utiliza para medir los redondeos de valores al entero más cercano / décimo decimal / etc.). [El primer tipo es donde escucharía términos como "residuos / varianza residual"].
@Macro Sí, esto me parece una forma natural de pensar en el error. Sin embargo, estoy tratando de entender por qué el profesor insistió en una definición más estricta (pensar que es aplicable a cada individuo a pesar de que sabemos en realidad, no es cierto).
Dominic Comtois
@MikeWierzbicki Derecha. Y si entiendo correctamente, todo esto se agrupa en el punto de vista "estricto". Lo que significa que toda la diferencia entre los valores observados y los pronosticados proviene del error de medición, ya que nuestro modelo "tiene que ser cierto".
Dominic Comtois

Respuestas:

2

Si hay aspectos de individuos que tienen un efecto en los valores y resultantes, entonces hay alguna forma de llegar a esos aspectos (en cuyo caso deberían ser parte del predictor x), o no hay forma de llegar a eso información.

Si no hay forma de obtener esta información y no hay forma de medir repetidamente los valores y para las personas, entonces realmente no importa. Si puede medir y repetidamente, y si su conjunto de datos contiene mediciones repetidas para algunas personas, entonces tiene un problema potencial en sus manos, ya que la teoría estadística supone la independencia de los errores / residuos de medición.

Por ejemplo, suponga que está intentando ajustar un modelo del formulario

y=β0+β1x ,

y que para cada individuo,

yind=100+10x+z ,

donde z depende del individuo y normalmente se distribuye con media 0 y desviación estándar 10. Para cada medición repetida de un individuo,

ymeas=100+10x+z+e ,

e normalmente se distribuye con media 0 y desviación estándar 0.1.

Podrías intentar modelar esto como

y=β0+β1x+ϵ ,

ϵ

σ=102+0.12=100.01

Siempre y cuando solo tenga una medida para cada individuo, eso estaría bien. Sin embargo, si tiene múltiples mediciones para el mismo individuo, ¡sus residuos ya no serán independientes!

β0=100β1=10χ2

Brian Borchers
fuente
Traté de evitar el uso del término aterrador "modelado multinivel" en mi respuesta, pero debe tener en cuenta que en algunos casos proporciona una manera de lidiar con este tipo de situación.
Brian Borchers,
1

Creo que "error" se describe mejor como "la parte de las observaciones que es impredecible dada nuestra información actual". Intentar pensar en términos de población versus muestra conduce a problemas conceptuales (bueno, de todos modos lo hace para mí), al igual que pensar en los errores como "puramente aleatorios" extraídos de alguna distribución. pensar en términos de predicción y "previsibilidad" tiene mucho más sentido para mí.

p(e1,,en)E(1ni=1nei2)=σ2σ2σ .

n

probabilidadislogica
fuente
σ2
p(e1,,en)1
Y una estrecha divergencia media kl i se reduce al mínimo
probabilityislogic
El dilema no es entre muestra y población. Se trata de pensar en el error como aplicable a los individuos frente a la muestra / población.
Dominic Comtois
1

No estoy de acuerdo con la formulación del profesor de esto. Como usted dice, la idea de que la varianza es la misma para cada individuo implica que el término de error representa solo un error de medición. Esto no suele ser cómo se construye el modelo básico de regresión múltiple. Además, como usted dice, la varianza se define para un grupo (ya sea un grupo de sujetos individuales o un grupo de mediciones). No se aplica a nivel individual, a menos que tenga medidas repetidas.

Debe completarse un modelo en el sentido de que el término de error no debe contener influencias de ninguna variable que esté correlacionada con los predictores. La suposición es que el término de error es independiente de los predictores. Si se omite alguna variable correlacionada, obtendrá coeficientes sesgados (esto se denomina sesgo de variable omitida ).

Anne Z.
fuente
No entiendo muy bien esta respuesta. parece reconocer la diferencia entre el error debido a la falta de ajuste y el error aleatorio, pero la última pregunta retórica parece confusa. Desde una perspectiva puramente formal, esencialmente cualquier inferencia hecha con respecto a un modelo de regresión depende de supuestos muy explícitos sobre la estructura del ruido.
cardenal
1
Mi punto es que, en muchos casos, el propósito del modelado de regresión es descubrir qué sucede incluso cuando no conocemos todas las causas de un resultado en particular. Pero como parece poco claro, eliminaré esa pregunta.
Anne Z.
Gracias. El punto en tu comentario es bueno. La pregunta anterior que usted dijo podría leerse como cuestionando toda la base sobre la cual descansa la teoría de la regresión. :)
cardenal
Estoy de acuerdo con usted en su desacuerdo (¡de ahí mi pregunta!), Y el sesgo variable omitido es bastante relevante para el problema. Gracias.
Dominic Comtois