Asisto a una clase de análisis de datos y algunas de mis ideas bien enraizadas están siendo sacudidas. A saber, la idea de que el error (épsilon), así como cualquier otro tipo de variación, solo se aplica (por lo que pensé) a un grupo (una muestra o población completa). Ahora, se nos enseña que uno de los supuestos de regresión es que la varianza es "la misma para todos los individuos". Esto es de alguna manera impactante para mí. Siempre pensé que se suponía que era la varianza en Y entre todos los valores de X que era constante.
Tuve una conversación con el profesor, quien me dijo que cuando hacemos una regresión, asumimos que nuestro modelo es verdadero. Y creo que esa es la parte difícil. Para mí, el término de error (épsilon) siempre significó algo así como "cualquier elemento que no conozcamos y que pueda afectar nuestra variable de resultado, más algún error de medición". En la forma en que se enseña la clase, no existe tal cosa como "otras cosas"; Se supone que nuestro modelo es verdadero y completo. Esto significa que toda variación residual debe considerarse como un producto del error de medición (por lo tanto, se espera que medir a un individuo 20 veces produzca la misma variación que medir 20 individuos una vez).
Siento que algo está mal en alguna parte, me gustaría tener una opinión experta sobre esto ... ¿Hay algún lugar para la interpretación de cuál es el término de error, conceptualmente hablando?
fuente
Respuestas:
Si hay aspectos de individuos que tienen un efecto en los valores y resultantes, entonces hay alguna forma de llegar a esos aspectos (en cuyo caso deberían ser parte del predictor x), o no hay forma de llegar a eso información.
Si no hay forma de obtener esta información y no hay forma de medir repetidamente los valores y para las personas, entonces realmente no importa. Si puede medir y repetidamente, y si su conjunto de datos contiene mediciones repetidas para algunas personas, entonces tiene un problema potencial en sus manos, ya que la teoría estadística supone la independencia de los errores / residuos de medición.
Por ejemplo, suponga que está intentando ajustar un modelo del formulario
y que para cada individuo,
donde z depende del individuo y normalmente se distribuye con media 0 y desviación estándar 10. Para cada medición repetida de un individuo,
Podrías intentar modelar esto como
Siempre y cuando solo tenga una medida para cada individuo, eso estaría bien. Sin embargo, si tiene múltiples mediciones para el mismo individuo, ¡sus residuos ya no serán independientes!
fuente
Creo que "error" se describe mejor como "la parte de las observaciones que es impredecible dada nuestra información actual". Intentar pensar en términos de población versus muestra conduce a problemas conceptuales (bueno, de todos modos lo hace para mí), al igual que pensar en los errores como "puramente aleatorios" extraídos de alguna distribución. pensar en términos de predicción y "previsibilidad" tiene mucho más sentido para mí.
fuente
Aquí hay un enlace muy útil para explicar la regresión lineal simple: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html tal vez pueda ayudar a comprender el concepto de "error".
FD
fuente
No estoy de acuerdo con la formulación del profesor de esto. Como usted dice, la idea de que la varianza es la misma para cada individuo implica que el término de error representa solo un error de medición. Esto no suele ser cómo se construye el modelo básico de regresión múltiple. Además, como usted dice, la varianza se define para un grupo (ya sea un grupo de sujetos individuales o un grupo de mediciones). No se aplica a nivel individual, a menos que tenga medidas repetidas.
Debe completarse un modelo en el sentido de que el término de error no debe contener influencias de ninguna variable que esté correlacionada con los predictores. La suposición es que el término de error es independiente de los predictores. Si se omite alguna variable correlacionada, obtendrá coeficientes sesgados (esto se denomina sesgo de variable omitida ).
fuente