¿Por qué algunas personas prueban los supuestos del modelo similar a la regresión en sus datos sin procesar y otras personas los prueban en el residual?

12

Soy un estudiante de doctorado en psicología experimental y me esfuerzo por mejorar mis habilidades y conocimientos sobre cómo analizar mis datos.

Hasta mi quinto año en psicología, pensé que los modelos de regresión (por ejemplo, ANOVA) suponen lo siguiente:

  • normalidad de los datos
  • homogeneidad de varianza para los datos, etc.

Mis cursos de pregrado me llevan a creer que las suposiciones se referían a los datos. Sin embargo, en mi quinto año, algunos de mis instructores subrayaron el hecho de que los supuestos se refieren al error (estimado por los residuos) y no a los datos sin procesar.

Recientemente estuve hablando sobre la pregunta de los supuestos con algunos de mis colegas que también admitieron que descubrieron la importancia de verificar los supuestos sobre el residuo solo en sus últimos años de universidad.

Si entiendo bien, los modelos de regresión hacen suposiciones sobre el error. Por lo tanto, tiene sentido verificar los supuestos sobre los residuos. Si es así, ¿por qué algunas personas verifican los supuestos sobre los datos sin procesar? ¿Es porque dicho procedimiento de verificación se aproxima a lo que obtendríamos al verificar el residual?

Me interesaría mucho en una discusión sobre este tema con algunas personas que tienen un conocimiento más preciso que mis colegas y yo. Les agradezco de antemano sus respuestas.

Psychokwak
fuente

Respuestas:

13

Básicamente, estás en el camino correcto. Encontrará una discusión sobre el aspecto de la normalidad en Normalidad de la variable dependiente = normalidad de los residuos?

Algunas suposiciones del modelo lineal clásico son, de hecho, acerca de errores (usando residuos como realizaciones de ellos):

  • ¿No están correlacionados? (Relevante para la inferencia y la optimización de los estimadores OLS)
  • ¿Tienen la misma varianza? (Relevante para la inferencia y la optimización de los estimadores OLS)
  • ¿Están centrados alrededor de 0? (Supuesto clave para obtener estimadores y predicciones imparciales)
  • Si la muestra es muy pequeña: ¿son normales o al menos simétricamente distribuidas? (Relevante para inferencia)

Otras condiciones son sobre "datos en bruto":

  • ¿No hay valores atípicos en los regresores? (Las observaciones de alto apalancamiento pueden destruir todo el modelo)
  • ¿No hay multicolinealidad perfecta? (Causaría problemas computacionales, al menos en algunos paquetes de software)

Ahora, tu maestro de pregrado también podría estar en lo correcto:

  • Quizás te estabas enfocando en pruebas univariadas como la prueba t de una muestra. Allí, las suposiciones son sobre los datos sin procesar.
  • Si el es bastante bajo y la variable de respuesta parece todo menos normal, entonces lo mismo probablemente también sea cierto para los residuos.R2
  • ¿Cómo verificaría la homocedasticidad, etc. en función de los datos sin procesar? Tal vez lo malinterpretaste.
Michael M
fuente
Ok, muchas gracias por tu respuesta y por el enlace que es muy útil. Algunos de mis colegas y yo creíamos hasta hace poco que los datos sin procesar debían tener variaciones iguales. Como dijiste, tal vez nos perdimos algo en nuestros cursos. En algún libro podemos leer lo siguiente:
Psychokwak
"Los procedimientos estadísticos más comunes hacen dos suposiciones que son relevantes para este tema: (a) una suposición de que las variables (o sus términos de error, más técnicamente) están normalmente distribuidas, y (b) una suposición de igualdad de varianza (homocedasticidad u homogeneidad) de varianza), lo que significa que la varianza de la variable permanece constante sobre el rango observado de alguna otra variable ". ¿Significa que cuando uno habla de "variable" él o ella habla sistemáticamente de "sus términos de error"? Si es así, estoy de acuerdo con eso, pero sin mencionarlo explícitamente, está lejos de ser obvio (al menos para mí).
Psychokwak
Finalmente, tengo una última pregunta sobre sus respuestas. Si la prueba t y ANOVA son casos particulares de la regresión, ¿por qué los supuestos se refieren a los datos en una prueba t de una muestra? Gracias nuevamente por su útil respuesta.
Psychokwak
1
Para responder a su último comentario: La prueba t de una muestra también se puede ver como un caso especial de regresión. El modelo simplemente consiste en la intersección (= media) y el término de error, es decir, la respuesta es un error desplazado. Dado que los cambios son irrelevantes para cualquier suposición, es equivalente hablar de datos o residuos.
Michael M
4

Encuentro inútil la diferenciación entre los residuos y los datos sin procesar, ya que ambos se refieren más a su muestra real y no a la distribución de la población subyacente. Es mejor pensar que algunos requisitos son "requisitos dentro del grupo" y otros "entre supuestos grupales".

Por ejemplo, la homogeneidad de la varianza es una "suposición entre grupos", ya que dice que la varianza dentro del grupo es la misma para todos los grupos.

La normalidad es una suposición "dentro del grupo" que requiere que dentro de cada grupo y se distribuya normalmente.

Tenga en cuenta que tener normalidad en toda su materia prima generalmente significa que no tiene ningún efecto: observe la distribución de género sin diferenciar entre mujeres y hombres. No se distribuirá normalmente, debido al fuerte efecto de género. Pero dentro de cada género se mantiene bastante bien.

Erik
fuente
1
Gracias por tu respuesta también. Es una forma interesante de ver la pregunta. Nunca había pensado en la normalidad de esa manera (es decir, "que tener normalidad sobre [la] materia prima entera generalmente significa [que] no tenemos ningún efecto").
Psychokwak