Tengo una pregunta conceptual sobre "estadísticas básicas". Como estudiante, me gustaría saber si estoy pensando en esto totalmente mal y por qué, si es así:
Digamos que estoy tratando hipotéticamente de ver la relación entre "problemas de manejo de la ira" y decir divorcio (sí / no) en una regresión logística y tengo la opción de usar dos puntajes diferentes de manejo de la ira, ambos de 100.
Puntuación 1 proviene del cuestionario de calificación del instrumento 1 y mi otra opción; la puntuación 2 proviene de un cuestionario diferente. Hipotéticamente, tenemos razones para creer de trabajos anteriores que los problemas de manejo de la ira dan lugar al divorcio.
Si, en mi muestra de 500 personas, la varianza del puntaje 1 es mucho más alta que la del puntaje 2, ¿hay alguna razón para creer que el puntaje 1 sería un mejor puntaje para usar como un predictor de divorcio basado en su varianza?
Para mí, esto parece instintivamente correcto, pero ¿es así?
fuente
Respuestas:
Algunos puntos rápidos:
fuente
Un ejemplo simple nos ayuda a identificar lo que es esencial.
Deje
donde y γ son parámetros, X 1 es la puntuación en el primer instrumento (o variable independiente), y ε representa un error imparcial de iid. Deje que la puntuación en el segundo instrumento esté relacionada con el primero a través deC γ X1 ε
Por ejemplo, los puntajes en el segundo instrumento pueden variar de 25 a 75 y los puntajes en el primero de 0 a 100, con . La varianza de X 1 es α 2 veces la varianza de X 2 . Sin embargo, podemos reescribirX1=2X2−50 X1 α2 X2
Los parámetros cambian y la varianza de la variable independiente cambia , pero la capacidad predictiva del modelo permanece sin cambios .
fuente
¡Siempre revise los supuestos para la prueba estadística que está usando!
Una de las suposiciones de la regresión logística es la independencia de los errores, lo que significa que los casos de datos no deberían estar relacionados. P.ej. no puedes medir a las mismas personas en diferentes momentos, lo que temo que hayas hecho con tus encuestas de manejo de la ira.
También me preocuparía que con 2 encuestas de manejo de la ira básicamente se está midiendo lo mismo y su análisis podría sufrir multicolinealidad.
fuente