¿Es un predictor con mayor varianza "mejor"?

13

Tengo una pregunta conceptual sobre "estadísticas básicas". Como estudiante, me gustaría saber si estoy pensando en esto totalmente mal y por qué, si es así:

Digamos que estoy tratando hipotéticamente de ver la relación entre "problemas de manejo de la ira" y decir divorcio (sí / no) en una regresión logística y tengo la opción de usar dos puntajes diferentes de manejo de la ira, ambos de 100.
Puntuación 1 proviene del cuestionario de calificación del instrumento 1 y mi otra opción; la puntuación 2 proviene de un cuestionario diferente. Hipotéticamente, tenemos razones para creer de trabajos anteriores que los problemas de manejo de la ira dan lugar al divorcio.
Si, en mi muestra de 500 personas, la varianza del puntaje 1 es mucho más alta que la del puntaje 2, ¿hay alguna razón para creer que el puntaje 1 sería un mejor puntaje para usar como un predictor de divorcio basado en su varianza?

Para mí, esto parece instintivamente correcto, pero ¿es así?

regression logistic N26
fuente

Pregunta interesante, creo que la respuesta de Whuber lo explica perfectamente. Mi primera respuesta a la pregunta fue: 'una mayor varianza no implica una mayor información discriminatoria de clase'.

Zhubarb

11

Algunos puntos rápidos:

La variación puede aumentarse o disminuirse arbitrariamente adoptando una escala diferente para su variable. Multiplicar una escala por una constante mayor que uno aumentaría la varianza, pero no cambiaría el poder predictivo de la variable.
Puede confundir la varianza con la confiabilidad. Todo lo demás es igual (y suponiendo que haya al menos alguna predicción de puntaje real), aumentar la confiabilidad con la que se mide una construcción debería aumentar su poder predictivo. Echa un vistazo a esta discusión sobre la corrección por atenuación .
Suponiendo que ambas escalas estuvieran formadas por veinte ítems de 5 puntos y, por lo tanto, tuvieran puntajes totales que oscilaban entre 20 y 100, la versión con la mayor varianza también sería más confiable (al menos en términos de consistencia interna).
La confiabilidad de la consistencia interna no es el único estándar por el cual juzgar una prueba psicológica, y no es el único factor que distingue el poder predictivo de una escala frente a otra para un constructo dado.

Jeromy Anglim
fuente

9

Un ejemplo simple nos ayuda a identificar lo que es esencial.

Deje

Y = C + γ X_{1} + ε

$Y = C + \gamma X_1 + \varepsilon$

donde y son parámetros, es la puntuación en el primer instrumento (o variable independiente), y representa un error imparcial de iid. Deje que la puntuación en el segundo instrumento esté relacionada con el primero a través de $C$ $\gamma$ $X_1$ $\varepsilon$

X_{1} = α X_{2} + β .

$X_1 = \alpha X_2 + \beta.$

Por ejemplo, los puntajes en el segundo instrumento pueden variar de 25 a 75 y los puntajes en el primero de 0 a 100, con . La varianza de es veces la varianza de . Sin embargo, podemos reescribir $X_1 = 2 X_2 - 50$ $X_1$ $\alpha^2$ $X_2$

Y = C + γ (α X_{2} + β) = (C + β γ) + (γ α) X_{2} + ε = C^{'} + γ^{'} X_{2} + ε .

$Y = C + \gamma(\alpha X_2 + \beta) = (C + \beta \gamma) + (\gamma \alpha) X_2 + \varepsilon = C' + \gamma' X_2 + \varepsilon.$

Los parámetros cambian y la varianza de la variable independiente cambia , pero la capacidad predictiva del modelo permanece sin cambios .

$X_1$ $X_2$ $Y$ $Y$ $X_i$

$X_1$ $X_2$ $Y$ $Y$ $X_1$ $X_2$ $X_2$

whuber
fuente

1

¡Siempre revise los supuestos para la prueba estadística que está usando!

Una de las suposiciones de la regresión logística es la independencia de los errores, lo que significa que los casos de datos no deberían estar relacionados. P.ej. no puedes medir a las mismas personas en diferentes momentos, lo que temo que hayas hecho con tus encuestas de manejo de la ira.

También me preocuparía que con 2 encuestas de manejo de la ira básicamente se está midiendo lo mismo y su análisis podría sufrir multicolinealidad.

Parbury
fuente

1

Creo que N26 sugiere un experimento mental. Es decir, si al diseñar un estudio puede elegir entre dos escalas, si prefiere, prima facie, la que tiene la mayor varianza. Además, tener dos predictores que representan la misma construcción, pero se miden de manera diferente no viola el supuesto de independencia de las observaciones.

Jeromy Anglim

¿Es un predictor con mayor varianza "mejor"?

Respuestas: