Estaba asesorando a un estudiante de investigación con un problema particular, y estaba ansioso por obtener la opinión de otros en este sitio.
Contexto:
El investigador tenía tres tipos de variables predictoras. Cada tipo contenía un número diferente de variables predictoras. Cada predictor era una variable continua:
- Social: S1, S2, S3, S4 (es decir, cuatro predictores)
- Cognitivo: C1, C2 (es decir, dos predictores)
- Comportamiento: B1, B2, B3 (es decir, tres predictores)
La variable de resultado también fue continua. La muestra incluyó alrededor de 60 participantes.
El investigador quería comentar sobre qué tipo de predictores eran más importantes para explicar la variable de resultado. Esto se relacionó con preocupaciones teóricas más amplias sobre la importancia relativa de este tipo de predictores.
Preguntas
- ¿Cuál es una buena manera de evaluar la importancia relativa de un conjunto de predictores en relación con otro conjunto?
- ¿Cuál es una buena estrategia para lidiar con el hecho de que hay diferentes números de predictores en cada conjunto?
- ¿Qué advertencias en la interpretación podría sugerir?
Cualquier referencia a ejemplos o discusión de técnicas también sería bienvenida.
fuente
Sugerencias
Advertencias
fuente
Importancia
Lo primero que debe hacer es operacionalizar la "importancia de los predictores". Asumiré que significa algo así como 'sensibilidad del resultado medio a los cambios en los valores predictores'. Dado que sus predictores están agrupados, la sensibilidad del resultado medio a los grupos de predictores es más interesante que una variable por análisis variable. Lo dejo abierto si la sensibilidad se entiende causalmente. Ese problema se retoma más tarde.
Tres versiones de importancia
Mucha variación explicada : supongo que el primer puerto de atención de los psicólogos es probablemente una descomposición de la varianza que conduce a una medida de cuánta varianza del resultado se explica por la estructura de covarianza de la varianza en cada grupo de predictores. Al no ser un experimentalista, no puedo sugerir mucho aquí, excepto para notar que todo el concepto de "explicación de varianza" es un poco infundado para mi gusto, incluso sin el problema de "qué suma de cuadrados". Otros son bienvenidos para estar en desacuerdo y desarrollarlo más.
Grandes coeficientes estandarizados : SPSS ofrece la beta (mal nombrada) para medir el impacto de una manera comparable a través de la variable. Hay varias razones para no usar esto, discutidas en el libro de texto de regresión de Fox, aquí y en otros lugares. Todos aplican aquí. También ignora la estructura del grupo.
Por otro lado, me imagino que uno podría estandarizar predictores en grupos y usar información de covarianza para juzgar el efecto de un movimiento de desviación estándar en todos ellos. Personalmente, el lema: "si algo que no vale la pena hacer, no vale la pena hacerlo bien" reduce mi interés en hacerlo.
Grandes efectos marginales : el otro enfoque es mantenerse en la escala de las mediciones y calcular los efectos marginales entre los puntos de muestra cuidadosamente seleccionados. Debido a que le interesan los grupos, es útil elegir puntos para variar grupos de variables en lugar de individuales, por ejemplo, manipular ambas variables cognitivas a la vez. (Muchas oportunidades para parcelas geniales aquí). Documento básico aquí . El
effects
paquete en R hará esto muy bien.Hay dos advertencias aquí:
Si lo hace, querrá tener cuidado de no elegir dos variables cognitivas que, aunque sean plausibles individualmente, por ejemplo, medianas, estén lejos de cualquier observación de los sujetos.
Algunas variables ni siquiera son manipulables teóricamente, por lo que la interpretación de los efectos marginales como causales es más delicada, aunque sigue siendo útil.
Diferentes números de predictores
Los problemas surgen debido a la estructura de covarianza de las variables agrupadas, que normalmente tratamos de no preocuparnos, pero para esta tarea deberíamos hacerlo.
En particular, al calcular los efectos marginales (o coeficientes estandarizados para esa materia) en grupos en lugar de variables individuales, la maldición de la dimensionalidad para grupos más grandes facilitará que las comparaciones se desvíen hacia regiones donde no hay casos. Más predictores en un grupo conducen a un espacio menos poblado, por lo que cualquier medida de importancia dependerá más de los supuestos del modelo y menos de las observaciones (pero no le dirá eso ...) Pero estos son los mismos problemas que en la fase de ajuste del modelo De Verdad. Ciertamente, los mismos que surgirían en una evaluación de impacto causal basada en el modelo.
fuente
Un método es combinar los conjuntos de variables en variables de fajo. Este método se ha utilizado ampliamente en sociología y áreas relacionadas.
Refs:
Whitt, Hugh P. 1986. "El coeficiente de la gavilla: un enfoque simplificado y ampliado". Social Science Research 15: 174-189.
fuente