¿Es una buena práctica estandarizar sus datos en una regresión con datos de panel / longitudinales?

16

En general, estandarizo mis variables independientes en regresiones, para comparar adecuadamente los coeficientes (de esta manera tienen las mismas unidades: desviaciones estándar). Sin embargo, con datos de panel / longitudinales, no estoy seguro de cómo debería estandarizar mis datos, especialmente si calculo un modelo jerárquico.

Para ver por qué puede ser un problema potencial, suponga que tiene individuos medidos a lo largo de períodos y midió una variable dependiente, y una variable independiente . Si ejecuta una regresión de agrupación completa, entonces está bien estandarizar sus datos de esta manera: , ya que no cambiará t- estadística. Por otro lado, si ajusta una regresión no agrupada, es decir, una regresión para cada individuo, entonces debería estandarizar sus datos solo por individuo, no por todo el conjunto de datos (en el código R):i=1,,nt=1,,Tyi,txi,tx.z=(xmean(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Sin embargo, si ajusta un modelo jerárquico simple con una intercepción variable por individuos, entonces está utilizando un estimador de contracción, es decir, está estimando un modelo entre regresión agrupada y no agrupada. ¿Cómo debo estandarizar mis datos? ¿Usando todos los datos como una regresión agrupada? ¿Usando solo individuos, como en el caso no agrupado?

Manoel Galdino
fuente

Respuestas:

10

No puedo ver que la estandarización sea una buena idea en una regresión ordinaria o con un modelo longitudinal. Hace que las predicciones sean más difíciles de obtener y, por lo general, no resuelve un problema que necesita solución. Y qué pasa si tienes y x 2 en el modelo. ¿Cómo estandarizas x 2 ? ¿Qué pasa si tiene una variable continua y una variable binaria en el modelo? ¿Cómo se estandariza la variable binaria? Ciertamente no por su desviación estándar, lo que causaría que las variables de baja prevalencia tuvieran mayor importancia.xx2x2

En general, es mejor interpretar los efectos del modelo en la escala original de .x

Frank Harrell
fuente
@ Frank Harrell: buenos puntos sobre los problemas asociados con las condiciones que delineas, pero si uno tiene todas las variables continuas con diferentes escalas, ¿no es la estandarización la única forma de comparar pendientes?
DQdlM
1
@ Frank, supongo que depende del tipo de modelos que esté ejecutando, pero la estandarización de las variables predictoras suele ser útil. Centrarlos significa que la intercepción se vuelve interpretable como el resultado medio pronosticado y la importancia relativa de los diferentes predictores se vuelve más obvia. Por lo general, dejo solo los predictores binarios, pero a veces vale la pena considerar otras opciones de escala. Finalmente, en algunos casos tener predictores con desviaciones estándar muy diferentes puede conducir a problemas computacionales / de convergencia.
Michael Bishop
2
No tengo claro cómo esa estandarización agrega claridad en lugar de restarla. Además, la media no es la opción obvia para centrar (mediana? Modo? Percentil 43? Elección de medida de dispersión es aún más problemático) La importancia relativa se puede juzgar de muchas maneras, por ejemplo, parcialR2χ2
1
Si tiene variables binarias, no las estandarice, solo una continua. Consulte este artículo de Gelman (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >, que sugiere dividir las variables entre dos desviaciones estándar. En cualquier caso, ayuda a lograr la convergencia si está ajustando un modelo bayesiano.
Manoel Galdino
xx2
0

Existe una alternativa a la estandarización para llevar las variables medidas con diferentes escalas a la misma métrica. Se llama Proporción de escala máxima (POMS), y no muere con las distribuciones multivariadas como suele ocurrir con la transformación z.

Todd Little recomienda explícitamente POMS sobre la estandarización z en su libro sobre modelado de ecuaciones estructurales longitudinales. La transformación Z viene con problemas adicionales cuando se trata con datos longitudinales, consulte aquí: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

usuario142548
fuente