En general, estandarizo mis variables independientes en regresiones, para comparar adecuadamente los coeficientes (de esta manera tienen las mismas unidades: desviaciones estándar). Sin embargo, con datos de panel / longitudinales, no estoy seguro de cómo debería estandarizar mis datos, especialmente si calculo un modelo jerárquico.
Para ver por qué puede ser un problema potencial, suponga que tiene individuos medidos a lo largo de períodos y midió una variable dependiente, y una variable independiente . Si ejecuta una regresión de agrupación completa, entonces está bien estandarizar sus datos de esta manera: , ya que no cambiará t- estadística. Por otro lado, si ajusta una regresión no agrupada, es decir, una regresión para cada individuo, entonces debería estandarizar sus datos solo por individuo, no por todo el conjunto de datos (en el código R):
for (i in 1:n) {
for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,])
}
Sin embargo, si ajusta un modelo jerárquico simple con una intercepción variable por individuos, entonces está utilizando un estimador de contracción, es decir, está estimando un modelo entre regresión agrupada y no agrupada. ¿Cómo debo estandarizar mis datos? ¿Usando todos los datos como una regresión agrupada? ¿Usando solo individuos, como en el caso no agrupado?
fuente
Existe una alternativa a la estandarización para llevar las variables medidas con diferentes escalas a la misma métrica. Se llama Proporción de escala máxima (POMS), y no muere con las distribuciones multivariadas como suele ocurrir con la transformación z.
Todd Little recomienda explícitamente POMS sobre la estandarización z en su libro sobre modelado de ecuaciones estructurales longitudinales. La transformación Z viene con problemas adicionales cuando se trata con datos longitudinales, consulte aquí: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/
fuente