Tengo un conjunto de datos que contiene variables categóricas y variables continuas. Se me aconsejó transformar las variables categóricas como variables binarias para cada nivel (es decir, A_level1: {0,1}, A_level2: {0,1}). Creo que algunos han llamado a esto "variables ficticias".
Dicho esto, ¿sería engañoso centrar y escalar todo el conjunto de datos con las nuevas variables? Parece que perdería el significado de "encendido / apagado" de las variables.
Si es engañoso, ¿eso significa que debo centrar y escalar las variables continuas por separado y luego volver a agregarlas a mi conjunto de datos?
TIA
categorical-data
data-transformation
centering
usuario2300643
fuente
fuente
Respuestas:
Al construir variables ficticias para su uso en análisis de regresión, cada categoría en una variable categórica, excepto una, debería obtener una variable binaria. Por lo tanto, debe tener, por ejemplo, A_level2, A_level3, etc. Una de las categorías no debe tener una variable binaria, y esta categoría servirá como categoría de referencia. Si no omite una de las categorías, sus análisis de regresión no se ejecutarán correctamente.
Si usa SPSS o R, no creo que la escala y el centrado de todo el conjunto de datos generalmente sean un problema ya que esos paquetes de software a menudo interpretan variables con solo dos niveles como factores, pero puede depender de los métodos estadísticos específicos utilizados . En cualquier caso, no tiene sentido escalar y centrar variables binarias (o categóricas), por lo que solo debe centrar y escalar variables continuas si debe hacerlo.
fuente
Si usa R y escala las variables ficticias o las variables que tienen 0 o 1 a una escala entre 0 y 1 solamente, entonces no habrá ningún cambio en los valores de estas variables, el resto de las columnas se escalarán.
fuente
El punto del centrado medio en la regresión es hacer que la intersección sea más interpretable. Es decir, si quiere decir centrar todas las variables en su modelo de regresión, entonces la intercepción (llamada constante en la salida de SPSS) es igual a la gran media general para su variable de resultado. Lo cual puede ser conveniente al interpretar el modelo final.
En cuanto a las variables ficticias de centrado medio, acabo de conversar con un profesor mío sobre las variables ficticias de centrado medio en un modelo de regresión (en mi caso, un modelo multinivel de diseño de bloques al azar con 3 niveles) y mi conclusión fue que centrar las variables ficticias en realidad no cambian la interpretación de los coeficientes de regresión (excepto que la solución está completamente estandarizada). Por lo general, no es necesario en la regresión interpretar el valor centrado medio del nivel de unidad real, solo los coeficientes. Y esto esencialmente no cambia, en su mayor parte. Ella dijo que cambia ligeramente porque está estandarizado, lo que, para los tontos, no es tan intuitivo de entender.
Advertencia: Eso fue lo que entendí cuando salí de la oficina de mi profesor. Podría, por supuesto, haberme equivocado.
fuente