Tengo un conjunto de datos con un conjunto de características. Algunos de ellos son binarios activo o disparado, 0 = inactivo o inactivo), y el resto son de valor real, por ejemplo, 4564.342 .
Quiero alimentar estos datos a un algoritmo de aprendizaje automático, por lo que puntúo en todas las características de valor real. Los obtengo entre los rangos 3 y - 2 aproximadamente. Ahora los valores binarios son también z -scored, por lo tanto, los ceros se convierten - 0,222 y los convierten en 0,5555 .
¿Tiene sentido estandarizar variables binarias como esta?
Una variable binaria con valores 0, 1 puede (generalmente) escalarse a (valor - media) / SD, que presumiblemente es su puntaje z.
La restricción más obvia es que si obtienes todos los ceros o todos, entonces enchufar SD a ciegas significaría que la puntuación z es indeterminada. También hay un caso para asignar cero en la medida en que el valor: la media es idénticamente cero. Pero muchas cosas estadísticas no tendrán mucho sentido si una variable es realmente una constante. Sin embargo, de manera más general, si la DE es pequeña, existe un mayor riesgo de que los puntajes sean inestables y / o no estén bien determinados.
Un problema sobre dar una mejor respuesta a su pregunta es precisamente qué "algoritmo de aprendizaje automático" está considerando. Parece que es un algoritmo que combina datos para varias variables, por lo que generalmente tendrá sentido proporcionarlos en escalas similares.
(MÁS TARDE) A medida que el póster original agrega comentarios uno por uno, su pregunta se está transformando. Todavía considero que (valor - media) / SD tiene sentido (es decir, no tiene sentido) para las variables binarias siempre que la SD sea positiva. Sin embargo, la regresión logística se denominó más tarde como la aplicación y para esto no hay ganancia teórica o práctica (y, de hecho, alguna pérdida de simplicidad) a otra cosa que no sea alimentar en variables binarias como 0, 1. Su software debería ser capaz de hacer frente bien ese; si no, abandone ese software a favor de un programa que pueda. En términos de la pregunta del título: can, yes; debería, no.
fuente
En la sección 4.2 de Gelman y Hill ( http://www.stat.columbia.edu/~gelman/arm/ ) se ofrece un buen ejemplo en el que puede ser útil estandarizar de una manera ligeramente diferente . Esto es principalmente cuando la interpretación de los coeficientes es de interés, y tal vez cuando no hay muchos predictores.
fuente
¿Qué desea estandarizar, una variable aleatoria binaria o una proporción?
fuente
En la regresión logística, las variables binarias se pueden estandarizar para combinarlas con variables continuas cuando se desea dar a todas ellas una información previa no informativa como N ~ (0,5) o Cauchy ~ (0,5). Se recomienda que la estandarización sea la siguiente: tome el recuento total y dé
1 = proporción de 1
0 = 1 - proporción de 1's.
-----
Editar: En realidad, no tenía razón en absoluto, no es una estandarización, sino un cambio para centrarse en 0 y diferir en 1 en la condición inferior y superior, digamos que una población es 30% con la compañía A y 70% otra, podemos definir la variable centrada "Empresa A" para tomar los valores -0.3 y 0.7.
fuente