25

Tengo un conjunto de datos con un conjunto de características. Algunos de ellos son binarios activo o disparado, inactivo o inactivo), y el resto son de valor real, por ejemplo, . $(1=$ $0=$ $4564.342$

Quiero alimentar estos datos a un algoritmo de aprendizaje automático, por lo que puntúo en todas las características de valor real. Los obtengo entre los rangos y aproximadamente. Ahora los valores binarios son también -scored, por lo tanto, los ceros se convierten y los convierten en . $z$ $3$ $-2$ $z$ $-0.222$ $0.5555$

¿Tiene sentido estandarizar variables binarias como esta?

machine-learning normalization binary-data siamii
fuente

14

Estandarizar variables binarias no tiene ningún sentido. Los valores son arbitrarios; no significan nada en sí mismos. Puede haber una razón para elegir algunos valores como 0 y 1, con respecto a los problemas de estabilidad numérica, pero eso es todo.

gung - Restablece a Monica
fuente

¿Qué pasaría si estuvieran entre 0-100? Como dije, significan cosas como "cara reconocida" y "cara no reconocida", y 0-100 significa el nivel de confianza. ¿Tiene sentido z-score eso?

siamii

Su ejemplo de 0-100 suena como una calificación ordinal. Hay un poco de detalle sobre cómo tratar mejor con esa situación y se ha discutido bastante en CV. Busque en la etiqueta ordinal para obtener más información.

gung - Restablece a Monica

bueno, el problema es que solo algunas de las variables son 0-100. Otros son, por ejemplo, -400 - +400

siamii

¿Cuál es el problema con eso? ¿Es este un problema de estabilidad numérica?

gung - Restablece a Monica

tal vez, ¿sugieres que no haga z-score?

siamii

14

Una variable binaria con valores 0, 1 puede (generalmente) escalarse a (valor - media) / SD, que presumiblemente es su puntaje z.

La restricción más obvia es que si obtienes todos los ceros o todos, entonces enchufar SD a ciegas significaría que la puntuación z es indeterminada. También hay un caso para asignar cero en la medida en que el valor: la media es idénticamente cero. Pero muchas cosas estadísticas no tendrán mucho sentido si una variable es realmente una constante. Sin embargo, de manera más general, si la DE es pequeña, existe un mayor riesgo de que los puntajes sean inestables y / o no estén bien determinados.

Un problema sobre dar una mejor respuesta a su pregunta es precisamente qué "algoritmo de aprendizaje automático" está considerando. Parece que es un algoritmo que combina datos para varias variables, por lo que generalmente tendrá sentido proporcionarlos en escalas similares.

(MÁS TARDE) A medida que el póster original agrega comentarios uno por uno, su pregunta se está transformando. Todavía considero que (valor - media) / SD tiene sentido (es decir, no tiene sentido) para las variables binarias siempre que la SD sea positiva. Sin embargo, la regresión logística se denominó más tarde como la aplicación y para esto no hay ganancia teórica o práctica (y, de hecho, alguna pérdida de simplicidad) a otra cosa que no sea alimentar en variables binarias como 0, 1. Su software debería ser capaz de hacer frente bien ese; si no, abandone ese software a favor de un programa que pueda. En términos de la pregunta del título: can, yes; debería, no.

Nick Cox
fuente

3

La respuesta corta es que no significa nada diferente y no veo ninguna razón por la cual cambiar 0, 1 a puntajes z ayudará a algo en esta situación. Para convencerse, pruébelo en ambos sentidos y vea que nada importante cambie.

Nick Cox

3

Por el contrario, creo que la mayoría de la gente usaría 0, 1 aquí.

Nick Cox

1

Cuando realice una regresión logística, el software seguramente realizará la estandarización bajo el capó de todos modos (para lograr mejores propiedades numéricas). Por lo tanto, es una buena idea mantener el indicador binario expresado de manera significativa. Estandarizarlo no suena bien ni útil.

whuber

1

Cualquier método de aprendizaje automático que requiera que usted "estandarice" predictores binarios es sospechoso.

Frank Harrell

2

Dado que es su propia implementación, ¡nadie más tiene ninguna base para darle una respuesta objetiva! Debe examinar cómo su software trata los datos para decidir si tiene sentido la estandarización previa.

whuber

3

En la sección 4.2 de Gelman y Hill ( http://www.stat.columbia.edu/~gelman/arm/ ) se ofrece un buen ejemplo en el que puede ser útil estandarizar de una manera ligeramente diferente . Esto es principalmente cuando la interpretación de los coeficientes es de interés, y tal vez cuando no hay muchos predictores.

\frac{X - μ_{X}}{2 σ_{X}},

$\frac{x-\mu_x}{2\sigma_x},$

σ

$\sigma$

\pm 0.5

$\pm 0.5$

x = 0

$x=0$

x = 1

$x=1$

σ

$\sigma$

x

$x$

Estudiante de Gosset
fuente

Explique "con igual proporción de 0 y 1" ya que las variables binarias que veo rara vez son así.

Nick Cox

No creo que la proporción realmente haga una diferencia, solo la usan para hacer que el ejemplo sea más limpio.

Estudiante de Gosset

1

¿Qué desea estandarizar, una variable aleatoria binaria o una proporción?

$Y:S\rightarrow \mathbb{R}$ $Y\in \lbrace 0,1\rbrace$

$X\in[0,1]$ $x\in \mathbb{R}^+$

QAChip
fuente

0

En la regresión logística, las variables binarias se pueden estandarizar para combinarlas con variables continuas cuando se desea dar a todas ellas una información previa no informativa como N ~ (0,5) o Cauchy ~ (0,5). Se recomienda que la estandarización sea la siguiente: tome el recuento total y dé

1 = proporción de 1

0 = 1 - proporción de 1's.

-----

Editar: En realidad, no tenía razón en absoluto, no es una estandarización, sino un cambio para centrarse en 0 y diferir en 1 en la condición inferior y superior, digamos que una población es 30% con la compañía A y 70% otra, podemos definir la variable centrada "Empresa A" para tomar los valores -0.3 y 0.7.

Carlos ST
fuente

No puede tener sentido esto como una estandarización.

Michael R. Chernick

¿Deberías estandarizar alguna vez las variables binarias?

Respuestas:

-----