Variable indicadora para datos binarios: {-1,1} vs {0,1}

10

Estoy interesado en las interacciones con el tratamiento de covarianza en el contexto de los experimentos / ensayos controlados aleatorios, con un indicador binario asignación de tratamiento .T

Dependiendo del método / fuente específico, he visto y para los sujetos tratados y no tratados, respectivamente.T = { 1 , - 1 }T={1,0 0}T={1,-1}

¿Hay alguna regla general cuando usar o ?{ 1 , - 1 }{1,0 0}{1,-1}

¿De qué manera difiere la interpretación?

cecefuss
fuente
FWIW ... Este primer enlace proporciona una visión general bastante completa de los diferentes esquemas de codificación ... ats.ucla.edu/stat/r/library/contrast_coding.htm Este segundo enlace discute el indicador (ficticio), el efecto y la codificación ortogonal (contraste) ... faculty.cas.usf.edu/mbrannick/regression/anova1.html
Mike Hunter

Respuestas:

10

La interpretación tanto del estimador de la variable indicadora como de la intersección difiere. Comencemos con :{1,0 0}

Digamos que tienes el siguiente modelo

yyo=β0 0+trmiunatmetrominortetβ1

dónde

trmiunatmetrominortet={0 0si placebo1si droga

En ese caso, terminas con las siguientes fórmulas para :yyo

yyo={β0 0+0 0β1=β0 0si placeboβ0 0+1β1=β0 0+β1si droga

Entonces, la interpretación de es el efecto del placebo y la interpretación de es la diferencia entre el efecto del placebo y el efecto del medicamento. En efecto, puede interpretar como la mejora que ofrece el medicamento.β 1 β 1β0 0β1β1


Ahora echemos un vistazo a :{-1,1}

Luego tiene el siguiente modelo (nuevamente):

yyo=β0 0+trmiunatmetrominortetβ1

pero donde

trmiunatmetrominortet={-1si placebo1si droga

En ese caso, terminas con las siguientes fórmulas para :yyo

yyo={β0 0+-1β1=β0 0-β1si placeboβ0 0+1β1=β0 0+β1si droga

La interpretación aquí es que es la media del efecto del placebo y el efecto del fármaco, y es la diferencia de los dos tratamientos con esa media.β 1β0 0β1


Entonces, ¿cuál usas?

La interpretación de en es básicamente una línea de base. Establece algún tratamiento estándar y todos los demás tratamientos (puede haber múltiples) se comparan con ese estándar / línea de base. Especialmente cuando comienza a agregar otras covariables, esto sigue siendo fácil de interpretar con respecto a la pregunta médica estándar: ¿cómo se comparan estos medicamentos con un placebo o el medicamento establecido? { 0 , 1 }β0 0{0 0,1}

Pero al final todo es cuestión de interpretación, lo que expliqué anteriormente. Por lo tanto, debe evaluar sus hipótesis y verificar qué interpretación hace que la extracción de conclusiones sea la más sencilla.

JAD
fuente
66
La constante cuando se utiliza la codificación -1, 1 es la media si el número de encuestados en el grupo tratado es el mismo que el número de encuestados en el grupo de control.
Maarten Buis el
@MaartenBuis Es la media de si el diseño está equilibrado, pero de lo contrario sigue siendo la media de los dos grupos, que es lo que quise decir. Cambié la redacción para reflejar esto. y
JAD
99
Servicial. Siempre trato de alentar el uso del indicador de palabras en lugar de ficticio (como en la pregunta original) por al menos dos razones. Primero, he escuchado demasiadas historias en las que las presentaciones cayeron muy mal porque términos como "dummy de género" fueron malinterpretados como personas menos técnicas u ofensivas. En segundo lugar, el término ficticio hace que todo el dispositivo se parezca un poco a un dulce o un regate, mientras que es un método perfectamente limpio y elegante. No tengo muchas posibilidades de cambiar las prácticas arraigadas en algunos campos, pero aquí lo intento.
Nick Cox
De acuerdo, suena más profesional también. Además, es una mejor descripción de lo que realmente está haciendo.
JAD
2
Me alegra que estés de acuerdo. Aquí hay una manera simple de explicar: ¡se llama indicador porque indica!
Nick Cox
6

En el contexto de la regresión lineal, es un método más natural (y estándar) para codificar variables binarias (ya sea colocándolas en el lado izquierdo del lado derecho de la regresión). Como explica @Jarko Dubbeldam, por supuesto, puede usar la otra interpretación y el significado de los coeficientes será diferente.Xyo{0 0,1}

Para dar un ejemplo a la inversa, la codificación de las variables de salida es estándar cuando se programan o derivan las máquinas matemáticas de vectores de soporte subyacentes . (Al llamar a las bibliotecas, desea pasar los datos en el formato que la biblioteca espera, que probablemente sea la formulación 0, 1.)yyo{-1,1}

Trate de usar la notación que es estándar para lo que sea que esté haciendo / usando.


Para cualquier tipo de modelo lineal con un término de intercepción, los dos métodos serán equivalentes en el sentido de que están relacionados por una simple transformación lineal. Matemáticamente, no importa si usa la matriz de datos o la matriz de datos ˜ XX donde A es rango completo. En los modelos lineales generalizados, los coeficientes estimados en ambos sentidos estarán relacionados por la transformación lineal A y los valores ajustados y serán los mismos.X~=XUNAAAy^

Matthew Gunn
fuente
+1, no podía pensar en una configuración donde se utilizara } . {1,1}
JAD
AdaBoost es otro ejemplo que usa yi{1,1}
Francis
55
En general, se podría decir que {1,1} se usa predominantemente en la clasificación, porque hace que la aplicación de la función de signo sea una forma factible de clasificar.
JAD
@matthewgunn El autor habla las covariables, es decir, las entradas, no las salidas. El {-1, 1} tiene sentido para los vectores de soporte para la salida, pero no importa para la entrada. Ver aquí: en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM
Francisco Arceo
@FranciscoArceo Punto tomado; He editado para ser más preciso.
Matthew Gunn el
2

Esto es más abstracto (y quizás inútil), pero notaré que estas dos representaciones son, en un sentido matemático, en realidad representaciones grupales, y hay un isomorfismo entre ellas.

TT1T2T1T2Z21,0 01,1ab=1(una+si)unasi=unasiϕ(una)=2una-1

pagTTTpagpag=pagpag+(1-pag)(1-pag)t(pag)=2pag-1tt=ttt

jwimberley
fuente
Esto es impresionante, pero me parece suficiente comentar que cualquier correspondencia válida entre {-1, 1} y {0, 1} debe ser uno a uno: no hay necesidad de invocar nada más allá de las matemáticas de la escuela secundaria. Estamos hablando necesariamente de la misma información, solo codificada de manera diferente.
Nick Cox