Estoy interesado en las interacciones con el tratamiento de covarianza en el contexto de los experimentos / ensayos controlados aleatorios, con un indicador binario asignación de tratamiento .
Dependiendo del método / fuente específico, he visto y para los sujetos tratados y no tratados, respectivamente.T = { 1 , - 1 }
¿Hay alguna regla general cuando usar o ?{ 1 , - 1 }
¿De qué manera difiere la interpretación?
binary-data
categorical-encoding
cecefuss
fuente
fuente
Respuestas:
La interpretación tanto del estimador de la variable indicadora como de la intersección difiere. Comencemos con :{ 1 , 0 }
Digamos que tienes el siguiente modelo
dónde
En ese caso, terminas con las siguientes fórmulas para :yyo
Entonces, la interpretación de es el efecto del placebo y la interpretación de es la diferencia entre el efecto del placebo y el efecto del medicamento. En efecto, puede interpretar como la mejora que ofrece el medicamento.β 1 β 1β0 0 β1 β1
Ahora echemos un vistazo a :{ - 1 , 1 }
Luego tiene el siguiente modelo (nuevamente):
pero donde
En ese caso, terminas con las siguientes fórmulas para :yyo
La interpretación aquí es que es la media del efecto del placebo y el efecto del fármaco, y es la diferencia de los dos tratamientos con esa media.β 1β0 0 β1
Entonces, ¿cuál usas?
La interpretación de en es básicamente una línea de base. Establece algún tratamiento estándar y todos los demás tratamientos (puede haber múltiples) se comparan con ese estándar / línea de base. Especialmente cuando comienza a agregar otras covariables, esto sigue siendo fácil de interpretar con respecto a la pregunta médica estándar: ¿cómo se comparan estos medicamentos con un placebo o el medicamento establecido? { 0 , 1 }β0 0 { 0 , 1 }
Pero al final todo es cuestión de interpretación, lo que expliqué anteriormente. Por lo tanto, debe evaluar sus hipótesis y verificar qué interpretación hace que la extracción de conclusiones sea la más sencilla.
fuente
En el contexto de la regresión lineal, es un método más natural (y estándar) para codificar variables binarias (ya sea colocándolas en el lado izquierdo del lado derecho de la regresión). Como explica @Jarko Dubbeldam, por supuesto, puede usar la otra interpretación y el significado de los coeficientes será diferente.Xyo∈ { 0 , 1 }
Para dar un ejemplo a la inversa, la codificación de las variables de salida es estándar cuando se programan o derivan las máquinas matemáticas de vectores de soporte subyacentes . (Al llamar a las bibliotecas, desea pasar los datos en el formato que la biblioteca espera, que probablemente sea la formulación 0, 1.)yyo∈ { - 1 , 1 }
Trate de usar la notación que es estándar para lo que sea que esté haciendo / usando.
Para cualquier tipo de modelo lineal con un término de intercepción, los dos métodos serán equivalentes en el sentido de que están relacionados por una simple transformación lineal. Matemáticamente, no importa si usa la matriz de datos o la matriz de datos ˜ XX donde A es rango completo. En los modelos lineales generalizados, los coeficientes estimados en ambos sentidos estarán relacionados por la transformación lineal A y los valores ajustados y serán los mismos.X~= XUNA UNA UNA y^
fuente
Esto es más abstracto (y quizás inútil), pero notaré que estas dos representaciones son, en un sentido matemático, en realidad representaciones grupales, y hay un isomorfismo entre ellas.
fuente