Codificación ficticia para contrastes: 0,1 frente a 1, -1

8

Estoy buscando su ayuda para comprender la diferencia entre dos contrastes diferentes para variables dicotómicas.

En esta página: http://www.psychstat.missouristate.edu/multibook/mlt08.htm bajo "Variables de predictores dicotómicos", hay dos formas de codificar predictores dicotómicos: usando el contraste 0,1 o el contraste 1, -1 . Comprendo la distinción aquí (0,1 es una codificación ficticia y 1, -1 suma a un grupo y resta del otro) pero no entiendo cuál usar en mi regresión.

Por ejemplo, si tengo dos predictores dicotómicos, género (m / f) y atleta (y / n), podría usar contrastes 0,1 en ambos o 1, -1 en ambos. ¿Cuál sería la interpretación de un efecto principal o un efecto de interacción al usar los dos contrastes diferentes? ¿Depende de si mis células son de diferentes tamaños?

Dan
fuente

Respuestas:

13

"Variables de predictores dicotómicos", hay dos formas de codificar predictores dicotómicos: utilizando el contraste 0,1 o el contraste 1, -1.

Esto es realmente incorrecto. No hay límite para la cantidad de formas en que se pueden codificar. Esos dos son simplemente los más comunes (de hecho, casi ubicuos), y probablemente los más fáciles de manejar.

Comprendo la distinción aquí (0,1 es una codificación ficticia y 1, -1 suma a un grupo y resta del otro) pero no entiendo cuál usar en mi regresión.

Lo que sea más conveniente / apropiado. Si tiene un experimento diseñado con números iguales en cada uno, hay algunos aspectos interesantes en el segundo enfoque; Si no lo hace, probablemente lo primero sea más fácil de varias maneras.

Por ejemplo, si tengo dos predictores dicotómicos, género (m / f) y atleta (y / n), podría usar contrastes 0,1 en ambos o 1, -1 en ambos.

¿Cuál sería la interpretación de un efecto principal o un efecto de interacción al usar los dos contrastes diferentes?

a) (i) Considere un efecto principal de género (sin interacción por simplicidad) {m = 0, f = 1} - entonces el coeficiente correspondiente a ese maniquí medirá la diferencia en la media entre mujeres y hombres (y la intersección sería el media de los machos).

(ii) Para {m = -1, f = 1} el efecto principal de género es la mitad de la diferencia en la media, y la intersección es el promedio de las medias (si el diseño es equilibrado, también es el promedio de todos los datos) . De manera equivalente, el efecto principal es la diferencia de la media de cada grupo de la intercepción.

b) (i) considere una interacción entre el género {m = 0, f = 1} y el atleta {n = 0, y = 1}

Ahora la intersección representa la media de los hombres no atletas (0,0), el efecto principal de género es la diferencia entre las medias de las mujeres no atletas y los hombres no atletas, el efecto principal del atleta representa la diferencia entre la media de los atletas masculinos y los no deportistas masculinos y la interacción es la diferencia de dos diferencias: es la diferencia media de atleta / no atleta para las mujeres menos la diferencia media de atleta / no atleta para las marcas.

(ii) considere una interacción entre el género {m = -1, f = -1} y el atleta {n = -1, y = 1}

Ahora la intersección representa la media de las cuatro medias grupales (y si el diseño estuviera completamente equilibrado, también sería la media general). La intercepción es una cuarta parte de lo que era antes.

Los efectos principales son promedios de los efectos de diferencia: el efecto de género es el promedio de la diferencia entre hombres y mujeres dentro de los atletas y la diferencia entre hombres y mujeres entre los no atletas. El efecto principal del atleta es el promedio de la diferencia atleta / no atleta dentro de las mujeres y la diferencia atleta / no atleta dentro de los hombres.

¿Depende de si mis células son de diferentes tamaños?

¿Qué quieres decir con 'diferentes tamaños'? ¿Quiere decir que el número de observaciones en cada celda es diferente? (Si es así, me referí en gran medida a lo anterior: los números de celda iguales dan significados adicionales / simplifican la interpretación, como hacer que la intercepción sea la gran media de los datos en lugar de solo la media de las medias grupales).

Glen_b -Reinstate a Monica
fuente
1
Respuesta muy comprensiva. Agregaré que literalmente no veo ninguna razón para codificar contrastes con un formato -1, 1 para niveles. Esto no solo proporciona tamaños de efecto que no tienen interpretación directa (como "una diferencia duplicada asociada en el resultado que compara una diferencia unitaria en el predictor"), sino que también hace que la interpretación de la intersección sea una cantidad ficticia (más bien que el resultado esperado para todas las variables iguales a cero). Yo recomendaría usar siempre la codificación 0/1 para variables ficticias.
AdamO
1
@ Adam, no estoy de acuerdo. 1) Si le preocupa que los códigos -1, + 1 no tengan una interpretación "directa", utilice simplemente -.5, +. 5. 2) Como señaló Glen_b, la intersección bajo dichos códigos representa la media de las medias grupales; no está del todo claro cómo se trata más o menos de una "cantidad ficticia" de lo que significa el grupo en sí (¡que puede ser o no igual a CUALQUIERA de las observaciones en el conjunto de datos!). 3) Las interacciones entre factores codificados ficticios prácticamente siempre anulan los efectos simples de cualquier interpretación interesante / significativa; los códigos de contraste ofrecen una interpretación mucho más natural aquí
Jake Westfall
Gracias a todos. De hecho, estaba teniendo problemas para interpretar los principales efectos en presencia de una interacción al usar la codificación ficticia. Me di cuenta de que el efecto principal de género era solo para los no atletas (no era ningún tipo de efecto de género promediado tanto para atletas como para no atletas, que es lo que obtengo con los contrastes). Dan
Dan
"la intersección bajo dichos códigos representa la media de las medias grupales": la media de las medias no es la media marginal, que es el único parámetro que creo que nos importaría. Solo bajo un diseño equilibrado estaríamos cerca de tener eso, y esa suposición es demasiado poco práctica para nuestros propósitos.
AdamO
@JakeWestfall Como sabe, la interpretación de la intersección es como un valor promedio en la respuesta cuando todos los valores de los regresores se establecen en 0. Si este valor no es probable o peor, ni siquiera es posible, la intersección se convierte en una cantidad ficticia. Incluso para 0/1 binarios, supongamos que indico dos regresores- (0: embarazada, 1: no embarazada) (0: masculino 1: femenino) para FEV. La intercepción en el modelo es el VEF promedio en varones embarazadas. Ahora si codifico, -1: masculino 1: femenino, la intercepción no tiene absolutamente ninguna interpretación, excepto por el "promedio de la respuesta promedio en hombres y mujeres".
AdamO