"Variables de predictores dicotómicos", hay dos formas de codificar predictores dicotómicos: utilizando el contraste 0,1 o el contraste 1, -1.
Esto es realmente incorrecto. No hay límite para la cantidad de formas en que se pueden codificar. Esos dos son simplemente los más comunes (de hecho, casi ubicuos), y probablemente los más fáciles de manejar.
Comprendo la distinción aquí (0,1 es una codificación ficticia y 1, -1 suma a un grupo y resta del otro) pero no entiendo cuál usar en mi regresión.
Lo que sea más conveniente / apropiado. Si tiene un experimento diseñado con números iguales en cada uno, hay algunos aspectos interesantes en el segundo enfoque; Si no lo hace, probablemente lo primero sea más fácil de varias maneras.
Por ejemplo, si tengo dos predictores dicotómicos, género (m / f) y atleta (y / n), podría usar contrastes 0,1 en ambos o 1, -1 en ambos.
¿Cuál sería la interpretación de un efecto principal o un efecto de interacción al usar los dos contrastes diferentes?
a) (i) Considere un efecto principal de género (sin interacción por simplicidad) {m = 0, f = 1} - entonces el coeficiente correspondiente a ese maniquí medirá la diferencia en la media entre mujeres y hombres (y la intersección sería el media de los machos).
(ii) Para {m = -1, f = 1} el efecto principal de género es la mitad de la diferencia en la media, y la intersección es el promedio de las medias (si el diseño es equilibrado, también es el promedio de todos los datos) . De manera equivalente, el efecto principal es la diferencia de la media de cada grupo de la intercepción.
b) (i) considere una interacción entre el género {m = 0, f = 1} y el atleta {n = 0, y = 1}
Ahora la intersección representa la media de los hombres no atletas (0,0), el efecto principal de género es la diferencia entre las medias de las mujeres no atletas y los hombres no atletas, el efecto principal del atleta representa la diferencia entre la media de los atletas masculinos y los no deportistas masculinos y la interacción es la diferencia de dos diferencias: es la diferencia media de atleta / no atleta para las mujeres menos la diferencia media de atleta / no atleta para las marcas.
(ii) considere una interacción entre el género {m = -1, f = -1} y el atleta {n = -1, y = 1}
Ahora la intersección representa la media de las cuatro medias grupales (y si el diseño estuviera completamente equilibrado, también sería la media general). La intercepción es una cuarta parte de lo que era antes.
Los efectos principales son promedios de los efectos de diferencia: el efecto de género es el promedio de la diferencia entre hombres y mujeres dentro de los atletas y la diferencia entre hombres y mujeres entre los no atletas. El efecto principal del atleta es el promedio de la diferencia atleta / no atleta dentro de las mujeres y la diferencia atleta / no atleta dentro de los hombres.
¿Depende de si mis células son de diferentes tamaños?
¿Qué quieres decir con 'diferentes tamaños'? ¿Quiere decir que el número de observaciones en cada celda es diferente? (Si es así, me referí en gran medida a lo anterior: los números de celda iguales dan significados adicionales / simplifican la interpretación, como hacer que la intercepción sea la gran media de los datos en lugar de solo la media de las medias grupales).