Ocasionalmente, veo en la literatura que una variable categórica como el sexo está "parcializada" o "regresada" en el análisis de regresión (efectos fijos o efectos mixtos). Tengo problemas con los siguientes problemas prácticos relacionados con dicha declaración:
(1) Por lo general, el método de codificación no se menciona en el documento. Dicha variable tiene que codificarse con valores cuantitativos, y creo que la forma sensata debería ser la codificación de efectos (p. Ej., Masculino = 1, femenino = -1) para que la partición se pueda lograr con otros efectos interpretados en la gran media de ambos sexos. grupos Una codificación diferente puede generar una interpretación diferente (y no deseada). Por ejemplo, la codificación ficticia (p. Ej., Hombre = 0, mujer = 1) dejaría otros efectos asociados con los hombres, no la gran media. Incluso centrar esta variable codificada ficticia podría no funcionar bien para su propósito de partición si hay un número desigual de sujetos en los dos grupos. ¿Estoy en lo correcto?
(2) Si el efecto de una variable tan categórica se incluye en el modelo, primero es necesario examinar sus efectos y debe discutirse en el contexto debido a su consecuencia en la interpretación de otros efectos. Lo que me preocupa es que a veces los autores ni siquiera mencionan la importancia del efecto sexual, y mucho menos cualquier proceso de construcción de modelos. Si existe el efecto del sexo, una pregunta de seguimiento natural es si existe alguna interacción entre el sexo y otras variables en el modelo. Si no existen efectos sexuales ni interacciones, el sexo debe eliminarse del modelo.
(3) Si el sexo no se considera de interés para esos autores, ¿cuál es el punto de incluirlo en el modelo en primer lugar sin verificar sus efectos? ¿La inclusión de una variable tan categórica (y que cuesta un grado de libertad sobre el efecto fijo del sexo) gana algo para su propósito partidista cuando existe un efecto sexual (mi experiencia limitada dice esencialmente no)?
fuente
Respuestas:
No creo que (1) haga ninguna diferencia. La idea es separar de la respuesta y los otros predictores los efectos del sexo. No importa si codifica 0, 1 (contrastes de tratamiento) o 1, -1 (contrastes de suma a cero) ya que los modelos representan la misma "cantidad" de información que luego se elimina. Aquí hay un ejemplo en R:
A partir de estos dos modelos, los residuos son los mismos y es esta información la que uno tomaría en el modelo posterior (más lo mismo que elimina el efecto Sexual de las otras covariables):
Estoy de acuerdo con (2), pero en (3) si el sexo no es de interés para los investigadores, es posible que aún quieran controlar los efectos sexuales, por lo que mi modelo nulo sería uno que incluye sexo y pruebo alternativas con covariables adicionales más sexo Su punto sobre las interacciones y las pruebas de los efectos de las variables no interesantes es una observación importante y válida.
fuente
Es cierto que la elección del método de codificación influye en la forma de interpretar los coeficientes del modelo. Sin embargo, en mi experiencia (y me doy cuenta de que esto puede depender de su campo), la codificación ficticia es tan frecuente que las personas no tienen un gran problema para lidiar con ella.
En este ejemplo, si el hombre = 0 y la mujer = 1, entonces la intersección es básicamente la respuesta media para los hombres, y el coeficiente de sexo es el impacto en la respuesta debido a ser mujer (el "efecto femenino"). Las cosas se vuelven más complicadas una vez que se trata de variables categóricas con más de dos niveles, pero el esquema de interpretación se extiende de forma natural.
Lo que esto significa en última instancia es que debe tener cuidado de que las conclusiones sustantivas que extraiga del análisis no dependan del método de codificación utilizado.
fuente
Sin embargo, recuerde que ese error se reducirá al agregar cualquier factor adicional. Incluso si el género es insignificante en su modelo, puede ser útil en el estudio. Se puede encontrar importancia en cualquier factor si el tamaño de la muestra es lo suficientemente grande. Por el contrario, si el tamaño de la muestra no es lo suficientemente grande, un efecto significativo puede no ser comprobable. De ahí un buen modelo de construcción y análisis de poder.
fuente
Parece que no puedo agregar un comentario largo directamente a la respuesta del Dr. Simpson. Lo siento, tengo que poner mi respuesta aquí.
¡Realmente aprecio su respuesta, Dr. Simpson! Debería aclarar un poco mis argumentos. Lo que estoy teniendo problemas con el negocio partidista no es una cuestión teórica sino práctica. Supongamos que un modelo de regresión lineal tiene la siguiente forma
y = a + b * Sexo + otros efectos fijos + residuos
Estoy totalmente de acuerdo en que, desde la perspectiva teórica, independientemente de cómo cuantifiquemos la variable Sexo, tendríamos los mismos residuos. Incluso si el Código de los sujetos con algunos números locos como macho y hembra = 10,7 = 53,65, aun así obtener los mismos residuos como
r1
yr2
en su ejemplo. Sin embargo, lo que importa en esos documentos no se trata de los residuos. En cambio, la atención se centra en la interpretación de la intercepcióna
y otros efectos fijos en el modelo anterior, y esto puede generar problemas al realizar la partición. Con tal enfoque en mente, la forma en que se codifica el sexo parece tener una gran consecuencia en la interpretación de todos los demás efectos en el modelo anterior. Con codificación ficticia (options(contrasts = c("contr.treatment", "contr.poly"))
en R), todos los demás efectos, excepto 'b', deben interpretarse como asociados con el grupo sexual con el código "0" (hombres). Con la codificación de efectos (options(contrasts = c("contr.sum", "contr.poly"))
en R), todos los demás efectos, exceptob
los efectos promedio para toda la población, independientemente del sexo.Usando su ejemplo, el modelo se simplifica a
y = a + b * Sexo + residuos.
El problema se puede ver claramente con lo siguiente sobre la estimación de la intercepción
a
:Finalmente parece que tengo que estar de acuerdo en que mi argumento original (3) podría no ser válido. Continuando con tu ejemplo,
Parece que la inclusión de Sexo en el modelo no cambia la estimación del efecto, pero sí aumenta el poder estadístico, ya que una mayor variabilidad en los datos se explica a través del efecto Sexo. Mi ilusión anterior en el argumento (3) puede provenir de un conjunto de datos con un gran tamaño de muestra en el que agregar Sexo en el modelo realmente no cambió mucho por la importancia de otros efectos.
Sin embargo, en el análisis de tipo ANOVA equilibrado convencional, ¿un factor entre sujetos como el sexo no tiene consecuencias sobre esos efectos no relacionados con el factor debido a la división ortogonal de las variaciones?
fuente