¿Cuáles son los diferentes tipos de codificaciones disponibles para las variables categóricas (en R) y cuándo las usaría?

14

Si se ajusta a un modelo lineal o un modelo mixto, hay diferentes tipos de codificaciones disponibles para transformar una variable categórica o nominal en una serie de variables para las que se estiman los parámetros, como la codificación ficticia (el valor predeterminado de R) y la codificación de efectos.

Escuché que la codificación de efectos (a veces llamada desviación o codificación de contraste) es preferible cuando tienes interacciones, pero ¿cuáles son los posibles contrastes y cuándo utilizarías qué tipo de contraste?

El contexto es modelado mixto en R usando lme4, pero creo que las respuestas más amplias están bien. Lo siento, si me perdí una pregunta similar.

EDITAR: Dos enlaces útiles son: la codificación de efectos y la codificación ficticia explicada.

Henrik
fuente
si tiene estadísticas aplicadas modernas con S-Plus, tiene una excelente sección en el capítulo seis sobre esta misma pregunta
richiemorrisroe,
44
No creo que encontrará una respuesta completa a su pregunta, pero hay un montón de buena información sobre los diferentes tipos de codificaciones aquí .
gung - Restablece a Monica
@gung El sitio se ve realmente interesante. Sin embargo, no parece cubrir la codificación de contraste (o hay otro nombre para ello).
Henrik
No estoy seguro; Me pregunto si hay una falta de comunicación. El título de esa página es "codificación de contraste".
gung - Restablece a Monica
1
No entiendo qué pregunta queda. Si quería una lista de diferentes tipos de codificaciones, la tiene. ¿Cuál es el objetivo principal de su pregunta ahora?
gung - Restablece a Monica

Respuestas:

4

Otros pueden iluminarme si me equivoco, pero aquí va ...

¿Cuál es el efecto para el nivel en comparación con la media de los niveles anteriores? es decir, le interesa ubicar el umbral del efecto

  • Usa los contrastes de Helmert. Pienso en esto como comparaciones acumulativas. Lo he usado cuando me interesa determinar el límite de dosis-respuesta de la exposición a los medicamentos. La comparación con múltiples niveles a la vez significa que se desecha menos información. Pienso en esto como comparaciones acumulativas.

¿Cuál es el efecto del nivel en relación con un nivel de referencia? es decir, está interesado en un grupo de comparación de referencia.

  • Utilice codificación variable ficticia (contrastes de tratamiento). Pienso en esto como comparaciones de referencia. He usado esto cuando normalmente hay un grupo / nivel establecido como importante por otros estudios, y mi estudio demuestra que también existen asociaciones cuando se supera este umbral.

¿Cuál es el efecto de dos niveles adyacentes de una variable?

  • Use la diferenciación hacia adelante / hacia atrás. Pienso en esto como comparaciones sucesivas de intervalos cortos. Lo he usado al comparar los efectos para diferentes niveles de posición socioeconómica, cuando cada grupo es diferente en composición por derecho propio y no tiene más interés que otro.
Gavin
fuente