Transformar variables continuas para regresión logística

11

Tengo grandes datos de encuestas, una variable de resultado binaria y muchas variables explicativas, incluidas las binarias y las continuas. Estoy creando conjuntos de modelos (experimentando con GLM y GLM mixto) y utilizando enfoques teóricos de información para seleccionar el modelo superior. Examiné cuidadosamente las explicaciones (tanto continuas como categóricas) para las correlaciones y solo estoy usando las del mismo modelo que tienen un coeff de Pearson o Phicorr menor que 0.3. Me gustaría dar a todas mis variables continuas una oportunidad justa de competir por el modelo superior. En mi experiencia, la transformación de aquellos que lo necesitan en función de la asimetría mejora el modelo en el que participan (menor AIC).

Mi primera pregunta es: ¿es esta mejora porque la transformación mejora la linealidad con el logit? ¿O la corrección del sesgo mejora el equilibrio de las variables explicativas de alguna manera al hacer que los datos sean más simétricos? Ojalá entendiera las razones matemáticas detrás de esto, pero por ahora, si alguien pudiera explicar esto en términos fáciles, sería genial. Si tiene alguna referencia que pueda usar, realmente lo agradecería.

Muchos sitios de Internet dicen que debido a que la normalidad no es una suposición en la regresión logística binaria, no transforme las variables. Pero siento que al no transformar mis variables, dejo algunas en desventaja en comparación con otras y podría afectar el modelo superior y cambiar la inferencia (bueno, generalmente no lo hace, pero en algunos conjuntos de datos sí lo hace). Algunas de mis variables funcionan mejor cuando el registro se transforma, algunas cuando se ajustan al cuadrado (diferente dirección de sesgo) y algunas no se transforman.

¿Alguien podría darme una pauta sobre qué tener cuidado al transformar variables explicativas para la regresión logística y, si no es así, por qué no?

Zsuzsa
fuente
2
De hecho, en la regresión logística no existe un supuesto de normalidad (o distribución logística en este caso). La función de enlace (a veces denotada ) se usa para modelar la relación entre la probabilidad de observar un ( ) con las covariables a través de . Un ajuste / rendimiento deficiente puede deberse a la elección de la función de enlace. Una alternativa para resolver este problema consiste en utilizar una distribución más flexible, consulte, por ejemplo, este documento . FF110P(Y=1|β,X)=F(Xβ)
Aunque está escrito en un contexto diferente, gran parte de lo que está pidiendo está en mi respuesta (o en los enlaces en mi respuesta) aquí: ¿Es más probable que X e Y distribuidos resulten en residuos distribuidos normalmente?
gung - Restablece a Monica

Respuestas:

3

Debe tener cuidado al decidir sobre la transformación o no de las variables solo por razones estadísticas . Debes mirar la interpretación. ¿Es razonable que tus respuestas sean lineales en ? o es más probable lineal en ? Y para discutir eso, necesitamos conocer sus valores ... Solo como ejemplo: independientemente del ajuste del modelo, ¡no creo que la mortalidad sea una función lineal de la edad!xlog(x)

Dado que usted dice que tiene "datos grandes", puede buscar splines para dejar que los datos hablen sobre transformaciones ... por ejemplo, empaquetar mgcv en R. Pero incluso utilizando dicha tecnología (u otros métodos para buscar transformaciones automáticamente), el La prueba final es preguntarse qué tiene sentido científico . ¿Qué hacen otras personas en su campo con datos similares?

kjetil b halvorsen
fuente
Gracias por apoyar mis preocupaciones: de hecho, he pensado sobre lo que tiene sentido biológico. El problema es que en realidad tengo dos conjuntos de datos relacionados y me gustaría sacar conclusiones de ambos al mismo tiempo. Pero en un subconjunto, la variable de densidad es mejor en los modelos no transformados, mientras que en el otro registro, la transformación es la mejor. La transformación de registro mejora la relación en el conjunto de datos que tiene los valores más bajos para esa variable, por lo que creo que será muy difícil conciliar estos dos conjuntos de datos, a menos que deje la variable sin transformar en ambos.
Zsuzsa
1
Los expertos en un campo rara vez son capaces de conocer a priori las transformaciones "correctas" para las variables. Casi nunca veo relaciones lineales, así que cuando el tamaño de la muestra lo justifica, relajo esta suposición utilizando splines de regresión. Hago el resultado interpretable con imágenes.
Frank Harrell
3

La cuestión crítica es qué se supone que representan los números en el mundo real y cuál es la relación hipotética entre esas variables y la variable dependiente. Puede mejorar su modelo 'limpiando' sus datos, pero si no refleja mejor el mundo real, no ha tenido éxito. Tal vez las distribuciones de sus datos significan que su enfoque de modelado es incorrecto y necesita un enfoque completamente diferente, tal vez sus datos tengan problemas.

Por qué eliminas variables si tienen corr> .3 está más allá de mí. Quizás esas cosas realmente están relacionadas y ambas son importantes para la variable dependiente. Puede tratar esto con un índice o una función que represente la contribución conjunta de variables correlacionadas. Parece que está arrojando información a ciegas según un criterio estadístico arbitrario. ¿Por qué no usar corr> .31 o .33?

Juan
fuente