Tengo grandes datos de encuestas, una variable de resultado binaria y muchas variables explicativas, incluidas las binarias y las continuas. Estoy creando conjuntos de modelos (experimentando con GLM y GLM mixto) y utilizando enfoques teóricos de información para seleccionar el modelo superior. Examiné cuidadosamente las explicaciones (tanto continuas como categóricas) para las correlaciones y solo estoy usando las del mismo modelo que tienen un coeff de Pearson o Phicorr menor que 0.3. Me gustaría dar a todas mis variables continuas una oportunidad justa de competir por el modelo superior. En mi experiencia, la transformación de aquellos que lo necesitan en función de la asimetría mejora el modelo en el que participan (menor AIC).
Mi primera pregunta es: ¿es esta mejora porque la transformación mejora la linealidad con el logit? ¿O la corrección del sesgo mejora el equilibrio de las variables explicativas de alguna manera al hacer que los datos sean más simétricos? Ojalá entendiera las razones matemáticas detrás de esto, pero por ahora, si alguien pudiera explicar esto en términos fáciles, sería genial. Si tiene alguna referencia que pueda usar, realmente lo agradecería.
Muchos sitios de Internet dicen que debido a que la normalidad no es una suposición en la regresión logística binaria, no transforme las variables. Pero siento que al no transformar mis variables, dejo algunas en desventaja en comparación con otras y podría afectar el modelo superior y cambiar la inferencia (bueno, generalmente no lo hace, pero en algunos conjuntos de datos sí lo hace). Algunas de mis variables funcionan mejor cuando el registro se transforma, algunas cuando se ajustan al cuadrado (diferente dirección de sesgo) y algunas no se transforman.
¿Alguien podría darme una pauta sobre qué tener cuidado al transformar variables explicativas para la regresión logística y, si no es así, por qué no?
Respuestas:
Debe tener cuidado al decidir sobre la transformación o no de las variables solo por razones estadísticas . Debes mirar la interpretación. ¿Es razonable que tus respuestas sean lineales en ? o es más probable lineal en ? Y para discutir eso, necesitamos conocer sus valores ... Solo como ejemplo: independientemente del ajuste del modelo, ¡no creo que la mortalidad sea una función lineal de la edad!x log(x)
Dado que usted dice que tiene "datos grandes", puede buscar splines para dejar que los datos hablen sobre transformaciones ... por ejemplo, empaquetar mgcv en R. Pero incluso utilizando dicha tecnología (u otros métodos para buscar transformaciones automáticamente), el La prueba final es preguntarse qué tiene sentido científico . ¿Qué hacen otras personas en su campo con datos similares?
fuente
La cuestión crítica es qué se supone que representan los números en el mundo real y cuál es la relación hipotética entre esas variables y la variable dependiente. Puede mejorar su modelo 'limpiando' sus datos, pero si no refleja mejor el mundo real, no ha tenido éxito. Tal vez las distribuciones de sus datos significan que su enfoque de modelado es incorrecto y necesita un enfoque completamente diferente, tal vez sus datos tengan problemas.
Por qué eliminas variables si tienen corr> .3 está más allá de mí. Quizás esas cosas realmente están relacionadas y ambas son importantes para la variable dependiente. Puede tratar esto con un índice o una función que represente la contribución conjunta de variables correlacionadas. Parece que está arrojando información a ciegas según un criterio estadístico arbitrario. ¿Por qué no usar corr> .31 o .33?
fuente