Estoy confundido con la suposición de linealidad al logit para las variables predictoras continuas en el análisis de regresión logística. ¿Necesitamos verificar la relación lineal mientras buscamos predictores potenciales usando un análisis de regresión logística univariable?
En mi caso, estoy usando el análisis de regresión logística múltiple para identificar factores asociados con el estado nutricional (resultado dicotómico) entre los participantes. Las variables continuas que incluyen la edad, el puntaje de comorbilidad de Charlson, el puntaje del índice de Barthel, la fuerza de agarre de la mano, el puntaje de GDS, el IMC, etc. Mi primer paso es seleccionar variables significativas mediante regresión logística simple. ¿Necesito verificar el supuesto de linealidad durante los análisis de regresión logística simple para cada variable continua? ¿O debería verificarlo en el modelo final de regresión logística múltiple?
Además, para mi comprensión, necesitamos transformar la variable continua no lineal antes de ingresarla en el modelo. ¿Puedo clasificar la variable continua no lineal en lugar de la transformación?
fuente
Respuestas:
Como describo en detalle en mi libro Regression Modeling Strategies (2da edición disponible el 04/09/2015, e-book disponible ahora), el proceso de intentar transformar las variables antes del modelado está lleno de problemas, uno de los más importantes es la distorsión de error tipo I e intervalos de confianza. La categorización causa problemas aún más graves, especialmente falta de ajuste y arbitrariedad.
En lugar de pensar en esto como un problema de "verificación de falta de ajuste", es mejor pensar que especifica un modelo que es muy probable que se ajuste. Una forma de hacerlo es asignar parámetros a las partes del modelo que probablemente sean fuertes y para las cuales la linealidad aún no se sabe que sea una suposición razonable. En este proceso, se examina el tamaño efectivo de la muestra (en su caso, el mínimo de la cantidad de eventos y la cantidad de no eventos) y permite la complejidad en la medida en que lo permite el contenido de la información de los datos (utilizando, por ejemplo, la regla de parámetros de eventos 15: 1 de pulgar). Al especificar previamente un modelo paramétrico aditivo flexible, uno solo se equivocará cuando sea importante al omitir interacciones importantes. Las interacciones deben especificarse previamente, en general.
Puede verificar si se necesitaba no linealidad en el modelo con una prueba formal (facilitada con el
rms
paquete R ) pero eliminando dichos términos cuando insignificante crea las distorsiones inferenciales que describí anteriormente.Se pueden encontrar más detalles en las notas del curso vinculadas desde http://biostat.mc.vanderbilt.edu/rms .
fuente
La regresión logística NO asume una relación lineal entre las variables dependientes e independientes. Asume una relación lineal entre las probabilidades de registro de la variable dependiente y las variables independientes (esto es principalmente un problema con las variables independientes continuas). Hay una prueba llamada Box-Tidwell que puede usar para esto. El comando stata es boxtid. No conozco el comando SPSS, lo siento.
Esto puede ser de ayuda: http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm
fuente
Creo que deberíamos trazar variables continuas y verificar la linealidad antes de usarlas en un modelo de regresión. Si la linealidad parece una suposición razonable, creo que esto probablemente se mantendrá en el modelo final de regresión multivariable en la mayoría de los casos, y si no, creo que esto podría ser causado principalmente por efectos de interacción que puede corregir.
Sí, categorizar variables continuas no lineales es una opción. El problema con esto es que las categorías pueden parecer arbitrarias en la mayoría de los casos, y pequeñas diferencias en los puntajes de corte entre categorías pueden conducir a resultados diferentes (especialmente en relación con la significación estadística) y, dependiendo del número de categorías y el tamaño de sus datos , puede perder mucha información valiosa en los datos.
Un enfoque alternativo es utilizar un modelo aditivo generalizado que es un modelo de regresión que puede especificarse como una regresión logística, pero en el que puede incluir variables independientes no lineales como "funciones más suaves". Técnicamente, esto no es muy complicado en R, pero no conozco otros paquetes de software. Estos modelos identificarán relaciones no lineales con las variables dependientes, pero un inconveniente podría ser que no obtendrá números claros y ordenados en su salida para presentar, sino más bien una curva visual que se prueba para determinar la significación estadística. Por lo tanto, depende de lo interesado que esté en cuantificar el efecto de la variable no lineal en la variable de resultado.
Finalmente, puede usar modelos aditivos generalizados como se describió anteriormente para probar los supuestos de linealidad en su modelo de regresión logística, al menos si usa R.
Eche un vistazo a este libro (un campo muy diferente al suyo y al mío, pero eso no importa en absoluto): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 & qid = 1440928328 & sr = 8-1 & keywords = zuur + ecology
fuente
Como no conozco sus datos, no sé si combinar esas tres variables (la variable básica, su registro natural y un término interactivo) será un problema. Sin embargo, sé que en el pasado cuando consideré combinar tres términos, a menudo pierdo la noción conceptual de lo que estoy midiendo. Necesita tener un buen control de lo que está midiendo o tendrá problemas para explicar sus hallazgos. ¡Espero que ayude!
fuente