Me gustaría emplear los datos de conteo como covariables al ajustar un modelo de regresión logística. Mi pregunta es:
- ¿Violo alguna suposición de los modelos logísticos (y, más en general, de los lineales generalizados) al emplear el conteo, las variables enteras no negativas como variables independientes?
Encontré muchas referencias en la literatura con respecto a los datos de recuento calientes para usar como resultado, pero no como covariables; véase, por ejemplo, el documento muy claro: "NE Breslow (1996) Modelos lineales generalizados: comprobación de supuestos y fortalecimiento de conclusiones, Congreso Nacional Social de Biometria, Cortona, junio de 1995", disponible en http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Hablando en términos generales, parece que los supuestos de glm pueden expresarse de la siguiente manera:
- iid residuales;
- la función de enlace debe representar correctamente la relación entre variables dependientes e independientes;
- ausencia de valores atípicos
¿Todos saben si existe algún otro supuesto / problema técnico que pueda sugerir el uso de algún otro tipo de modelo para tratar con covariables de conteo?
Finalmente, tenga en cuenta que mis datos contienen relativamente pocas muestras (<100) y que los rangos de las variables de recuento pueden variar dentro de un orden de magnitud de 3-4 (es decir, algunas variables tienen un valor en el rango de 0-10, mientras que otras variables pueden tener valores dentro de 0-10000).
Sigue un código de ejemplo R simple:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################
fuente
Respuestas:
Aquí hay algunos matices en juego, y pueden estar creando cierta confusión.
Usted declara que entiende que los supuestos de una regresión logística incluyen " iid residuales ...". Yo diría que esto no es del todo correcto. Generalmente decimos eso sobre el Modelo lineal general (es decir, regresión), pero en ese caso significa que los residuos son independientes entre sí, con la misma distribución (típicamente normal) que tiene la misma media (0) y varianza ( es decir, varianza constante: homogeneidad de varianza / homocedasticidad). Sin embargo, tenga en cuenta que para la distribución de Bernoulli y la distribución Binomial, la varianza es una función de la media. Por lo tanto, la varianza no podría ser constante, a menos que las covariables no estuvieran perfectamente relacionadas con la respuesta. Esa sería una suposición tan restrictiva que dejaría sin valor la regresión logística. Noto que en el resumen del pdf que usted cita, enumera los supuestos que comienzan con "la independencia estadística de las observaciones", lo que podríamos llamar
i-but-not-id
(sin querer ser demasiado lindo al respecto).A continuación, como señala @kjetilbhalvorsen en el comentario anterior , se supone que los valores covariables (es decir, sus variables independientes) se fijan en el Modelo lineal generalizado. Es decir, no se hacen suposiciones de distribución particulares. Por lo tanto, no importa si son recuentos o no, ni si varían de 0 a 10, de 1 a 10000, o de -3.1415927 a -2.718281828.
Sin embargo, una cosa a tener en cuenta, como señala @whuber , si tiene una pequeña cantidad de datos que son muy extremos en una de las dimensiones covariables, esos puntos podrían tener una gran influencia sobre los resultados de su análisis. Es decir, puede obtener un cierto resultado solo por esos puntos. Una forma de pensar en esto es hacer un tipo de análisis de sensibilidad ajustando su modelo con y sin esos datos incluidos. Puede creer que es más seguro o más apropiado abandonar esas observaciones, usar alguna forma de análisis estadístico robusto o transformar esas covariables para minimizar el apalancamiento extremo que tendrían esos puntos. No caracterizaría estas consideraciones como "suposiciones", pero ciertamente son consideraciones importantes para desarrollar un modelo apropiado.
fuente
Una cosa que definitivamente verificaría es las propiedades de distribución de sus variables independientes. Muy a menudo con los datos de recuento, verá un sesgo a la derecha moderado a severo. En ese caso, es probable que desee transformar sus datos, ya que perderá la relación log-lineal. Pero no, está bien usar un modelo logístico (u otro GLM).
fuente