¿El uso de datos de conteo como variable independiente viola alguno de los supuestos de GLM?

Me gustaría emplear los datos de conteo como covariables al ajustar un modelo de regresión logística. Mi pregunta es:

¿Violo alguna suposición de los modelos logísticos (y, más en general, de los lineales generalizados) al emplear el conteo, las variables enteras no negativas como variables independientes?

Encontré muchas referencias en la literatura con respecto a los datos de recuento calientes para usar como resultado, pero no como covariables; véase, por ejemplo, el documento muy claro: "NE Breslow (1996) Modelos lineales generalizados: comprobación de supuestos y fortalecimiento de conclusiones, Congreso Nacional Social de Biometria, Cortona, junio de 1995", disponible en http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .

Hablando en términos generales, parece que los supuestos de glm pueden expresarse de la siguiente manera:

iid residuales;
la función de enlace debe representar correctamente la relación entre variables dependientes e independientes;
ausencia de valores atípicos

¿Todos saben si existe algún otro supuesto / problema técnico que pueda sugerir el uso de algún otro tipo de modelo para tratar con covariables de conteo?

Finalmente, tenga en cuenta que mis datos contienen relativamente pocas muestras (<100) y que los rangos de las variables de recuento pueden variar dentro de un orden de magnitud de 3-4 (es decir, algunas variables tienen un valor en el rango de 0-10, mientras que otras variables pueden tener valores dentro de 0-10000).

Sigue un código de ejemplo R simple:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

generalized-linear-model count-data Vincenzo Lagani
fuente

Bienvenido al sitio! Una observación: si desea firmar sus publicaciones, use su perfil (especialmente el cuadro acerca de mí).

por lo general, en los modelos GLM, se supone que las variables predictoras ("independientes") son algunas constantes conocidas, ¡ NO hay supuestos de distribución sobre ellas! Por lo tanto, no hay nada de malo en usar los datos de conteo como predictores.

kjetil b halvorsen

kjetil Eso es correcto, y una buena respuesta a la pregunta. Sin embargo, con los rangos extremos de IV descritos aquí, sería aconsejable evaluar la influencia de los datos, verificar la bondad del ajuste y, en particular, evaluar el potencial de una relación no lineal. Esto se haría con la esperanza de que la relación en realidad no sea lineal y que una nueva expresión de los IV, como una raíz o un registro, la linealice, aliviando simultáneamente algunos de los problemas de influencia. Esto es probablemente lo que @ user14583 está tratando de indicar en su respuesta.

whuber

@kjetilbhalvorsen - Estoy de acuerdo con "no hay supuestos de distribución", pero no creo que quisieras decir "conocidos" o "constantes", ya que ninguna de esas palabras encaja.

rolando2

Son "constantes" en el sentido de que no son aleatorias: sin distribución. Son "conocidos" en el sentido de que se supone que se miden sin error, por lo que el valor medido es el que realmente estaba funcionando en el mecanismo de generación de datos. El modelo GLM asume que toda aleatoriedad está en el mecanismo de respuesta, ¡eso a menudo es dudoso!

kjetil b halvorsen

Respuestas:

Aquí hay algunos matices en juego, y pueden estar creando cierta confusión.

Usted declara que entiende que los supuestos de una regresión logística incluyen " iid residuales ...". Yo diría que esto no es del todo correcto. Generalmente decimos eso sobre el Modelo lineal general (es decir, regresión), pero en ese caso significa que los residuos son independientes entre sí, con la misma distribución (típicamente normal) que tiene la misma media (0) y varianza ( es decir, varianza constante: homogeneidad de varianza / homocedasticidad). Sin embargo, tenga en cuenta que para la distribución de Bernoulli y la distribución Binomial, la varianza es una función de la media. Por lo tanto, la varianza no podría ser constante, a menos que las covariables no estuvieran perfectamente relacionadas con la respuesta. Esa sería una suposición tan restrictiva que dejaría sin valor la regresión logística. Noto que en el resumen del pdf que usted cita, enumera los supuestos que comienzan con "la independencia estadística de las observaciones", lo que podríamos llamar i-but-not-id(sin querer ser demasiado lindo al respecto).

A continuación, como señala @kjetilbhalvorsen en el comentario anterior , se supone que los valores covariables (es decir, sus variables independientes) se fijan en el Modelo lineal generalizado. Es decir, no se hacen suposiciones de distribución particulares. Por lo tanto, no importa si son recuentos o no, ni si varían de 0 a 10, de 1 a 10000, o de -3.1415927 a -2.718281828.

Sin embargo, una cosa a tener en cuenta, como señala @whuber , si tiene una pequeña cantidad de datos que son muy extremos en una de las dimensiones covariables, esos puntos podrían tener una gran influencia sobre los resultados de su análisis. Es decir, puede obtener un cierto resultado solo por esos puntos. Una forma de pensar en esto es hacer un tipo de análisis de sensibilidad ajustando su modelo con y sin esos datos incluidos. Puede creer que es más seguro o más apropiado abandonar esas observaciones, usar alguna forma de análisis estadístico robusto o transformar esas covariables para minimizar el apalancamiento extremo que tendrían esos puntos. No caracterizaría estas consideraciones como "suposiciones", pero ciertamente son consideraciones importantes para desarrollar un modelo apropiado.

gung - Restablece a Monica
fuente

Una cosa que definitivamente verificaría es las propiedades de distribución de sus variables independientes. Muy a menudo con los datos de recuento, verá un sesgo a la derecha moderado a severo. En ese caso, es probable que desee transformar sus datos, ya que perderá la relación log-lineal. Pero no, está bien usar un modelo logístico (u otro GLM).

usuario14583
fuente

¿Cómo pierde la inclinación correcta 'la relación log-lineal'?

Glen_b -Reinstate Monica

Este comentario me parece incorrecto. Al igual que @Glen_b, no veo cómo esto necesariamente perdería la relación log-lineal. En cualquier caso, sería mejor examinar la relación directamente (a través del trazado, por ejemplo).

Peter Flom - Restablece a Monica

Una transformación no lineal de un IV definitivamente cambiará la relación log-lineal a otra cosa, @Peter. Esta respuesta me parece básicamente correcta.

whuber

@whuber Estoy de acuerdo en que una transformación no lineal de una variable cambiará la relación entre ella y otra variable. Eso parece bastante claro. ¿Pero de qué tipo de relación a qué tipo? ¿Por qué no examinar la relación directamente en lugar de asumir cómo se va a cambiar? Además, la respuesta parece decir que la persona quiere perder la relación lineal logarítmica.

Peter Flom - Restablece a Monica

Ese es un buen punto @Peter. Sin embargo, algunas personas no quieren cambiar la relación; eso no es necesariamente una noción equivocada. Estoy de acuerdo en que un examen directo es el procedimiento correcto: sugerirá cómo volver a expresar los IV involucrados para crear relaciones lineales.

whuber