Traducir el comando glm de R en notación matemática

Para una regresión logística binaria, el caso de uso habitual para el GLM binomial con un enlace logit, está modelando la probabilidad de que su variable dependiente sea un "éxito" (o "sí"), convencionalmente codificado como . La forma en que está haciendo esto es modelando las probabilidades de registro. Entonces, en lugar de modelar la media de la respuesta como en OLS, está modelando el cambio en las probabilidades de registro: $1$

Pr (y = 1) = θ = {logit}^{- 1} (β_{0 0} + β_{1} X_{1} + β_{2} X_{2} + . . . + β_{7 7} X_{7 7})

$\Pr(y=1)=\theta=\text{logit}^{-1}(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_7x_7)$

Donde y . $\text{logit}(x)=\log(\frac{x}{1-x})$ $\text{logit}^{-1}(x)=\frac{\exp(x)}{1+\exp(x)}$

Una explicación más completa y muy accesible de esto se puede encontrar en Agresti, Introducción al análisis de datos categóricos.

Pero a su pregunta particular, usted declara que está modelando la proporción de éxitos. Esto no es realmente lo que un GLM binomial está acostumbrado a hacer. Sin embargo, lo que realmente buscas es lo que hace un GLM binomial, y aún es posible en R. Solo requiere un ligero ajuste a lo que estás haciendo. En el caso de que tenga un número finito de pruebas que pueden tener éxitos, aún puede usar el mismo modelo, que tiene densidad Debido a que sus valores están fijados por diseño experimental, son sus éxitos observados, está realizando inferencia en el parámetro $n$ $y \in \{0...n\}$

Pr (y) \sim (\binom{norte}{y}) θ^{y} (1 - θ)^{norte - y}

$\Pr(y) \sim \binom{n}{y}\theta^y(1-\theta)^{n-y}$

n

$n$

y

$y$

θ

$\theta$ de la misma manera que el caso de respuesta binaria más típico (arriba), en el que se fija en 1, toma el valor 1 con probabilidad , y es una función de sus parámetros. Para el caso del enlace logit, entonces , principalmente porque esta transformada existe en toda la línea real, en lugar del intervalo unitario . (En Agresti se describen otras propiedades deseables del enlace logit, incluida la validez de los coeficientes incluso en entornos donde se usan muestras no aleatorias como diseños de control de casos; este no es el caso, por ejemplo, de las funciones de enlace probit).

n

$n$

y

$y$

θ

$\theta$

θ

$\theta$

logit (θ) = β_{0 0} + β_{1} X_{1} + . . . + β_{yo} X_{yo}

$\text{logit}(\theta)=\beta_0+\beta_1x_1+...+\beta_ix_i$

θ

$\theta$

En términos de R, simplemente cree un objeto (que usted glmDVllama) que es una matriz de 2 columnas, la primera columna el número de éxitos y el segundo el número total de fallas . ¡El resto de la declaración sigue siendo la misma! $y$ $n-y$

Sycorax dice reinstalar a Mónica
fuente

Esta validación cruzada fue muy útil. Revisaré a Agresti en la biblioteca. Gracias por tu ayuda.

user2205916

@Sycorax o @ user2205916, específicamente, ¿cómo se pasa la "matriz de 2 columnas" que contiene números de éxitos y fracasos a R, y cómo R hace uso de esto? Estoy familiarizado con el uso glmy, que yo sepa, solo acepta una variable de respuesta de 1 columna, no dos columnas. Corríjame si estoy equivocado y, si es posible, cite documentación relevante. ¡Gracias!

clarpaul

@clarpaul stat.ethz.ch/R-manual/R-patched/library/stats/html/glm.html Primer párrafo de "Detalles" en la glmdocumentación. Una buena manera de aprender cómo funcionan las funciones R es buscar en Google el nombre de la función; esto generalmente muestra la documentación relevante. También puede escribir ?glmen una consola R

Sycorax dice Reinstate Monica

@ Sycorax, gracias por buscar eso para mí. Lo puse en práctica ayer, ¡y pareció funcionar!

clarpaul

Traducir el comando glm de R en notación matemática

Respuestas: