Estoy tratando de entender el concepto de sobredispersión en regresión logística. He leído que la sobredispersión es cuando la varianza observada de una variable de respuesta es mayor de lo que se esperaría de la distribución binomial.
Pero si una variable binomial solo puede tener dos valores (1/0), ¿cómo puede tener una media y una varianza?
Estoy bien con el cálculo de la media y la varianza de los éxitos de x número de ensayos de Bernoulli. Pero no puedo entender el concepto de una media y la varianza de una variable que solo puede tener dos valores.
¿Alguien puede proporcionar una visión general intuitiva de:
- El concepto de media y varianza en una variable que solo puede tener dos valores
- El concepto de sobredispersión en una variable que solo puede tener dos valores
Respuestas:
Una variable aleatoria binomial connorte ensayos y probabilidad de éxito pag puede tomar más de dos valores. La variable aleatoria binomial representa el número de éxitos en esosnorte ensayos, y de hecho puede tomar norte+ 1 valores diferentes (0 , 1 , 2 , 3 , . . . , N ) Entonces, si la varianza de esa distribución es mayor de lo esperado bajo los supuestos binomiales (tal vez hay ceros en exceso, por ejemplo), ese es un caso de sobredispersión.
La sobredispersión no tiene sentido para una variable aleatoria de Bernoulli (norte= 1 )
En el contexto de una curva de regresión logística, puede considerar una "pequeña porción", o agrupación, a través de un rango estrecho de valor predictivo como una realización de un experimento binomial (tal vez tengamos 10 puntos en la porción con un cierto número de éxitos y fracasos). A pesar de que realmente no tenemos múltiples ensayos en cada valor predictivo y estamos buscando proporciones en lugar de recuentos sin procesar, aún esperamos que la proporción de cada uno de estos "cortes" esté cerca de la curva. Si estos "cortes" tienden a estar muy lejos de la curva, hay demasiada variabilidad en la distribución. Entonces, al agrupar las observaciones, crea realizaciones de variables aleatorias binomiales en lugar de mirar los datos 0/1 individualmente.
El siguiente ejemplo es de otra pregunta en este sitio. Digamos que las líneas azules representan la proporción esperada en el rango de variables predictoras. Las celdas azules indican instancias observadas (en este caso, escuelas). Esto proporciona una representación gráfica de cómo puede verse la sobredispersión . Tenga en cuenta que existen fallas en la interpretación de las celdas del gráfico a continuación, pero proporciona una idea de cómo puede manifestarse la sobredispersión.
fuente
Como ya señalaron otros, la sobredispersión no se aplica en el caso de una variable de Bernoulli (0/1), ya que en ese caso, la media determina necesariamente la varianza. En el contexto de la regresión logística, esto significa que si su resultado es binario, no puede estimar un parámetro de dispersión. (Nota: ¡Esto no significa que pueda ignorar la posible correlación entre observaciones simplemente porque su resultado es binario!)
Si, por otro lado, su resultado es un conjunto de proporciones, entonces puede estimar un parámetro de dispersión (que, aunque a menudo es mayor que uno, también puede ser menor que uno) dividiendo el estadístico chi-cuadrado de Pearson (o la desviación) ) por los grados residuales de libertad.
Recuerde, la regresión logística con un resultado puramente binario es solo un caso especial del modelo de regresión logística más general en el que el índice binomial puede exceder uno (y puede variar según las observaciones). Por lo tanto, la pregunta de si está ajustando un modelo de regresión logística o no no tiene relación con la pregunta de si sus datos están dispersos en exceso.
fuente