Sobredispersión en regresión logística

Estoy tratando de entender el concepto de sobredispersión en regresión logística. He leído que la sobredispersión es cuando la varianza observada de una variable de respuesta es mayor de lo que se esperaría de la distribución binomial.

Pero si una variable binomial solo puede tener dos valores (1/0), ¿cómo puede tener una media y una varianza?

Estoy bien con el cálculo de la media y la varianza de los éxitos de x número de ensayos de Bernoulli. Pero no puedo entender el concepto de una media y la varianza de una variable que solo puede tener dos valores.

¿Alguien puede proporcionar una visión general intuitiva de:

El concepto de media y varianza en una variable que solo puede tener dos valores
El concepto de sobredispersión en una variable que solo puede tener dos valores

logistic variance binomial mean overdispersion luciano
fuente

Agregar 20 valores de

y

$y$ , donde 10 son

0

$0$ y 10 son

1

$1$ . ¿Puedes dividir esto por 20? ¿Puedes calcular el SD?

y

$y$ ?

Sycorax dice Reinstate Monica

Bien dicho, así que creo que es media = 0.5, desviación estándar = 0.11.

luciano

Digamos que mi variable de respuesta tuvo 100 éxitos y 5 falló. ¿Es probable que esto se sobredisperse?

luciano

luciano, necesitas más de una realización del experimento para determinar si está sobredispersado.

Underminer

Respuestas:

Una variable aleatoria binomial con $N$ ensayos y probabilidad de éxito $p$ puede tomar más de dos valores. La variable aleatoria binomial representa el número de éxitos en esos $N$ ensayos, y de hecho puede tomar $N+1$ valores diferentes ( $0,1,2,3,...,N$ ) Entonces, si la varianza de esa distribución es mayor de lo esperado bajo los supuestos binomiales (tal vez hay ceros en exceso, por ejemplo), ese es un caso de sobredispersión.

La sobredispersión no tiene sentido para una variable aleatoria de Bernoulli ( $N = 1$ )

En el contexto de una curva de regresión logística, puede considerar una "pequeña porción", o agrupación, a través de un rango estrecho de valor predictivo como una realización de un experimento binomial (tal vez tengamos 10 puntos en la porción con un cierto número de éxitos y fracasos). A pesar de que realmente no tenemos múltiples ensayos en cada valor predictivo y estamos buscando proporciones en lugar de recuentos sin procesar, aún esperamos que la proporción de cada uno de estos "cortes" esté cerca de la curva. Si estos "cortes" tienden a estar muy lejos de la curva, hay demasiada variabilidad en la distribución. Entonces, al agrupar las observaciones, crea realizaciones de variables aleatorias binomiales en lugar de mirar los datos 0/1 individualmente.

El siguiente ejemplo es de otra pregunta en este sitio. Digamos que las líneas azules representan la proporción esperada en el rango de variables predictoras. Las celdas azules indican instancias observadas (en este caso, escuelas). Esto proporciona una representación gráfica de cómo puede verse la sobredispersión . Tenga en cuenta que existen fallas en la interpretación de las celdas del gráfico a continuación, pero proporciona una idea de cómo puede manifestarse la sobredispersión.

Socavador
fuente

Pero estoy interesado en la dispersión excesiva en el contexto de la regresión logística. Para cada valor de una variable predictora en regresión logística, no hay n ensayos, solo hay un ensayo. Y el resultado de esa prueba es el éxito o el fracaso

luciano

Acabo de agregar un párrafo para abordar la intuición detrás de la sobredispersión en el contexto de la regresión lineal.

Underminer

Underminer, estoy tratando de imaginar lo que quieres decir con esta oración: "Si estos" cortes "tienden a estar muy lejos de la curva, hay demasiada variabilidad en la distribución". Esto es lo que creo que quiere decir: en el corte de la curva donde hay una probabilidad de éxito de 0.1-0.3 hay muchos éxitos y en el corte de la curva donde hay una probabilidad de éxito de 0.7-0.9 hay muchos de fallas ¿Es esto lo que quieres decir y representaría una sobredispersión?

luciano

@luciano Esa es la idea correcta. Pero tenga en cuenta que tiene que haber un equilibrio de "cortes" que estén muy por encima y por debajo de la curva para que el ajuste haya ocurrido en primer lugar. Por lo tanto, puede ser más realista decir que un segmento de alrededor de 0.7 tiene demasiados éxitos (tal vez el 100%) y el próximo segmento de alrededor de 0.75 tiene muy pocos (50%), luego 0.80 tiene demasiados (100%), etc. Se observa más varianza de la esperada.

Underminer

Ya te tengo, bien explicado

luciano

Como ya señalaron otros, la sobredispersión no se aplica en el caso de una variable de Bernoulli (0/1), ya que en ese caso, la media determina necesariamente la varianza. En el contexto de la regresión logística, esto significa que si su resultado es binario, no puede estimar un parámetro de dispersión. (Nota: ¡Esto no significa que pueda ignorar la posible correlación entre observaciones simplemente porque su resultado es binario!)

Si, por otro lado, su resultado es un conjunto de proporciones, entonces puede estimar un parámetro de dispersión (que, aunque a menudo es mayor que uno, también puede ser menor que uno) dividiendo el estadístico chi-cuadrado de Pearson (o la desviación) ) por los grados residuales de libertad.

Recuerde, la regresión logística con un resultado puramente binario es solo un caso especial del modelo de regresión logística más general en el que el índice binomial puede exceder uno (y puede variar según las observaciones). Por lo tanto, la pregunta de si está ajustando un modelo de regresión logística o no no tiene relación con la pregunta de si sus datos están dispersos en exceso.

Phil Schumm
fuente