Intervalos de predicción para el resultado de una regresión logística con respuesta binomial

8

Supongamos que tenemos un modelo de regresión logística:

P(y=1|x)=plog(p1p)=βx

Dada una muestra aleatoria de tamaño N , podemos calcular intervalos de confianza para el \ boldsymbol {\ beta} e intervalos de predicción correspondientes para p , dado un cierto valor \ mathbf {x} ^ * del vector predictor. Todo esto es muy estándar y detallado, por ejemplo, aquí .D={X,y}Nβpx

Supongamos, en cambio, que estoy interesado en un intervalo de predicción para y , dado x . Por supuesto, no tiene ningún sentido calcular un intervalo de predicción para una sola realización de y , porque y solo puede tomar los valores 0 y 1, y ningún valor intermedio. Sin embargo , si consideramos m realizaciones de y para el mismo valor fijo de x , esto se vuelve similar (pero no idéntico) a la cuestión de calcular un intervalo de predicción para una variable aleatoria binomial . Esta es básicamente la misma situación descrita por Glen_b en los comentarios a esta respuesta.. ¿Esta pregunta tiene una respuesta, aparte de la trivial "usar bootstrap no paramétrico"?

DeltaIV
fuente
¿puedes calcular un intervalo de predicción para log(p/(1p)) lugar quizás?
Hugh Perkins
2
@HughPerkins Creo que el problema es cómo combinar la incertidumbre en p con la incertidumbre en el muestreo binomial también dada la incertidumbre en p . ¿Hay una solución de forma cerrada?
EdM
@ Edm tienes mi punto. Me pregunto si hay una solución de forma cerrada o una aproximación analítica.
DeltaIV
1
idea aleatoria [fuera del tema], se me ocurre que podría ser interesante tener una etiqueta como 'oportunidad de investigación abierta' para preguntas como esta que / si se responden negativamente
Hugh Perkins

Respuestas:

4

Una forma en que esto debería funcionar sin bootstrapping (que en la práctica puede ser lo más rápido que se implementa) sería:

  1. Suponga que funciona una aproximación normal para las probabilidades de registro predichas ( ) más / menos su error estándar. Cualquier software de regresión logística proporcionará esto.xβ^
  2. Los percentiles de esta distribución se transforman en probabilidades a través del anti-logit.
  3. Se puede encontrar una (mezcla de) distribución (es) beta (s) que se aproxima a la distribución predictiva del pozo de probabilidad.
  4. La distribución predictiva para el resultado es entonces una (mezcla de) distribución beta-binomial (s con los mismos pesos de mezcla utilizados en el paso 3).

Alternativamente, uno puede "simplemente" integrar las probabilidades de registro de la predicción conjunta del resultado y las probabilidades de registro, pero creo que será un completo desastre sin una solución de forma cerrada.

Björn
fuente
44
También podría simular directamente a partir de la normal asintótica multivariada para , y luego formar una mezcla de binomios sobre esos valores. ββ^
Glen_b: reinstala a Mónica el
Me gusta la idea general, pero no estoy seguro de los detalles. Por ejemplo, "encuentre una (mezcla de) distribución (es) beta (s) que se aproxime a la distribución predictiva del pozo de probabilidad", ¿cómo lo hace en la práctica? ¿Podría agregar un ejemplo? Incluso una de baja dimensión sería suficiente.
DeltaIV
3
Puedo escribir esto como algo en forma de respuesta si lo prefieres, no me importa de ninguna manera.
Glen_b -Reinstate a Mónica el
2
@Glen_b Realmente lo agradecería.
DeltaIV
1
@Glen_b, me interesaría ver esa respuesta.
Richard Hardy