Supongamos que tenemos un modelo de regresión logística:
Dada una muestra aleatoria de tamaño N , podemos calcular intervalos de confianza para el \ boldsymbol {\ beta} e intervalos de predicción correspondientes para p , dado un cierto valor \ mathbf {x} ^ * del vector predictor. Todo esto es muy estándar y detallado, por ejemplo, aquí .
Supongamos, en cambio, que estoy interesado en un intervalo de predicción para , dado . Por supuesto, no tiene ningún sentido calcular un intervalo de predicción para una sola realización de , porque solo puede tomar los valores 0 y 1, y ningún valor intermedio. Sin embargo , si consideramos realizaciones de para el mismo valor fijo de , esto se vuelve similar (pero no idéntico) a la cuestión de calcular un intervalo de predicción para una variable aleatoria binomial . Esta es básicamente la misma situación descrita por Glen_b en los comentarios a esta respuesta.. ¿Esta pregunta tiene una respuesta, aparte de la trivial "usar bootstrap no paramétrico"?
fuente
Respuestas:
Una forma en que esto debería funcionar sin bootstrapping (que en la práctica puede ser lo más rápido que se implementa) sería:
Alternativamente, uno puede "simplemente" integrar las probabilidades de registro de la predicción conjunta del resultado y las probabilidades de registro, pero creo que será un completo desastre sin una solución de forma cerrada.
fuente