¿Número mínimo de observaciones para regresión logística?

9

Estoy ejecutando una regresión logística binaria con 3 variables numéricas. Estoy suprimiendo la intersección en mis modelos ya que la probabilidad debería ser cero si todas las variables de entrada son cero.

¿Cuál es el número mínimo de observaciones que debo usar?

usuario333
fuente
10
¡Necesitaría una intercepción de para hacer eso! Una intersección de 0 corresponde a una probabilidad de 11+exp(0)=1/2 , no 0 , cuando todas las variables independientes son cero.
whuber
2
Aquí hay una discusión relacionada: tamaño de muestra para regresión logística .
gung - Restablece a Monica

Respuestas:

19

Hay una manera de llegar a un punto de partida sólido. Supongamos que no hay covariables, por lo que el único parámetro en el modelo fue la intercepción. ¿Cuál es el tamaño de muestra requerido para permitir que la estimación de la intersección sea lo suficientemente precisa como para que la probabilidad pronosticada esté dentro de 0.1 de la probabilidad verdadera con un 95% de confianza, cuando la intersección verdadera está cerca de cero? La respuesta es n = 96. ¿Qué pasaría si hubiera una covariable y fuera binaria con una prevalencia de 0.5? Se necesitarían 96 sujetos con x = 0 y 96 con x = 1 para tener un límite superior en el margen de error para estimar Prob [Y = 1 | X = x] no exceda 0.1. La fórmula general para el tamaño de la muestra requerida para lograr un margen de error de al estimar una probabilidad verdadera de en el nivel de confianza de 0.95 esδpn=(1.96δ)2×p(1p) . Establezca para el peor de los casos.p=0.5

Frank Harrell
fuente
Agradezco tu ayuda en este foro. Tengo ~ 90000 eventos y ~ 2000000 no eventos. Necesito un modelo logístico con 65 predictores. Ahora cómo y cuántas muestras puedo tomar. de hecho mi pregunta está relacionada con stats.stackexchange.com/questions/268201/…
SIslam
2
No hay problema con el ajuste 65 simultáneamente con su tamaño de muestra efectivo.
Frank Harrell
pero me sugirieron que demasiadas muestras pueden causar problemas ya que estaba obteniendo psudo r al cuadrado como bajo.
SIslam
3
¿Estás bromeando? Si el es bajo usando una muestra grande, esa es la estimación más precisa del verdadero y la caída de las observaciones no mejorará el rendimiento del modelo; solo empeorará las cosas. Complemente el con otras métricas más fáciles de entender, como el índice (probabilidad de concordancia; área ROC). Y, sobre todo, ignore cualquier consejo para "equilibrar" las frecuencias de la categoría de resultados. R2R2R2c
Frank Harrell
¿Necesito usar glmnet esto para encontrar el predictor más útil en esta etapa?
SIslam
9

Realmente no hay un número mínimo de observaciones. Esencialmente, cuantas más observaciones tenga, más los parámetros de su modelo estarán limitados por los datos, y más seguro será el modelo. La cantidad de observaciones que necesita depende de la naturaleza del problema y de la confianza que necesita para estar en su modelo. No creo que sea una buena idea confiar demasiado en las "reglas generales" sobre este tipo de cosas, pero use todos los datos que pueda obtener e inspeccione los intervalos de confianza / credibilidad en los parámetros de su modelo y en las predicciones.

Dikran Marsupial
fuente
sin número mínimo! Tengo ~ 90000 eventos y ~ 2000000 no eventos. Necesito un modelo logístico con 65 regresores. Me han dicho que se trata de demasiadas muestras, ya que estoy tomando todo este ~ 90000 eventos y ~ 90000 no eventos seleccionados al azar de ~ 2000000, trato de disminuir la muestra mientras las muestras son representativas. en esta etapa, ¿cuántas muestras puedo tomar y cómo? De hecho, me refiero stats.stackexchange.com/questions/268201/…
SIslam
3
No, no hagas eso
Frank Harrell
1
Estoy de acuerdo con @FrankHarrell (¿posiblemente por una razón diferente?). El problema del "desequilibrio de clase" tiende a desaparecer a medida que se recopilan más datos, y si equilibra artificialmente los datos de entrenamiento, le está diciendo al modelo que las frecuencias de clase operativa son 50-50, lo que probablemente no sea cierto, y lo superará clasificar la clase minoritaria en uso operacional. Si hace esto, luego procese las probabilidades de salida para ajustar la diferencia en las frecuencias de entrenamiento y clase operativa (en ese punto, probablemente obtendrá esencialmente el mismo resultado que el entrenamiento con todos los datos).
Dikran Marsupial
0

Actualización: no vi el comentario anterior, de @David Harris, que es muy parecido al mío. Lo siento por eso. Ustedes pueden eliminar mi respuesta si es demasiado similar.

Subiría la publicación Dikran Marsupail y agregaría mis dos centavos.

Tenga en cuenta su conocimiento previo sobre los efectos que espera de sus variables independientes. Si espera efectos pequeños, necesitará una muestra enorme. Si se espera que los efectos sean grandes, entonces una pequeña muestra puede hacer el trabajo.

Como ya sabrá, los errores estándar son una función del tamaño de la muestra, por lo que cuanto mayor sea el tamaño de la muestra, menores serán los errores estándar. Por lo tanto, si los efectos son pequeños, es decir, están cerca de cero, solo un pequeño error estándar podrá detectar este efecto, es decir, para mostrar que es significativamente diferente de cero. Por otro lado, si el efecto es grande (lejos de cero), incluso un error estándar grande producirá resultados significativos.

Si necesita alguna referencia, eche un vistazo al blog de Andrew Gelmans.

Manoel Galdino
fuente
1
El blog de Gelman se está volviendo bastante grande :-). ¿Tienes una publicación en particular en mente?
whuber
@Whuber, tienes razón, debería haber señalado algo más específico. Tiene algunas presentaciones de charlas recientes sobre pequeños efectos y comparaciones múltiples, pero creo que el siguiente enlace es suficiente: stat.columbia.edu/~gelman/research/published/power4r.pdf
Manoel Galdino
1
ese enlace en los comentarios está muerto y no hay referencia a una publicación particular del blog mencionado
baxx
0

Parece que para obtener una estimación aceptable tenemos que aplicar las reglas que han sido examinadas por otros investigadores. Estoy de acuerdo con las dos reglas generales anteriores (10 obs para cada var. Y la fórmula de Harrell). Aquí, hay otra pregunta de que los datos son revelados o de preferencia declarada. Hosmer y Lemeshow en su libro han proporcionado una regla para revelados y Louviere y Hensher en su libro (Los métodos de preferencia declarada) proporcionaron una regla para los datos de preferencia declarados

Ahmad
fuente
2
Esto se beneficiaría de una explicación más completa y también referencias completas y precisas.
Nick Cox