Estoy ejecutando una regresión logística binaria con 3 variables numéricas. Estoy suprimiendo la intersección en mis modelos ya que la probabilidad debería ser cero si todas las variables de entrada son cero.
¿Cuál es el número mínimo de observaciones que debo usar?
regression
logistic
usuario333
fuente
fuente
Respuestas:
Hay una manera de llegar a un punto de partida sólido. Supongamos que no hay covariables, por lo que el único parámetro en el modelo fue la intercepción. ¿Cuál es el tamaño de muestra requerido para permitir que la estimación de la intersección sea lo suficientemente precisa como para que la probabilidad pronosticada esté dentro de 0.1 de la probabilidad verdadera con un 95% de confianza, cuando la intersección verdadera está cerca de cero? La respuesta es n = 96. ¿Qué pasaría si hubiera una covariable y fuera binaria con una prevalencia de 0.5? Se necesitarían 96 sujetos con x = 0 y 96 con x = 1 para tener un límite superior en el margen de error para estimar Prob [Y = 1 | X = x] no exceda 0.1. La fórmula general para el tamaño de la muestra requerida para lograr un margen de error de al estimar una probabilidad verdadera de en el nivel de confianza de 0.95 esδ pags n = (1,96δ)2× p ( 1 - p ) . Establezca para el peor de los casos.p = 0.5
fuente
glmnet
esto para encontrar el predictor más útil en esta etapa?Realmente no hay un número mínimo de observaciones. Esencialmente, cuantas más observaciones tenga, más los parámetros de su modelo estarán limitados por los datos, y más seguro será el modelo. La cantidad de observaciones que necesita depende de la naturaleza del problema y de la confianza que necesita para estar en su modelo. No creo que sea una buena idea confiar demasiado en las "reglas generales" sobre este tipo de cosas, pero use todos los datos que pueda obtener e inspeccione los intervalos de confianza / credibilidad en los parámetros de su modelo y en las predicciones.
fuente
Actualización: no vi el comentario anterior, de @David Harris, que es muy parecido al mío. Lo siento por eso. Ustedes pueden eliminar mi respuesta si es demasiado similar.
Subiría la publicación Dikran Marsupail y agregaría mis dos centavos.
Tenga en cuenta su conocimiento previo sobre los efectos que espera de sus variables independientes. Si espera efectos pequeños, necesitará una muestra enorme. Si se espera que los efectos sean grandes, entonces una pequeña muestra puede hacer el trabajo.
Como ya sabrá, los errores estándar son una función del tamaño de la muestra, por lo que cuanto mayor sea el tamaño de la muestra, menores serán los errores estándar. Por lo tanto, si los efectos son pequeños, es decir, están cerca de cero, solo un pequeño error estándar podrá detectar este efecto, es decir, para mostrar que es significativamente diferente de cero. Por otro lado, si el efecto es grande (lejos de cero), incluso un error estándar grande producirá resultados significativos.
Si necesita alguna referencia, eche un vistazo al blog de Andrew Gelmans.
fuente
Parece que para obtener una estimación aceptable tenemos que aplicar las reglas que han sido examinadas por otros investigadores. Estoy de acuerdo con las dos reglas generales anteriores (10 obs para cada var. Y la fórmula de Harrell). Aquí, hay otra pregunta de que los datos son revelados o de preferencia declarada. Hosmer y Lemeshow en su libro han proporcionado una regla para revelados y Louviere y Hensher en su libro (Los métodos de preferencia declarada) proporcionaron una regla para los datos de preferencia declarados
fuente