Quiero hacer un modelo logístico a partir de los datos de mi encuesta. Es una pequeña encuesta de cuatro colonias residenciales en la que solo se entrevistó a 154 encuestados. Mi variable dependiente es "transición satisfactoria al trabajo". Descubrí que, de los 154 encuestados, 73 dijeron que habían hecho una transición satisfactoria al trabajo, mientras que el resto no. Entonces la variable dependiente es de naturaleza binaria y decidí usar la regresión logística. Tengo siete variables independientes (tres continuas y cuatro nominales). Una directriz sugiere que debe haber 10 casos para cada predictor / variable independiente (Agresti, 2007). Según esta directriz, creo que está bien ejecutar una regresión logística.
Estoy en lo cierto? Si no es así, hágame saber cómo decidir el número de variables independientes.
fuente
1
's) y 90 no casos (los0
' s), entonces la regla dice "incluye solo 1 predictor". Pero, ¿qué pasa si modelo el0
's en lugar del1
' s y luego tomo el recíproco de las razones de probabilidades estimadas? ¿Se me permitiría incluir 9 predictores? Eso no tiene sentido.Respuestas:
Hay varios problemas aqui.
Por lo general, queremos determinar un tamaño mínimo de muestra para lograr un nivel de potencia estadística mínimamente aceptable . El tamaño de muestra requerido es una función de varios factores, principalmente la magnitud del efecto que desea poder diferenciar de 0 (o cualquier valor nulo que esté utilizando, pero 0 es el más común), y la probabilidad mínima de detectar ese efecto querer tener. Trabajando desde esta perspectiva, el tamaño de la muestra se determina mediante un análisis de potencia.
Otra consideración es la estabilidad de su modelo (como señala @cbeleites). Básicamente, a medida que la proporción de parámetros estimados para el número de datos se acerca a 1, su modelo se saturará y necesariamente se sobreajustará (a menos que, de hecho, no haya aleatoriedad en el sistema). La regla general de la proporción de 1 a 10 proviene de esta perspectiva. Tenga en cuenta que tener una potencia adecuada generalmente cubrirá esta preocupación para usted, pero no al revés.
Sin embargo, la regla del 1 al 10 proviene del mundo de la regresión lineal, y es importante reconocer que la regresión logística tiene complejidades adicionales. Un problema es que la regresión logística funciona mejor cuando los porcentajes de 1 y 0 son aproximadamente del 50% / 50% (como comentan @andrea y @psj en los comentarios anteriores). Otro tema que debe preocuparse es la separación . Es decir, no desea tener todos sus 1 reunidos en un extremo de una variable independiente (o alguna combinación de ellos), y todos los 0 en el otro extremo. Aunque esto parecería una buena situación, porque facilitaría la predicción perfecta, en realidad hace que el proceso de estimación de parámetros explote. (@Scortchi tiene una excelente discusión sobre cómo lidiar con la separación en regresión logística aquí:¿Cómo lidiar con la separación perfecta en la regresión logística? ) Con más IV, esto se vuelve más probable, incluso si las verdaderas magnitudes de los efectos se mantienen constantes, y especialmente si sus respuestas no están equilibradas. Por lo tanto, puede necesitar fácilmente más de 10 datos por IV.
Un último problema con esa regla general es que supone que sus IV son ortogonales . Esto es razonable para experimentos diseñados, pero con estudios de observación como el suyo, sus IV casi nunca serán más o menos ortogonales. Existen estrategias para lidiar con esta situación (por ejemplo, combinar o descartar IV, realizar primero un análisis de componentes principales, etc.), pero si no se aborda (lo cual es común), necesitará más datos.
Una pregunta razonable es, ¿cuál debería ser su N mínimo y / o es suficiente su tamaño de muestra? Para abordar esto, le sugiero que use los métodos que @cbeleites analiza; confiar en la regla del 1 al 10 será insuficiente.
fuente
Normalmente uso una regla de 15: 1 (relación de min (eventos, no eventos) a número de parámetros candidatos en el modelo). Un trabajo más reciente encontró que para una validación más rigurosa se necesita 20: 1. Puede encontrar más información en los folletos de mi curso vinculados desde http://biostat.mc.vanderbilt.edu/rms , en particular un argumento para un tamaño mínimo de muestra de 96 solo para estimar la intercepción. Pero el requisito del tamaño de la muestra tiene más matices, y un artículo aún más reciente aborda esto de manera más integral.
fuente
Por lo general, muy pocos casos wrt. La complejidad del modelo (número de parámetros) significa que los modelos son inestables . Entonces, si desea saber si el tamaño de la muestra / complejidad del modelo está bien, verifique si obtiene un modelo razonablemente estable.
Hay (al menos) dos tipos diferentes de inestabilidad:
Los parámetros del modelo varían mucho con solo pequeños cambios en los datos de entrenamiento.
Las predicciones (para el mismo caso) de modelos entrenados con ligeros cambios en los datos de entrenamiento varían mucho.
Puede medir 1. observando cuánto varían los coeficientes de su modelo si los datos de entrenamiento se alteran ligeramente. Se puede calcular un conjunto adecuado de modelos, por ejemplo, durante bootstrap o procedimientos de validación cruzada (iterados).
Para algunos tipos de modelos o problemas, los parámetros variables no implican predicciones variables. Puede verificar directamente la inestabilidad 2. observando la variación de las predicciones para el mismo caso (independientemente de si son correctas o no) calculadas durante la validación cruzada iterativa o fuera de arranque.
fuente
No hay reglas estrictas, pero puede incluir todas las variables independientes siempre que las variables nominales no tengan demasiadas categorías. Necesita una "beta" para todos excepto uno de la clase para cada variable nominal. Entonces, si una variable nominal dijera "área de trabajo" y tiene 30 áreas, necesitaría 29 betas.
Una forma de superar este problema es regularizar las versiones beta o penalizar los coeficientes grandes. Esto ayuda a garantizar que su modelo no sobreajuste los datos. La regularización de L2 y L1 son opciones populares.
Otro tema a considerar es qué tan representativa es su muestra. ¿De qué población quieres hacer inferencia? ¿tiene todos los diferentes tipos de personas en la muestra que hay en la población? será difícil hacer una inferencia precisa si su muestra tiene "agujeros" (por ejemplo, no hay mujeres de 35 a 50 años en la muestra o no hay trabajadores de altos ingresos, etc.)
fuente
Aquí está la respuesta real del sitio web de MedCalc que user41466 escribió sobre
http://www.medcalc.org/manual/logistic_regression.php
Consideraciones de tamaño de muestra
El cálculo del tamaño de la muestra para la regresión logística es un problema complejo, pero basado en el trabajo de Peduzzi et al. (1996) se puede sugerir la siguiente guía para un número mínimo de casos a incluir en su estudio. Sea p la menor de las proporciones de casos negativos o positivos en la población yk el número de covariables (el número de variables independientes), entonces el número mínimo de casos a incluir es: N = 10 k / p Por ejemplo: usted tienen 3 covariables para incluir en el modelo y la proporción de casos positivos en la población es de 0.20 (20%). El número mínimo de casos requeridos es N = 10 x 3 / 0.20 = 150 Si el número resultante es inferior a 100, debe aumentarlo a 100 como sugiere Long (1997).
Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Un estudio de simulación del número de eventos por variable en el análisis de regresión logística. Journal of Clinical Epidemiology 49: 1373-1379.
fuente
Los resultados de cualquier modelo logístico con el número de observaciones por variable independiente que varía de al menos cinco a nueve son confiables, especialmente si los resultados son estadísticamente significativos (Vittinghoff y McCulloch, 2007).
Vittinghoff, E. y McCulloch, CE 2007. Relajando la regla de diez eventos por variable en regresión logística y de Cox. American Journal of Epidemiology, 165 (6): 710–718.
fuente