Tamaño de muestra para regresión logística?

26

Quiero hacer un modelo logístico a partir de los datos de mi encuesta. Es una pequeña encuesta de cuatro colonias residenciales en la que solo se entrevistó a 154 encuestados. Mi variable dependiente es "transición satisfactoria al trabajo". Descubrí que, de los 154 encuestados, 73 dijeron que habían hecho una transición satisfactoria al trabajo, mientras que el resto no. Entonces la variable dependiente es de naturaleza binaria y decidí usar la regresión logística. Tengo siete variables independientes (tres continuas y cuatro nominales). Una directriz sugiere que debe haber 10 casos para cada predictor / variable independiente (Agresti, 2007). Según esta directriz, creo que está bien ejecutar una regresión logística.

Estoy en lo cierto? Si no es así, hágame saber cómo decidir el número de variables independientes.

Braj-Stat
fuente
3
Nunca he entendido realmente la regla general que dice "10 casos para cada predictor" (y desafortunadamente no tengo acceso al libro escrito por Agresti). Lo que quiero decir es: si tengo 100 sujetos de los cuales 10 son casos (los 1's) y 90 no casos (los 0' s), entonces la regla dice "incluye solo 1 predictor". Pero, ¿qué pasa si modelo el 0's en lugar del 1' s y luego tomo el recíproco de las razones de probabilidades estimadas? ¿Se me permitiría incluir 9 predictores? Eso no tiene sentido.
boscovich
Querida Andrea, he dicho lo mismo que quieres decir. De 154 encuestados hay 73 casos (los 1 y los 0 restantes). ¿Podría arrojar algo de luz sobre mi pregunta? ¡Gracias!
Braj-Stat
44
En un comentario, he leído que hay que mirar el mínimo de la cantidad de eventos y no eventos. Entonces, en el ejemplo de 10/100, terminas con un predictor independientemente de cómo lo codifiques.
psj
@psj eso suena razonable. ¿Tienes alguna referencia?
boscovich
1
Aquí hay una discusión relacionada: número mínimo de observaciones para regresión logística .
gung - Restablecer Monica

Respuestas:

25

Hay varios problemas aqui.

Por lo general, queremos determinar un tamaño mínimo de muestra para lograr un nivel de potencia estadística mínimamente aceptable . El tamaño de muestra requerido es una función de varios factores, principalmente la magnitud del efecto que desea poder diferenciar de 0 (o cualquier valor nulo que esté utilizando, pero 0 es el más común), y la probabilidad mínima de detectar ese efecto querer tener. Trabajando desde esta perspectiva, el tamaño de la muestra se determina mediante un análisis de potencia.

Otra consideración es la estabilidad de su modelo (como señala @cbeleites). Básicamente, a medida que la proporción de parámetros estimados para el número de datos se acerca a 1, su modelo se saturará y necesariamente se sobreajustará (a menos que, de hecho, no haya aleatoriedad en el sistema). La regla general de la proporción de 1 a 10 proviene de esta perspectiva. Tenga en cuenta que tener una potencia adecuada generalmente cubrirá esta preocupación para usted, pero no al revés.

Sin embargo, la regla del 1 al 10 proviene del mundo de la regresión lineal, y es importante reconocer que la regresión logística tiene complejidades adicionales. Un problema es que la regresión logística funciona mejor cuando los porcentajes de 1 y 0 son aproximadamente del 50% / 50% (como comentan @andrea y @psj en los comentarios anteriores). Otro tema que debe preocuparse es la separación . Es decir, no desea tener todos sus 1 reunidos en un extremo de una variable independiente (o alguna combinación de ellos), y todos los 0 en el otro extremo. Aunque esto parecería una buena situación, porque facilitaría la predicción perfecta, en realidad hace que el proceso de estimación de parámetros explote. (@Scortchi tiene una excelente discusión sobre cómo lidiar con la separación en regresión logística aquí:¿Cómo lidiar con la separación perfecta en la regresión logística? ) Con más IV, esto se vuelve más probable, incluso si las verdaderas magnitudes de los efectos se mantienen constantes, y especialmente si sus respuestas no están equilibradas. Por lo tanto, puede necesitar fácilmente más de 10 datos por IV.

Un último problema con esa regla general es que supone que sus IV son ortogonales . Esto es razonable para experimentos diseñados, pero con estudios de observación como el suyo, sus IV casi nunca serán más o menos ortogonales. Existen estrategias para lidiar con esta situación (por ejemplo, combinar o descartar IV, realizar primero un análisis de componentes principales, etc.), pero si no se aborda (lo cual es común), necesitará más datos.

Una pregunta razonable es, ¿cuál debería ser su N mínimo y / o es suficiente su tamaño de muestra? Para abordar esto, le sugiero que use los métodos que @cbeleites analiza; confiar en la regla del 1 al 10 será insuficiente.

gung - Restablece a Monica
fuente
66
¿Puede proporcionar una referencia para la afirmación "Un problema es que la regresión logística funciona mejor cuando los porcentajes de 1 y 0 son aproximadamente 50% / 50%"? Me he estado preguntando acerca de esto, ya que tengo un conjunto de datos que está muy lejos de 50/50 y me pregunto las implicaciones. (perdón por resucitar el hilo)
Trevor
3
No veo ningún problema con resucitar un hilo viejo cuando es apropiado, @Trevor. Creo que lo que está buscando es algo similar a esta buena respuesta de conjugado anterior: hace-una-muestra-no-balanceada-materia-al-hacer-regresión logística .
gung - Restablece a Monica
2
+1 a la pregunta de Trevor. Creo que la regresión logística continuará beneficiándose de los nuevos datos, incluso si esos datos son del mismo caso (a pesar de los rendimientos decrecientes). Eso es realmente algo que me ha molestado sobre las técnicas de aprendizaje automático, como los bosques aleatorios, que pueden empeorar al agregar datos de capacitación más relevantes. Tal vez hay un punto en el que la regresión logística se rompería debido a consideraciones numéricas si el desequilibrio se volviera demasiado severo. Estaría interesado en aprender más sobre esto.
Ben Ogorek
+1, tal vez esto está implícito en su respuesta No estoy seguro, pero me pregunto cómo funciona esto para las variables categóricas con diferentes niveles. ¿Se sugiere tener 10 observaciones por nivel?
baxx
1
Es una regla general, @baxx, pero sí, para hacer algo más que estimar los porcentajes, necesitaría al menos 45.
Gung -
16

Normalmente uso una regla de 15: 1 (relación de min (eventos, no eventos) a número de parámetros candidatos en el modelo). Un trabajo más reciente encontró que para una validación más rigurosa se necesita 20: 1. Puede encontrar más información en los folletos de mi curso vinculados desde http://biostat.mc.vanderbilt.edu/rms , en particular un argumento para un tamaño mínimo de muestra de 96 solo para estimar la intercepción. Pero el requisito del tamaño de la muestra tiene más matices, y un artículo aún más reciente aborda esto de manera más integral.

Frank Harrell
fuente
14

Por lo general, muy pocos casos wrt. La complejidad del modelo (número de parámetros) significa que los modelos son inestables . Entonces, si desea saber si el tamaño de la muestra / complejidad del modelo está bien, verifique si obtiene un modelo razonablemente estable.

Hay (al menos) dos tipos diferentes de inestabilidad:

  1. Los parámetros del modelo varían mucho con solo pequeños cambios en los datos de entrenamiento.

  2. Las predicciones (para el mismo caso) de modelos entrenados con ligeros cambios en los datos de entrenamiento varían mucho.

Puede medir 1. observando cuánto varían los coeficientes de su modelo si los datos de entrenamiento se alteran ligeramente. Se puede calcular un conjunto adecuado de modelos, por ejemplo, durante bootstrap o procedimientos de validación cruzada (iterados).

Para algunos tipos de modelos o problemas, los parámetros variables no implican predicciones variables. Puede verificar directamente la inestabilidad 2. observando la variación de las predicciones para el mismo caso (independientemente de si son correctas o no) calculadas durante la validación cruzada iterativa o fuera de arranque.

cbeleites apoya a Monica
fuente
5

No hay reglas estrictas, pero puede incluir todas las variables independientes siempre que las variables nominales no tengan demasiadas categorías. Necesita una "beta" para todos excepto uno de la clase para cada variable nominal. Entonces, si una variable nominal dijera "área de trabajo" y tiene 30 áreas, necesitaría 29 betas.

Una forma de superar este problema es regularizar las versiones beta o penalizar los coeficientes grandes. Esto ayuda a garantizar que su modelo no sobreajuste los datos. La regularización de L2 y L1 son opciones populares.

Otro tema a considerar es qué tan representativa es su muestra. ¿De qué población quieres hacer inferencia? ¿tiene todos los diferentes tipos de personas en la muestra que hay en la población? será difícil hacer una inferencia precisa si su muestra tiene "agujeros" (por ejemplo, no hay mujeres de 35 a 50 años en la muestra o no hay trabajadores de altos ingresos, etc.)

probabilidadislogica
fuente
4

Aquí está la respuesta real del sitio web de MedCalc que user41466 escribió sobre

http://www.medcalc.org/manual/logistic_regression.php

Consideraciones de tamaño de muestra

El cálculo del tamaño de la muestra para la regresión logística es un problema complejo, pero basado en el trabajo de Peduzzi et al. (1996) se puede sugerir la siguiente guía para un número mínimo de casos a incluir en su estudio. Sea p la menor de las proporciones de casos negativos o positivos en la población yk el número de covariables (el número de variables independientes), entonces el número mínimo de casos a incluir es: N = 10 k / p Por ejemplo: usted tienen 3 covariables para incluir en el modelo y la proporción de casos positivos en la población es de 0.20 (20%). El número mínimo de casos requeridos es N = 10 x 3 / 0.20 = 150 Si el número resultante es inferior a 100, debe aumentarlo a 100 como sugiere Long (1997).

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Un estudio de simulación del número de eventos por variable en el análisis de regresión logística. Journal of Clinical Epidemiology 49: 1373-1379.

usuario2387584
fuente
Por lo tanto, son los mismos 10 casos por variable independiente (con piso)
seanv507
1

Los resultados de cualquier modelo logístico con el número de observaciones por variable independiente que varía de al menos cinco a nueve son confiables, especialmente si los resultados son estadísticamente significativos (Vittinghoff y McCulloch, 2007).

Vittinghoff, E. y McCulloch, CE 2007. Relajando la regla de diez eventos por variable en regresión logística y de Cox. American Journal of Epidemiology, 165 (6): 710–718.

usuario143522
fuente
Tenga en cuenta que no es estrictamente el "número de observaciones por variable independiente" lo que está en cuestión, es el número de "eventos". Para una regresión logística, el número de "eventos" es el número de casos en la menos frecuente de las dos clases de resultados. Eso no será mayor que la mitad del número de observaciones totales, y en algunas aplicaciones mucho menor que eso.
EdM