Las personas que trabajan con la regresión logística están familiarizadas con el tema de la separación perfecta: si tiene una variable de valores específicos que están asociados con solo uno de los dos resultados (diga una binaria tal que todas las observaciones con tengan resultado = 1 ), la probabilidad explota y las estimaciones de probabilidad máxima se ejecutan hasta el infinito. en R puede o no manejar eso terriblemente bien, ya que el mensaje de error de predicción perfecto puede aparecer por otras razones que no sean la predicción / separación perfecta. en Stata identifica tales variables y valores problemáticos, y los descarta del análisis.glm
logit
Mi pregunta es diferente de qué hacer si tienes una separación perfecta. Eso puedo manejar recodificando mis variables (todas son categóricas, por lo que simplemente puedo combinar categorías), o con la versión Firth de regresión logística si quiero ser elegante.
En cambio, me pregunto cuáles son las formas comunes de describir esto. Tengo un conjunto de datos con alrededor de 100 pacientes con aproximadamente el 50% de proporción "positiva", y algunas categorías de las variables demográficas producen esta predicción perfecta. Digamos que las 7 personas de ojos verdes tienen un resultado "positivo". Esta puede ser una peculiaridad de muestra pequeña que desaparecería si tuviera un tamaño de muestra de 1000 y 70 personas de ojos verdes, pero puede ser clínicamente significativo, ya que en esa muestra más grande podría tener 60 de 70 personas de ojos verdes que tendrían un resultado "positivo" con altas razones de posibilidades.
Por lo tanto, es bueno decir que utilicé un método de contracción bayesiano o de otro tipo, pero al describir cómo llegué allí, tendría que admitir que tuve una predicción / separación perfecta y que tuve que encontrar una técnica más sofisticada para obtener resultados. todas. ¿Cuál sería un buen idioma para usar aquí?
fuente
Respuestas:
Mientras realizaba mis actividades de excavación en preguntas sin respuesta, encontré esta muy sensata, a la cual, supongo, el OP ha encontrado una respuesta.
Pero me di cuenta de que tenía varias preguntas propias sobre el tema de la separación perfecta en la regresión logística, y una búsqueda (rápida) en la literatura no parecía responderlas. Así que decidí comenzar un pequeño proyecto de investigación propio (probablemente reinventar la rueda), y con esta respuesta me gustaría compartir algunos de sus resultados preliminares. Creo que estos resultados contribuyen a comprender si el tema de la separación perfecta es puramente "técnico" o si se le puede dar una descripción / explicación más intuitiva.
Mi primera preocupación era entender el fenómeno en términos algorítmicos, en lugar de la teoría general detrás de él: bajo qué condiciones el enfoque de estimación de máxima verosimilitud se "romperá" si se alimenta con una muestra de datos que contiene un regresor para el cual el fenómeno de la perfección separación existe?
Los resultados preliminares (teóricos y simulados) indican que:0
1) Importa si se incluye un término constante en la especificación logit.
2) Importa si el regresor en cuestión es dicotómico (en la muestra) o no.
3) Si es dicotómico, puede importar si toma el valor o no. 4) Importa si otros regresores están presentes en la especificación o no. 5) Importa cómo se combinan los 4 temas anteriores.
Ahora presentaré un conjunto de condiciones suficientes para una separación perfecta para que el MLE se descomponga. Esto no está relacionado con si los diversos softwares estadísticos alertan sobre el fenómeno; pueden hacerlo escaneando la muestra de datos antes de intentar ejecutar la estimación de máxima verosimilitud. Me preocupan los casos en los que comenzará la estimación de máxima verosimilitud y cuándo se descompondrá en el proceso.
Suponga un modelo de regresión logística de elección binaria "habitual"
La probabilidad de registro para una muestra de tamaño esn
El MLE se encontrará al establecer las derivadas iguales a cero. En particular queremos
La primera ecuación proviene de tomar la derivada con respecto al término constante, la segunda de tomar la derivada con respecto aX .
Supongamos ahora que en todos los casos dondey1=1 tenemos xi=ak , y eso xi nunca toma el valor ak cuando yi=0 . Este es el fenómeno de la separación completa, o "predicción perfecta": si observamosxi=ak lo sabemos yi=1 . Si observamosxi≠ak lo sabemos yi=0 . Esto es válido independientemente de si, en teoría o en la muestra ,X es discreto o continuo, dicotómico o no. Pero también, este es un fenómeno específico de la muestra: no argumentamos que afectará a la población. Pero la muestra específica es lo que tenemos en nuestras manos para alimentar el MLE.
Ahora denote la frecuencia absoluta deyi=1 por ny
Entonces podemos reescribir eq(1) como
Pasando a la ecuación.(2) tenemos
utilizando(3) tenemos
y usando(4) obtenemos
Entonces: si la especificación contiene un término constante y hay una separación perfecta con respecto al regresorX , el MLE intentará satisfacer, entre otros, eq (5) además.
Pero tenga en cuenta que la suma es sobre la submuestra dondeyi=0 en el cual xi≠ak por suposición Esto implica lo siguiente: X es dicotómica en la muestra, entonces (ak−xi)≠0 para todos i en el resumen en (5) . X no es dicotómico en la muestra, pero ak es su valor mínimo o máximo en la muestra, luego nuevamente (ak−xi)≠0 para todos i en el resumen en (5) .
1) si
2) si
En estos dos casos, y desde luegoΛi es no negativo por construcción, la única forma en que la ecuación. (5) puede estar satisfecho es cuando Λi=0 para todos i En el resumen. Pero
y entonces la única forma en queΛi puede llegar a ser igual a 0 , es si las estimaciones de los parámetros son tales que g(β0,xi,zi)→−∞ . Y desdeg() es lineal en los parámetros, esto implica que al menos una de las estimaciones de los parámetros debe ser "infinito": esto es lo que significa que el MLE se "descomponga": no producir estimaciones con valores finitos. Por lo tanto, los casos 1) y 2) son condiciones suficientes para un desglose del procedimiento MLE.
Pero considere ahora el caso dondeX no es dicotómico, y ak no es su valor mínimo o máximo en la muestra. Todavía tenemos separación completa, "predicción perfecta", pero ahora, en la ec.(5) algunos de los términos (ak−xi) será positivo y algunos serán negativos. Esto significa que es posible que el MLE pueda satisfacer la ecuación.(5) produciendo estimaciones finitas para todos los parámetros. Y los resultados de la simulación confirman que esto es así.
No estoy diciendo que tal muestra no cree consecuencias indeseables para las propiedades del estimador, etc.: Solo noto que en tal caso, el algoritmo de estimación se ejecutará como de costumbre.
Además, los resultados de la simulación muestran que si no hay un término constante en la especificación ,X no es dicotómico pero ak es un valor extremo, y hay otros regresores presentes, nuevamente el MLE se ejecutará, lo que indica que la presencia del término constante (cuyas consecuencias teóricas utilizamos en los resultados anteriores, es decir, el requisito de que el MLE satisfaga la ecuación.(1) ), es importante.
fuente
glm
en R lo hace, que yo sepa)?