¿Cómo describir y presentar el tema de la separación perfecta?

Mientras realizaba mis actividades de excavación en preguntas sin respuesta, encontré esta muy sensata, a la cual, supongo, el OP ha encontrado una respuesta.
Pero me di cuenta de que tenía varias preguntas propias sobre el tema de la separación perfecta en la regresión logística, y una búsqueda (rápida) en la literatura no parecía responderlas. Así que decidí comenzar un pequeño proyecto de investigación propio (probablemente reinventar la rueda), y con esta respuesta me gustaría compartir algunos de sus resultados preliminares. Creo que estos resultados contribuyen a comprender si el tema de la separación perfecta es puramente "técnico" o si se le puede dar una descripción / explicación más intuitiva.

Mi primera preocupación era entender el fenómeno en términos algorítmicos, en lugar de la teoría general detrás de él: bajo qué condiciones el enfoque de estimación de máxima verosimilitud se "romperá" si se alimenta con una muestra de datos que contiene un regresor para el cual el fenómeno de la perfección separación existe?

Los resultados preliminares (teóricos y simulados) indican que:
1) Importa si se incluye un término constante en la especificación logit.
2) Importa si el regresor en cuestión es dicotómico (en la muestra) o no.
3) Si es dicotómico, puede importar si toma el valor o no. 4) Importa si otros regresores están presentes en la especificación o no. 5) Importa cómo se combinan los 4 temas anteriores. $0$

Ahora presentaré un conjunto de condiciones suficientes para una separación perfecta para que el MLE se descomponga. Esto no está relacionado con si los diversos softwares estadísticos alertan sobre el fenómeno; pueden hacerlo escaneando la muestra de datos antes de intentar ejecutar la estimación de máxima verosimilitud. Me preocupan los casos en los que comenzará la estimación de máxima verosimilitud y cuándo se descompondrá en el proceso.

Suponga un modelo de regresión logística de elección binaria "habitual"

P (Y_{i} ∣ β_{0}, X_{i}, z_{i}) = Λ (g (β_{0}, x_{i}, z_{i})), g (β_{0}, x_{i}, z_{i}) = β_{0} + β_{1} x_{i} + z_{i}^{'} γ

$P(Y_i \mid \beta_0, X_i, \mathbf z_i) = \Lambda (g(\beta_0,x_i, \mathbf z_i)), \;\; g(\beta_0,x_i, \mathbf z_i) = \beta_0 +\beta_1x_i + \mathbf z_i'\mathbf \gamma$

$X$ es el regresor con separación perfecta, mientras que es una colección de otros regresores que no se caracterizan por una separación perfecta. también $\mathbf Z$

Λ (g (β_{0}, x_{i}, z_{i})) = \frac{1}{1 + e^{- g (β_{0}, x_{i}, z_{i})}} \equiv Λ_{i}

$\Lambda (g(\beta_0,x_i, \mathbf z_i)) = \frac 1{1+e^{-g(\beta_0,x_i, \mathbf z_i)}}\equiv \Lambda_i$

La probabilidad de registro para una muestra de tamaño es $n$

\ln L = \sum_{i = 1}^{n} [y_{i} \ln (Λ_{i}) + (1 - y_{i}) \ln (1 - Λ_{i})]

$\ln L=\sum_{i=1}^{n}\left[y_i\ln(\Lambda_i)+(1-y_i)\ln(1-\Lambda_i)\right]$

El MLE se encontrará al establecer las derivadas iguales a cero. En particular queremos

\begin{matrix} (1) & \sum_{i = 1}^{n} (y_{i} - Λ_{i}) = 0 \end{matrix}

$\sum_{i=1}^{n}(y_i-\Lambda_i) = 0 \tag{1}$

\begin{matrix} (2) & \sum_{i = 1}^{n} (y_{i} - Λ_{i}) x_{i} = 0 0 \end{matrix}

$\sum_{i=1}^{n}(y_i-\Lambda_i)x_i = 0 \tag{2}$

La primera ecuación proviene de tomar la derivada con respecto al término constante, la segunda de tomar la derivada con respecto a $X$ .

Supongamos ahora que en todos los casos donde $y_1 =1$ tenemos $x_i = a_k$ , y eso $x_i$ nunca toma el valor $a_k$ cuando $y_i=0$ . Este es el fenómeno de la separación completa, o "predicción perfecta": si observamos $x_i = a_k$ lo sabemos $y_i=1$ . Si observamos $x_i \neq a_k$ lo sabemos $y_i=0$ . Esto es válido independientemente de si, en teoría o en la muestra , $X$ es discreto o continuo, dicotómico o no. Pero también, este es un fenómeno específico de la muestra: no argumentamos que afectará a la población. Pero la muestra específica es lo que tenemos en nuestras manos para alimentar el MLE.

Ahora denote la frecuencia absoluta de $y_i =1$ por $n_y$

\begin{matrix} (3) & n_{y} \equiv \sum_{i = 1}^{n} y_{i} = \sum_{y_{i} = 1} y_{i} \end{matrix}

$n_y \equiv \sum_{i=1}^ny_i = \sum_{y_i=1}y_i \tag{3}$

Entonces podemos reescribir eq $(1)$ como

\begin{matrix} (4) & n_{y} = \sum_{i = 1}^{n} Λ_{i} = \sum_{y_{i} = 1} Λ_{i} + \sum_{y_{i} = 0} Λ_{i} \Rightarrow n_{y} - \sum_{y_{i} = 1} Λ_{i} = \sum_{y_{i} = 0} Λ_{i} \end{matrix}

$n_y = \sum_{i=1}^n\Lambda_i = \sum_{y_i=1}\Lambda_i+\sum_{y_i=0}\Lambda_i \Rightarrow n_y - \sum_{y_i=1}\Lambda_i = \sum_{y_i=0}\Lambda_i \tag{4}$

Pasando a la ecuación. $(2)$ tenemos

\sum_{i = 1}^{n} y_{i} x_{i} - \sum_{i = 1}^{n} Λ_{i} x_{i} = 0 \Rightarrow \sum_{y_{i} = 1} y_{i} a_{k} + \sum_{y_{i} = 0} y_{i} x_{i} - \sum_{y_{i} = 1} Λ_{i} a_{k} - \sum_{y_{i} = 0} Λ_{i} x_{i} = 0

$\sum_{i=1}^{n}y_ix_i -\sum_{i=1}^{n}\Lambda_ix_i = 0 \Rightarrow \sum_{y_i=1}y_ia_k+\sum_{y_i=0}y_ix_i - \sum_{y_i=1}\Lambda_ia_k-\sum_{y_i=0}\Lambda_ix_i =0$

utilizando $(3)$ tenemos

n_{y} a_{k} + 0 - a_{k} \sum_{y_{i} = 1} Λ_{i} - \sum_{y_{i} = 0} Λ_{i} x_{i} = 0

$n_ya_k + 0 - a_k\sum_{y_i=1}\Lambda_i-\sum_{y_i=0}\Lambda_ix_i =0$

\Rightarrow a_{k} (n_{y} - \sum_{y_{i} = 1} Λ_{i}) - \sum_{y_{i} = 0} Λ_{i} x_{i} = 0

$\Rightarrow a_k\left(n_y-\sum_{y_i=1}\Lambda_i\right) -\sum_{y_i=0}\Lambda_ix_i =0$

y usando $(4)$ obtenemos

\begin{matrix} (5) & a_{k} \sum_{y_{i} = 0} Λ_{i} x_{i} - \sum_{y_{i} = 0} Λ_{i} x_{i} = 0 \Rightarrow \sum_{y_{i} = 0} (a_{k} - x_{i}) Λ_{i} = 0 \end{matrix}

$a_k\sum_{y_i=0}\Lambda_ix_i -\sum_{y_i=0}\Lambda_ix_i =0 \Rightarrow \sum_{y_i=0}(a_k-x_i)\Lambda_i=0 \tag {5}$

Entonces: si la especificación contiene un término constante y hay una separación perfecta con respecto al regresor $X$ , el MLE intentará satisfacer, entre otros, eq $(5)$ además.

Pero tenga en cuenta que la suma es sobre la submuestra donde $y_i=0$ en el cual $x_i\neq a_k$ por suposición Esto implica lo siguiente:
1) si $X$ es dicotómica en la muestra, entonces $(a_k-x_i) \neq 0$ para todos $i$ en el resumen en $(5)$ .
2) si $X$ no es dicotómico en la muestra, pero $a_k$ es su valor mínimo o máximo en la muestra, luego nuevamente $(a_k-x_i) \neq 0$ para todos $i$ en el resumen en $(5)$ .

En estos dos casos, y desde luego $\Lambda_i$ es no negativo por construcción, la única forma en que la ecuación. $(5)$ puede estar satisfecho es cuando $\Lambda_i=0$ para todos $i$ En el resumen. Pero

Λ_{i} = \frac{1}{1 + e^{- g (β_{0}, x_{i}, z_{i})}}

$\Lambda_i = \frac 1{1+e^{-g(\beta_0,x_i, \mathbf z_i)}}$

y entonces la única forma en que $\Lambda_i$ puede llegar a ser igual a $0$ , es si las estimaciones de los parámetros son tales que $g(\beta_0,x_i, \mathbf z_i) \rightarrow -\infty$ . Y desde $g()$ es lineal en los parámetros, esto implica que al menos una de las estimaciones de los parámetros debe ser "infinito": esto es lo que significa que el MLE se "descomponga": no producir estimaciones con valores finitos. Por lo tanto, los casos 1) y 2) son condiciones suficientes para un desglose del procedimiento MLE.

Pero considere ahora el caso donde $X$ no es dicotómico, y $a_k$ no es su valor mínimo o máximo en la muestra. Todavía tenemos separación completa, "predicción perfecta", pero ahora, en la ec. $(5)$ algunos de los términos $(a_k-x_i)$ será positivo y algunos serán negativos. Esto significa que es posible que el MLE pueda satisfacer la ecuación. $(5)$ produciendo estimaciones finitas para todos los parámetros. Y los resultados de la simulación confirman que esto es así.

No estoy diciendo que tal muestra no cree consecuencias indeseables para las propiedades del estimador, etc.: Solo noto que en tal caso, el algoritmo de estimación se ejecutará como de costumbre.

Además, los resultados de la simulación muestran que si no hay un término constante en la especificación , $X$ no es dicotómico pero $a_k$ es un valor extremo, y hay otros regresores presentes, nuevamente el MLE se ejecutará, lo que indica que la presencia del término constante (cuyas consecuencias teóricas utilizamos en los resultados anteriores, es decir, el requisito de que el MLE satisfaga la ecuación. $(1)$ ), es importante.

Alecos Papadopoulos
fuente

No, no lo he hecho, así que la pregunta permanece abierta. Sin embargo, necesitaría detenerte en las ecuaciones normales (1) y (2). El problema práctico de la separación perfecta es que el optimizador de probabilidad quiere enviar el

g (\cdot)

$g(\cdot)$ a

\pm \infty

$\pm \infty$ y, en consecuencia, las probabilidades predichas de cero / uno. Ya no está en el interior del espacio de parámetros, por lo que las ecuaciones normales pueden no funcionar. Además, para variables continuas, caracterizaría la separación perfecta como

x_{i} > a

$x_i > a$ implica

Y_{i} = 1

$Y_i = 1$ y

x_{i} \leq a

$x_i \le a$ implica

Y_{i} = 0

$Y_i = 0$ , digamos, en lugar de una igualdad exacta a un valor dado.

StasK

Las ecuaciones normales es lo que el MLE intentará satisfacer y, para hacerlo, puede enviar el logit al infinito, sin duda. ¿Qué quiere decir con "las ecuaciones normales pueden no funcionar?" No estoy seguro de entenderlo. Con respecto a las variables continuas, sí, su caracterización de la separación perfecta está esencialmente de acuerdo con lo que encontré, a saber, que el "

a_{k}

$a_k$ "el valor es extremo en la muestra, para que el MLE se descomponga. Sus desigualdades describen esencialmente lo mismo.

Alecos Papadopoulos

ML no funciona cuando se violan las condiciones de regularidad. Ver, por ejemplo, esto .

StasK

Estoy de acuerdo contigo. Mi publicación no argumenta lo contrario. Lo que intenté hacer fue "predecir" cuándo la implementación real del algoritmo MLE a través del intento de satisfacer las condiciones habituales, se descompondrá numéricamente bajo una separación perfecta, y cuando no lo hará. Pero mi publicación no analiza la utilidad / importancia de las estimaciones reales que obtendremos, en el caso en que el algoritmo MLE proporcione resultados, y lo he escrito claramente en mi publicación. Veo mis ejemplos como una advertencia: "cuidado, incluso si existe una separación perfecta, no confíes en el algoritmo MLE para decírtelo".

Alecos Papadopoulos

OKAY. Con eso en mente, es un excelente análisis exhaustivo y una valiosa contribución a nuestra comprensión de la separación perfecta. Pero estrictamente hablando, no es una respuesta a mi pregunta sobre informar el fenómeno (y también lo reconoce en su respuesta). ¿Puedo sugerirle también que amplíe un poco su respuesta y describa lo que sucede con la aritmética de precisión finita? (5) se considerará "lo suficientemente pequeño" (p. Ej., <

10^{- 8}

$10^{-8}$ o algo así) en valor absoluto, y el software felizmente puede escupir valores no sensiblemente grandes (como glmen R lo hace, que yo sepa)?

StasK

¿Cómo describir y presentar el tema de la separación perfecta?

Respuestas: