Estimación de coeficientes de regresión logística en un diseño de casos y controles cuando la variable de resultado no es el estado de caso / control

Considere el muestreo de datos de una población de tamaño $N$ de la siguiente manera: Para $k=1, ..., N$

Observar el estado individual de "enfermedad" de $k$
Si tienen la enfermedad, inclúyalas en la muestra con probabilidad $p_{k1}$
Si no tienen la enfermedad, inclúyalos con probabilidad $p_{k0}$ .

Supongamos que observaron una variable de resultado binario $Y_i$ y predictor del vector ${\bf X}_i$ , para $i=1, ..., n$ sujetos muestreados de esta manera. La variable de resultado no es el estado de "enfermedad". Quiero estimar los parámetros del modelo de regresión logística:

\log (\frac{P (Y_{i} = 1 | X_{i})}{P (Y_{i} = 0 | X_{i})}) = α + X_{i} β

$\log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \alpha + {\bf X}_i {\boldsymbol \beta}$

Lo único que me importa son las razones de probabilidad (log), ${\boldsymbol \beta}$ . La intercepción es irrelevante para mí.

Mi pregunta es: ¿puedo obtener estimaciones razonables de ${\boldsymbol \beta}$ ignorando las probabilidades de muestreo $\{ p_{i1}, p_{i0} \}$ , $i=1, ..., n$ ajustando el modelo como si era una muestra aleatoria ordinaria?

Estoy bastante seguro de que la respuesta a esta pregunta es "sí". Lo que estoy buscando es una referencia que valide esto.

Hay dos razones principales por las que confío en la respuesta:

He realizado muchos estudios de simulación y ninguno de ellos contradice esto, y
Es sencillo mostrar que, si la población se rige por el modelo anterior, entonces el modelo que rige los datos muestreados es

\log (\frac{P (Y_{i} = 1 | X_{i})}{P (Y_{i} = 0 | X_{i})}) = \log (p_{i 1}) - \log (p_{i 0}) + α + X_{i} β

$\log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \log(p_{i1}) - \log(p_{i0}) + \alpha + {\bf X}_i {\boldsymbol \beta}$

Si las probabilidades de muestreo no dependieran de , esto representaría un cambio simple a la intersección y la estimación puntual de claramente no se vería afectada. Pero, si los desplazamientos son diferentes para cada persona, esta lógica no se aplica del todo, ya que ciertamente obtendrá una estimación puntual diferente, aunque sospecho que algo similar sí lo hace. $i$ ${\boldsymbol \beta}$

Relacionado: El artículo clásico de Prentice y Pyke (1979) dice que los coeficientes de regresión logística de un control de casos (con el estado de la enfermedad como resultado) tienen la misma distribución que los recopilados de un estudio prospectivo. Sospecho que este mismo resultado se aplicaría aquí, pero debo confesar que no entiendo completamente cada parte del documento.

Gracias de antemano por cualquier comentario / referencia.

logistic case-control-study Macro
fuente

Usted declara que "la variable de resultado no es el estado de la enfermedad ". ¿Qué indica ? Bienvenido de nuevo a CV, por cierto.

Y_{i} = 1

$Y_i=1$

gung - Restablece a Monica

Y_{i}

$Y_i$ es una variable diferente. Lo que quiero decir es que la variable que dicta su probabilidad de muestreo (generalmente el estado de la enfermedad en un control de casos) no es la misma que la variable de resultado; piense en el análisis secundario de un conjunto de datos. Por ejemplo, supongamos que la muestra se generó mediante el muestreo sistemático de usuarios de drogas y un conjunto adicional (frecuencia coincidente, ciertas covariables) de usuarios que no usan drogas, pero la variable de resultado que está estudiando es alguna otra medida de comportamiento. En este caso, el esquema de muestreo es una molestia. Gracias, por cierto!

Macro

Esta es una variación del modelo de selección en econometría. La validez de las estimaciones utilizando solo la muestra seleccionada aquí depende de la condición de que . Aquí es el estado de la enfermedad de . $\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)$ $D_i$ $i$

Para dar más detalles, defina las siguientes notaciones: y ; se refiere al caso de que es en la muestra. Además, suponga que es independiente de por simplicidad. $\pi_{1}=\Pr\left(D_{i}=1\right)$ $\pi_{0}=\Pr\left(D_{i}=0\right)$ $S_{i}=1$ $i$ $D_{i}$ $X_{i}$

La probabilidad de para una unidad en la muestra es por la ley de la expedición iterada. Supongamos que, condicional al estado de la enfermedad y otras covariables , el resultado es independiente de . Como resultado, $Y_{i}=1$ $i$

\begin{array}{rcl} Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) & = & E (Y_{i} ∣ X_{i}, S_{i} = 1) \\ = & E {E (Y_{i} ∣ X_{i}, D_{i}, S_{i} = 1) ∣ X_{i}, S_{i} = 1} \\ = & Pr (D_{i} = 1 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1, S_{i} = 1) + \\ Pr (D_{i} = 0 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0, S_{i} = 1), \end{array}

$\begin{eqnarray*} \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right) & = & \mathrm{{E}}\left(Y_{i}\mid X_{i},S_{i}=1\right)\\ & = & \mathrm{{E}}\left\{ \mathrm{{E}}\left(Y_{i}\mid X_{i},D_{i},S_{i}=1\right)\mid X_{i},S_{i}=1\right\} \\ & = & \Pr\left(D_{i}=1\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1,S_{i}=1\right)+\\ & & \Pr\left(D_{i}=0\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0,S_{i}=1\right), \end{eqnarray*}$

D_{i}

$D_{i}$

X_{i}

$X_{i}$

Y_{i}

$Y_{i}$

S_{i}

$S_{i}$

\begin{array}{rcl} Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) & = & Pr (D_{i} = 1 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) + \\ Pr (D_{i} = 0 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0) . \end{array}

$\begin{eqnarray*} \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right) & = & \Pr\left(D_{i}=1\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)+\\ & & \Pr\left(D_{i}=0\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right). \end{eqnarray*}$ Es fácil ver que Aquí y se definen según su esquema de muestreo. Así,

Pr (D_{i} = 1 ∣ S_{i} = 1) = \frac{π_{1} p_{i 1}}{π_{1} p_{i 1} + π_{0} p_{i 0}} and Pr (D_{i} = 0 ∣ S_{i} = 1) = \frac{π_{0} p_{i 0}}{π_{1} p_{i 1} + π_{0} p_{i 0}} .

$\Pr\left(D_{i}=1\mid S_{i}=1\right)=\frac{\pi_{1}p_{i1}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\mbox{ and }\Pr\left(D_{i}=0\mid S_{i}=1\right)=\frac{\pi_{0}p_{i0}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}.$

p_{i 1}

$p_{i1}$

p_{i 0}

$p_{i0}$

Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) = \frac{π_{1} p_{i 1}}{π_{1} p_{i 1} + π_{0} p_{i 0}} Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) + \frac{π_{0} p_{i 0}}{π_{1} p_{i 1} + π_{0} p_{i 0}} Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0) .

$\Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)=\frac{\pi_{1}p_{i1}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)+\frac{\pi_{0}p_{i0}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right).$ Si , tenemos y puede omitir el problema de selección de muestra. Por otro lado, si , en general. Como caso particular, considere el modelo logit,

Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) = Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0)

$\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)$

Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) = Pr (Y_{i} = 1 ∣ X_{i}),

$\Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i}\right),$

Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) \neq Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0)

$\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)\neq\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)$

Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) \neq Pr (Y_{i} = 1 ∣ X_{i})

$\Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)\neq\Pr\left(Y_{i}=1\mid X_{i}\right)$

Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) = \frac{e^{X_{i}^{'} α}}{1 + e^{X_{i}^{'} α}} and Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0) = \frac{e^{X_{i}^{'} β}}{1 + e^{X_{i}^{'} β}} .

$\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\frac{e^{X_{i}'\alpha}}{1+e^{X_{i}'\alpha}}\mbox{ and }\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)=\frac{e^{X_{i}'\beta}}{1+e^{X_{i}'\beta}}.$ Incluso cuando y son constantes en , la distribución resultante no mantendrá la formación de logit. Más importante aún, las interpretaciones de los parámetros serían totalmente diferentes. Con suerte, los argumentos anteriores ayudan a aclarar un poco su problema.

p_{i 1}

$p_{i1}$

p_{i 0}

$p_{i0}$

i

$i$

Es tentador incluir como una variable explicativa adicional, y estimar el modelo basado en . Para justificar la validez de usar , tenemos que demostrar que , que es equivalente a la condición de que es una estadística suficiente de . Sin más información sobre su proceso de muestreo, no estoy seguro de si es cierto. Usemos una notación abstracta. La variable de observabilidad puede verse como una función aleatoria de y las otras variables aleatorias, digamos $D_{i}$ $\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $\Pr\left(Y_{i}\mid X_{i},D_{i},S_{i}=1\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $D_{i}$ $S_{i}$ $S_{i}$ $D_{i}$ $\mathbf{Z}_{i}$ . Denotan . Si es independiente de condicional en y , tenemos por la definición de independencia. Sin embargo, si no es independiente de después de condicionar y , contiene intuitivamente información relevante sobre , y en general no se espera que $S_{i}=S\left(D_{i},\mathbf{Z}_{i}\right)$ $\mathbf{Z}_{i}$ $Y_{i}$ $X_{i}$ $D_{i}$ $\Pr\left(Y_{i}\mid X_{i},D_{i},S\left(D_{i},\mathbf{Z}_{i}\right)\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $\mathbf{Z}_{i}$ $Y_{i}$ $X_{i}$ $D_{i}$ $\mathbf{Z}_{i}$ $Y_{i}$ $\Pr\left(Y_{i}\mid X_{i},D_{i},S\left(D_{i},\mathbf{Z}_{i}\right)\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ . Por lo tanto, en el caso "sin embargo", la ignorancia de la selección de la muestra podría ser engañosa para la inferencia. No estoy muy familiarizado con la literatura de selección de muestras en econometría. Recomendaría que el Capítulo 16 de Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookVariables dependientes limitadas y cualitativas en econometría es un tratamiento sistemático de los problemas relacionados con la selección de muestras y los resultados discretos.

semibruin
fuente

Gracias. Esta es una gran respuesta y tiene mucho sentido. En mi aplicación, la suposición de que no es realista. Pero, sería tan bueno agregar como predictor y considerar la distribución . Usando una derivación similar, creo que puedes mostrar que si , entonces estás bien. Esta es una suposición razonable en mi caso. ¿Qué piensas? Por cierto, ¿tendría alguna referencia que mencione este problema? No estoy familiarizado con la literatura econométrica.

P (Y_{i} | X_{i}, D_{i} = 1) = P (Y_{i} | X_{i}, D_{i} = 0)

$P(Y_i|X_i,D_i=1)=P(Y_i|X_i,D_i=0)$

D_{i}

$D_i$

P (Y_{i} | X_{i}, D_{i})

$P(Y_i|X_i,D_i)$

P (Y_{i} = 1 | X_{i}, D_{i}, S_{i} = 1) = P (Y_{i} = 1 | X_{i}, D_{i}, S_{i} = 0)

$P(Y_i=1|X_i,D_i,S_i=1)=P(Y_i=1|X_i,D_i,S_i=0)$

Macro

Me siento cómodo pensando que el proceso de selección es un ensayo de Bernoulli, es decir, Bajo este supuesto de generación de datos, esta prueba de bernoulli es condicionalmente independiente de , así que creo que estamos bien. Agradezco sus esfuerzos e ideas sobre este problema y acepto la respuesta. Suponiendo que nadie se presente con la referencia exacta que estoy buscando (prefiero poder simplemente "citar" este problema en lugar de desviarme de una discusión extensa), también te otorgaré la recompensa. Salud.

S_{i} | D_{i} = d, X_{i} = x \sim B e r n o u l l i (p (x, d))

$S_i | D_i=d, X_i=x \sim {\rm Bernoulli} \big( p(x, d) \big)$

Y_{i}

$Y_i$

Macro

Este proceso de selección se ajusta a su estrategia. Basado en un problema de selección de este tipo, su problema se convierte en un ejemplo de falta aleatoria (MAR) en la literatura de datos faltantes. Gracias por tu premio.

semibruin

Estimación de coeficientes de regresión logística en un diseño de casos y controles cuando la variable de resultado no es el estado de caso / control

Respuestas: