Considere el muestreo de datos de una población de tamaño de la siguiente manera: Para
Observar el estado individual de "enfermedad" de
Si tienen la enfermedad, inclúyalas en la muestra con probabilidad
Si no tienen la enfermedad, inclúyalos con probabilidad .
Supongamos que observaron una variable de resultado binario y predictor del vector , para sujetos muestreados de esta manera. La variable de resultado no es el estado de "enfermedad". Quiero estimar los parámetros del modelo de regresión logística:
Lo único que me importa son las razones de probabilidad (log), . La intercepción es irrelevante para mí.
Mi pregunta es: ¿puedo obtener estimaciones razonables de ignorando las probabilidades de muestreo , ajustando el modelo como si era una muestra aleatoria ordinaria?
Estoy bastante seguro de que la respuesta a esta pregunta es "sí". Lo que estoy buscando es una referencia que valide esto.
Hay dos razones principales por las que confío en la respuesta:
He realizado muchos estudios de simulación y ninguno de ellos contradice esto, y
Es sencillo mostrar que, si la población se rige por el modelo anterior, entonces el modelo que rige los datos muestreados es
Si las probabilidades de muestreo no dependieran de , esto representaría un cambio simple a la intersección y la estimación puntual de claramente no se vería afectada. Pero, si los desplazamientos son diferentes para cada persona, esta lógica no se aplica del todo, ya que ciertamente obtendrá una estimación puntual diferente, aunque sospecho que algo similar sí lo hace. β
Relacionado: El artículo clásico de Prentice y Pyke (1979) dice que los coeficientes de regresión logística de un control de casos (con el estado de la enfermedad como resultado) tienen la misma distribución que los recopilados de un estudio prospectivo. Sospecho que este mismo resultado se aplicaría aquí, pero debo confesar que no entiendo completamente cada parte del documento.
Gracias de antemano por cualquier comentario / referencia.
fuente
Respuestas:
Esta es una variación del modelo de selección en econometría. La validez de las estimaciones utilizando solo la muestra seleccionada aquí depende de la condición de que . Aquí es el estado de la enfermedad de .Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0) Di i
Para dar más detalles, defina las siguientes notaciones: y ; se refiere al caso de que es en la muestra. Además, suponga que es independiente de por simplicidad.π1=Pr(Di=1) π0=Pr(Di=0) Si=1 i Di Xi
La probabilidad de para una unidad en la muestra es por la ley de la expedición iterada. Supongamos que, condicional al estado de la enfermedad y otras covariables , el resultado es independiente de . Como resultado,Yi=1 i
Es tentador incluir como una variable explicativa adicional, y estimar el modelo basado en . Para justificar la validez de usar , tenemos que demostrar que , que es equivalente a la condición de que es una estadística suficiente de . Sin más información sobre su proceso de muestreo, no estoy seguro de si es cierto. Usemos una notación abstracta. La variable de observabilidad puede verse como una función aleatoria de y las otras variables aleatorias, digamosDi Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di) Di Si Si Di Zi . Denotan . Si
es independiente de condicional en y , tenemos
por la definición de independencia. Sin embargo, si no es independiente de después de condicionar y ,
contiene intuitivamente información relevante sobre
, y en general no se espera queSi=S(Di,Zi) Zi Yi Xi Di Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) Zi Yi Xi Di Zi Yi Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Por lo tanto, en el caso "sin embargo", la ignorancia de la selección de la muestra podría ser engañosa para la inferencia. No estoy muy familiarizado con la literatura de selección de muestras en econometría. Recomendaría que el Capítulo 16 de
Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book
Variables dependientes limitadas y cualitativas en econometría es un tratamiento sistemático de los problemas relacionados con la selección de muestras y los resultados discretos.fuente