¿Hay algún método para corregir el sesgo en el modelo de riesgo proporcional de Cox causado por una muestra seleccionada al azar (algo así como la corrección de Heckman)?
Antecedentes :
Digamos que la situación es la siguiente:
- Durante los primeros dos años, todos los clientes son aceptados.
- Después de esos dos años, se construye un modelo Cox PH. Model predice cuánto tiempo los clientes utilizarán nuestro servicio.
- Debido a la política de la compañía de ahora en adelante, solo se aceptan clientes con probabilidad de sobrevivir 3 meses más de 0.5, los otros son rechazados.
- Después de otros dos años, se debe construir un nuevo modelo. El problema es que solo tenemos un objetivo para los clientes aceptados y usar solo estos clientes puede causar un sesgo grave.
Respuestas:
Hay soluciones propuestas para los modelos de peligro paramétricos. Echa un vistazo a estos:
Prieger, James, 2000. "Un modelo de selección paramétrica generalizada para datos no normales", Documentos de trabajo 00-9, Universidad de California en Davis, Departamento de Economía.
Boehmke, Frederick J., Daniel Morey y Megan Shannon. 2006. "Sesgo de selección y modelos de duración en tiempo continuo: consecuencias y una solución propuesta". American Journal of Political Science 50 (1): 192-207.
Hay un código para el artículo posterior en Stata, paquete "dursel"
Sin embargo, no conozco una solución para el modelo semiparamétrico de Cox.
fuente
La respuesta simple es ponderar. Es decir, puede usar pesos para estandarizar grupos en el grupo "aceptado" para la población de interés. El problema que surge al usar tales pesos en un análisis agrupado que usa tanto la primera como la segunda fase de 2 años es que los pesos estimados de la población y los parámetros ahora dependen. El enfoque de pseudolikelihood se usa típicamente (en este caso, sería algún tipo de probabilidad pseudo-parcial) donde se ignora la dependencia entre los pesos de las muestras y las estimaciones de los parámetros. Sin embargo, en muchas circunstancias prácticas (y esta no es diferente), es necesario tener en cuenta esta dependencia. La cuestión de crear un estimador eficiente de las razones de riesgo es difícil, y que yo sepa, no tiene límites.
Estimación mejorada de Horvitz-Thompson de los parámetros del modelo a partir de muestras estratificadas de dos fases: aplicaciones en epidemiología .
El artículo analiza los métodos de encuesta, generalmente aplicados en regresión logística, sin embargo, también puede ponderar los datos de supervivencia. Algunas consideraciones importantes que no mencionó es si está interesado en crear una predicción que se aplique a toda la población, o a la población "calificada" según las estimaciones de 2 años, o la población "calificada" según el resultado modelo. Tampoco ha mencionado exactamente cómo se crea tal modelo de "predicción" a partir de un modelo de Cox, ya que los valores ajustados de un modelo de Cox no pueden interpretarse como riesgos. Supongo que estima las razones de riesgo, luego obtiene una estimación suavizada de la función de riesgo de referencia.
fuente