Si el objetivo de dicho modelo es la predicción, entonces no puede utilizar la regresión logística no ponderada para predecir los resultados: sobredecirá el riesgo. La fortaleza de los modelos logísticos es que la odds ratio (OR), la "pendiente" que mide la asociación entre un factor de riesgo y un resultado binario en un modelo logístico, es invariante al muestreo dependiente del resultado. Entonces, si los casos se muestrean en una relación 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 a los controles, simplemente no importa: el OR permanece sin cambios en cualquier escenario siempre que el muestreo sea incondicional en la exposición (que introduciría el sesgo de Berkson). De hecho, el muestreo dependiente del resultado es un esfuerzo para ahorrar costos cuando el muestreo aleatorio simple y completo simplemente no va a suceder.
¿Por qué las predicciones de riesgo están sesgadas del muestreo dependiente del resultado utilizando modelos logísticos? El muestreo dependiente del resultado impacta la intercepción en un modelo logístico. Esto hace que la curva de asociación en forma de S "se deslice hacia arriba en el eje x" por la diferencia en las probabilidades de registro de muestreo de un caso en una muestra aleatoria simple en la población y las probabilidades de registro de muestreo de un caso en un pseudo -población de su diseño experimental. (Entonces, si tiene 1: 1 casos para controlar, hay un 50% de posibilidades de muestrear un caso en esta pseudo población). En resultados poco frecuentes, esta es una gran diferencia, un factor de 2 o 3.
Cuando habla de que tales modelos son "incorrectos", debe enfocarse en si el objetivo es inferencia (correcto) o predicción (incorrecto). Esto también aborda la relación de resultados a casos. El lenguaje que tiende a ver en torno a este tema es el de llamar a este estudio un estudio de "control de casos", sobre el cual se ha escrito ampliamente. Quizás mi publicación favorita sobre el tema es Breslow and Day, que como un estudio histórico caracterizó los factores de riesgo de causas raras de cáncer (previamente inviable debido a la rareza de los eventos). Los estudios de casos y controles provocan cierta controversia en torno a la interpretación errónea frecuente de los hallazgos: particularmente al combinar el OR con el RR (exagera los hallazgos) y también la "base de estudio" como intermediario de la muestra y la población que mejora los hallazgos.proporciona una excelente crítica de ellos. Sin embargo, ninguna crítica ha afirmado que los estudios de casos y controles sean inherentemente inválidos, quiero decir, ¿cómo podría usted? Han avanzado la salud pública en innumerables avenidas. El artículo de Miettenen es bueno al señalar que, incluso puede usar modelos de riesgo relativo u otros modelos en el muestreo dependiente del resultado y describir las discrepancias entre los resultados y los hallazgos a nivel de población en la mayoría de los casos: no es realmente peor ya que el OR es generalmente un parámetro difícil interpretar.
Probablemente la mejor y más fácil manera de superar el sesgo de sobremuestreo en las predicciones de riesgo es mediante el uso de probabilidad ponderada.
Scott y Wild discuten la ponderación y muestran que corrige el término de intercepción y las predicciones de riesgo del modelo. Este es el mejor enfoque cuando a priori conocimiento a sobre la proporción de casos en la población. Si la prevalencia del resultado es en realidad 1: 100 y muestra los casos a los controles de una manera 1: 1, simplemente pondera los controles en una magnitud de 100 para obtener parámetros consistentes de la población y predicciones de riesgo imparciales. La desventaja de este método es que no tiene en cuenta la incertidumbre en la prevalencia de la población si se ha estimado con error en otro lugar. Esta es un área enorme de investigación abierta, Lumley y BreslowLlegó muy lejos con alguna teoría sobre el muestreo en dos fases y el estimador doblemente robusto. Creo que es algo tremendamente interesante. El programa de Zelig parece ser simplemente una implementación de la función de peso (que parece un poco redundante ya que la función glm de R permite los pesos).