Quiero predecir un problema de salud. Tengo 3 categorías de resultados que están ordenadas: 'normal', 'leve' y 'grave'. Deseo predecir esto a partir de dos variables predictoras, un resultado de prueba (una covariable de intervalo continuo) y antecedentes familiares con este problema (sí o no). En mi muestra, las probabilidades son 55% (normal), 35% (leve) y 10% (grave). En este sentido, siempre podría predecir 'normal' y tener razón el 55% del tiempo, aunque esto no me daría información sobre pacientes individuales. Me ajusto al siguiente modelo:
Suponga que no hay interacción y que todo está bien con el modelo. La concordancia, c, es 60.5%, que entiendo es la máxima precisión predictiva que ofrece el modelo.
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
A saber: 1. 0 = 55.1%, 1 = 35.8%, 2 = 9.1%; y 2. 0 = 35.6%, 1 = 46.2%, 2 = 18.2%. Mi pregunta es, ¿cómo paso de la distribución de probabilidad a una categoría de respuesta pronosticada?
He intentado varias posibilidades utilizando los datos de muestra, donde se conoce el resultado. Si solo elijo max (probabilidades), la precisión es del 57%, una ligera mejora con respecto a la nula, pero por debajo de la concordancia. Además, en la muestra, este enfoque nunca elige 'severo', que es lo que realmente quiero saber. Intenté un enfoque bayesiano convirtiendo probabilidades nulas y modelo en probabilidades y luego seleccionando el máximo (razón de probabilidades). Esto escoge 'severo' ocasionalmente, pero produce una peor precisión del 49.5%. También probé una suma de las categorías ponderadas por las probabilidades y el redondeo. Esto, de nuevo, nunca elige 'severo', y tiene una baja precisión del 51.5%.
¿Cuál es la ecuación que toma la información anterior y produce una precisión óptima (60.5%)?
fuente
La concordancia se define comprobando la puntuación media, no la puntuación máxima.
Entonces, para sus ejemplos, las puntuaciones medias para 1 son 0 * 55.1% + 1 * 35.8% + 2 * 9.1% = 0.54, y 2 es (a través de cálculos similares) 0.826.
Es este valor el que debe comparar para obtener la concordancia o cualquier otra estadística de asociación.
Ref. Http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm
fuente
SAS PROC LOGIST
que escribí hace muchos años, ahora es incorrecta, y su fórmula para la media es incorrecta a menos que