Cuando leo sobre cómo configurar sus datos, una cosa que a menudo me encuentro es que transformar algunos datos continuos en datos categóricos no es una buena idea, ya que es muy posible que llegue a una conclusión incorrecta si los umbrales están mal determinados.
Sin embargo, actualmente tengo algunos datos (valores de PSA para pacientes con cáncer de próstata), donde creo que el consenso común es que si tiene menos de 4 años, probablemente no lo tenga, si está por encima está en riesgo, y luego algo así como por encima de 10 y 20, probablemente lo tengas. Algo como eso. En ese caso, ¿seguiría siendo incorrecto clasificar mis valores continuos de PSA en grupos de digamos 0-4, 4-10 y> 10? ¿O está realmente bien ya que los umbrales están "bien determinados", por así decirlo?
fuente
Respuestas:
¿Hay una fuerte discontinuidad en sus umbrales?
Por ejemplo, suponga que tiene dos pacientes A y B con valores 3.9 y 4.1, y otros dos pacientes C y D con valores 6.7 y 6.9. ¿Es la diferencia en la probabilidad de cáncer entre A y B mucho mayor que la diferencia correspondiente entre C y D?
Si es así, entonces discretizar tiene sentido.
De lo contrario, sus umbrales pueden tener sentido para comprender sus datos, pero no están "bien determinados" en un sentido estadísticamente significativo. No discretizar En su lugar, use los puntajes de sus exámenes "tal cual", y si sospecha algún tipo de no linealidad, use splines .
Esto es muy recomendable.
fuente
Creo que la respuesta estándar es que siempre es mala porque pierdes información en el proceso. Es difícil creer que haya algún caso en el que pueda ganar algo tomando datos de intervalos naturales y haciéndolos categóricos.
fuente