Varias fuentes sugieren que hay muchas consecuencias negativas de la discretización (categorización) de variables continuas antes del análisis estadístico (muestra de referencias [1] - [4] a continuación).
Por el contrario [5] sugiere que se sabe que algunas técnicas de aprendizaje automático producen mejores resultados cuando las variables continuas se discretizan (también señalando que los métodos de discretización supervisados funcionan mejor).
Tengo curiosidad por saber si hay algún beneficio o justificación ampliamente aceptada para esta práctica desde una perspectiva estadística.
En particular, ¿habría alguna justificación para discretizar variables continuas dentro de un análisis GLM?
[1] Royston P, Altman DG, Sauerbrei W. Dicotomización de predictores continuos en regresión múltiple: una mala idea. Stat Med 2006; 25: 127-41
[2] Brunner J, PC de Austin. Inflación de la tasa de error Tipo I en regresión múltiple cuando las variables independientes se miden con error. The Canadian Journal of Statistics 2009; 37 (1): 33-46
[3] Irwin JR, McClelland GH. Consecuencias negativas de dicotomizar variables predictoras continuas. Revista de Investigación de Mercados 2003; 40: 366–371.
[4] Harrell Jr FE. Problemas causados por categorizar variables continuas. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Consultado el 6.9.2004
[5] Kotsiantis, S .; Kanellopoulos, D. "Técnicas de discretización: una encuesta reciente". GESTS Transacciones internacionales sobre informática e ingeniería 32 (1): 47–58.
Respuestas:
El propósito de los modelos estadísticos es modelar (aproximar) una realidad subyacente desconocida. Cuando discretiza algo que es naturalmente continuo, está diciendo que todas las respuestas para un rango de variables predictoras son exactamente iguales, entonces hay un salto repentino para el siguiente intervalo. ¿Realmente cree que el mundo natural funciona al tener una gran diferencia en la respuesta entre los valores de x de 9.999 y 10.001 sin tener una diferencia entre 9.001 y 9.999 (suponiendo que uno de los intervalos sea 9-10)? No puedo pensar en ningún proceso natural que consideraría que funcionara de esa manera.
Ahora hay muchos procesos naturales que actúan de manera no lineal, el cambio de 8 a 9 en el predictor puede hacer un cambio muy diferente en la respuesta que un cambio de 10 a 11. Y, por lo tanto, un predictor discreto puede encajar mejor que un relación lineal, pero eso es porque se le permite más grados de libertad. Pero, hay otras formas de permitir grados de libertad adicionales, como polinomios o splines, y estas opciones nos permiten penalizar para obtener un cierto nivel de suavidad y mantener algo que sea una mejor aproximación del proceso natural subyacente.
fuente
Editar: debido a la tendencia de otras respuestas que estoy viendo, un breve descargo de responsabilidad: mi respuesta está motivada por una perspectiva de aprendizaje automático y no por un modelo estadístico.
Algunos modelos, como Naive Bayes, no funcionan con funciones continuas. Discretizar las características puede ayudar a usarlas para que funcionen (mucho) mejor. En general, los modelos que no se basan en el carácter "numérico" de la característica (los árboles de decisión vienen a mi mente) no se ven afectados demasiado siempre que la discretización no sea demasiado brutal. Sin embargo, algunos otros modelos tendrán un rendimiento inferior en gran medida si la discriminación es demasiado importante. Por ejemplo, los GLM no obtendrán absolutamente ningún beneficio del proceso.
En algunos casos, cuando la memoria / tiempo de procesamiento se convierten en factores limitantes, la discretización de características permite agregar un conjunto de datos, reduciendo su tamaño y su consumo de memoria / tiempo de computación.
Entonces, la conclusión es que si no está limitado computacionalmente, y si su modelo no requiere características discretas, no ejecute la discretización de características. De lo contrario, por supuesto considérelo.
fuente