¿Cuál es la justificación para la discretización no supervisada de variables continuas?

8

Varias fuentes sugieren que hay muchas consecuencias negativas de la discretización (categorización) de variables continuas antes del análisis estadístico (muestra de referencias [1] - [4] a continuación).

Por el contrario [5] sugiere que se sabe que algunas técnicas de aprendizaje automático producen mejores resultados cuando las variables continuas se discretizan (también señalando que los métodos de discretización supervisados ​​funcionan mejor).

Tengo curiosidad por saber si hay algún beneficio o justificación ampliamente aceptada para esta práctica desde una perspectiva estadística.

En particular, ¿habría alguna justificación para discretizar variables continuas dentro de un análisis GLM?



[1] Royston P, Altman DG, Sauerbrei W. Dicotomización de predictores continuos en regresión múltiple: una mala idea. Stat Med 2006; 25: 127-41

[2] Brunner J, PC de Austin. Inflación de la tasa de error Tipo I en regresión múltiple cuando las variables independientes se miden con error. The Canadian Journal of Statistics 2009; 37 (1): 33-46

[3] Irwin JR, McClelland GH. Consecuencias negativas de dicotomizar variables predictoras continuas. Revista de Investigación de Mercados 2003; 40: 366–371.

[4] Harrell Jr FE. Problemas causados ​​por categorizar variables continuas. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Consultado el 6.9.2004

[5] Kotsiantis, S .; Kanellopoulos, D. "Técnicas de discretización: una encuesta reciente". GESTS Transacciones internacionales sobre informática e ingeniería 32 (1): 47–58.

Miguel
fuente
2
¿Discretizarlos en comparación con hacer qué más? Si se considera que la alternativa es tratar la relación entre el predictor y la respuesta como lineal, entonces no es sorprendente que la discretización a veces pueda dar un mejor ajuste. Ver aquí .
Scortchi - Restablece a Monica
Puede estar relacionado con diferentes criterios de lo que es "mejor".
Glen_b -Reinstalar Monica

Respuestas:

8

El propósito de los modelos estadísticos es modelar (aproximar) una realidad subyacente desconocida. Cuando discretiza algo que es naturalmente continuo, está diciendo que todas las respuestas para un rango de variables predictoras son exactamente iguales, entonces hay un salto repentino para el siguiente intervalo. ¿Realmente cree que el mundo natural funciona al tener una gran diferencia en la respuesta entre los valores de x de 9.999 y 10.001 sin tener una diferencia entre 9.001 y 9.999 (suponiendo que uno de los intervalos sea 9-10)? No puedo pensar en ningún proceso natural que consideraría que funcionara de esa manera.

Ahora hay muchos procesos naturales que actúan de manera no lineal, el cambio de 8 a 9 en el predictor puede hacer un cambio muy diferente en la respuesta que un cambio de 10 a 11. Y, por lo tanto, un predictor discreto puede encajar mejor que un relación lineal, pero eso es porque se le permite más grados de libertad. Pero, hay otras formas de permitir grados de libertad adicionales, como polinomios o splines, y estas opciones nos permiten penalizar para obtener un cierto nivel de suavidad y mantener algo que sea una mejor aproximación del proceso natural subyacente.

Greg Snow
fuente
1

Editar: debido a la tendencia de otras respuestas que estoy viendo, un breve descargo de responsabilidad: mi respuesta está motivada por una perspectiva de aprendizaje automático y no por un modelo estadístico.

  • Algunos modelos, como Naive Bayes, no funcionan con funciones continuas. Discretizar las características puede ayudar a usarlas para que funcionen (mucho) mejor. En general, los modelos que no se basan en el carácter "numérico" de la característica (los árboles de decisión vienen a mi mente) no se ven afectados demasiado siempre que la discretización no sea demasiado brutal. Sin embargo, algunos otros modelos tendrán un rendimiento inferior en gran medida si la discriminación es demasiado importante. Por ejemplo, los GLM no obtendrán absolutamente ningún beneficio del proceso.

  • En algunos casos, cuando la memoria / tiempo de procesamiento se convierten en factores limitantes, la discretización de características permite agregar un conjunto de datos, reduciendo su tamaño y su consumo de memoria / tiempo de computación.

Entonces, la conclusión es que si no está limitado computacionalmente, y si su modelo no requiere características discretas, no ejecute la discretización de características. De lo contrario, por supuesto considérelo.

Youloush
fuente
66
Un método que no use la naturaleza numérica de la variable debe evitarse en cualquier caso.
Frank Harrell
1
Eso es simplemente falso. Los árboles de decisión, los bosques aleatorios, el DT potenciado por gradiente son algoritmos excelentes y no tienen en cuenta la naturaleza numérica de las variables, excepto su ordenamiento. Naive Bayes a menudo puede ser una herramienta más que suficiente para tareas básicas de clasificación.
Youloush
77
Hay varios malentendidos. Primero, supone que la discretización al menos utiliza la naturaleza ordinal de los predictores continuos; no es asi. Luego, se confunde el binning previo (un desastre) con el binning durante el algoritmo predictivo (un pequeño desastre). Asume que la clasificación lleva a decisiones óptimas en oposición a la predicción. Asume que la categorización de entradas es el camino a seguir, en oposición a la categorización de salidas (riesgo predicho, luego aplique la función de pérdida para obtener una decisión óptima). Finalmente, implica que está bien hacer discontinuas las verdaderas relaciones fluidas.
Frank Harrell
3
Dado que el error de predicción es una regla de puntaje de precisión incorrecta, esa declaración dice mucho acerca de ML. Y no conozco muchos estadísticos que realmente busquen una realidad subyacente. Estamos contentos de desarrollar varias aproximaciones o sustitutos para la realidad, así como simplemente dejar que los datos hablen por sí mismos.
Frank Harrell
1
PS Las relaciones suaves existen como una verdad subyacente en casi todos los conjuntos de datos que no contienen el tiempo como único predictor. Obviamente, los puntos de datos son discretos. Eso no tiene absolutamente nada que ver con si elige un enfoque de modelado suave o no.
Frank Harrell