¿Cuál es el beneficio de romper una variable predictiva continua?

78

Me pregunto cuál es el valor de tomar una variable predictora continua y dividirla (por ejemplo, en quintiles), antes de usarla en un modelo.

Me parece que al agrupar la variable perdemos información.

  • ¿Es esto solo para que podamos modelar efectos no lineales?
  • Si mantenemos la variable continua y no se trata realmente de una relación lineal recta, ¿tendríamos que idear algún tipo de curva que se ajustara mejor a los datos?
Tom
fuente
12
1) No. Tienes razón en que binning pierde información. Debe evitarse si es posible. 2) Generalmente, se prefiere la función de curva que sea consistente con la teoría detrás de los datos.
O_Devinyak
8
No sé acerca de los beneficios, pero hay una serie de peligros ampliamente reconocidos
Glen_b
2
Un argumento renuente para ello, en ocasiones: puede simplificar la interpretación clínica y la presentación de resultados, por ejemplo. La presión arterial a menudo es un predictor cuadrático y un médico puede apoyar el uso de valores de corte para la PA baja, normal y alta y puede estar interesado en comparar estos grupos amplios.
user20650
44
@ user20650: No estoy seguro de entenderte, pero ¿no sería mejor ajustar el mejor modelo posible y luego usar las predicciones de ese modelo para decir algo que quieras decir sobre grupos amplios? El 'grupo de presión arterial alta' en mi estudio no necesariamente tendrá la misma distribución de presiones que la población general, por lo que sus resultados no se generalizarán.
Scortchi - Restablece a Monica
77
La interpretación clínica simplificada es un espejismo. Las estimaciones de efectos de variables continuas categorizadas no tienen interpretación conocida.
Frank Harrell

Respuestas:

64

Tienes razón en ambos aspectos. Vea la página de Frank Harrell aquí para obtener una larga lista de problemas con el binning de variables continuas. Si usa algunos contenedores, tira mucha información en los predictores; Si usa muchos, tiende a adaptarse a lo que debería ser una relación suave, si no lineal, y consume muchos grados de libertad. En general, es mejor usar polinomios ( ) o splines (polinomios por partes que se unen suavemente) para los predictores. Binning es realmente una buena idea cuando esperas una discontinuidad en la respuesta en los puntos de corte, digamos la temperatura a la que hierve algo o la edad legal para conducir, y cuando la respuesta es plana entre ellos.x+x2+

¿El valor? Bueno, es una forma rápida y fácil de tener en cuenta la curvatura sin tener que pensar en ello, y el modelo puede ser lo suficientemente bueno para lo que está usando. Tiende a funcionar bien cuando tienes muchos datos en comparación con el número de predictores, cada predictor se divide en muchas categorías; en este caso dentro de cada banda de predicción, el rango de respuesta es pequeño y la respuesta promedio se determina con precisión.

[Editar en respuesta a los comentarios:

A veces hay límites estándar utilizados dentro de un campo para una variable continua: por ejemplo, en medicina, las mediciones de la presión arterial pueden clasificarse en baja, media o alta. Puede haber muchas buenas razones para usar tales límites cuando presente o aplique un modelo. En particular, las reglas de decisión a menudo se basan en menos información de la que se incluye en un modelo y es posible que sea simple de aplicar. Pero no se deduce que estos puntos de corte sean apropiados para agrupar los predictores cuando se ajusta al modelo.

Supongamos que alguna respuesta varía continuamente con la presión arterial. Si define un grupo de presión arterial alta como predictor en su estudio, el efecto que está estimando es la respuesta promedio sobre las presiones sanguíneas particulares de los individuos en ese grupo. Es nouna estimación de la respuesta promedio de las personas con presión arterial alta en la población general, o de las personas en el grupo de presión arterial alta en otro estudio, a menos que tome medidas específicas para que así sea. Si se conoce la distribución de la presión arterial en la población general, como imagino, será mejor calcular la respuesta promedio de las personas con presión arterial alta en la población general según las predicciones del modelo con la presión arterial como variable continua. El binning crudo hace que su modelo solo sea aproximadamente generalizable.

En general, si tiene preguntas sobre el comportamiento de la respuesta entre los puntos de corte, ajuste primero el mejor modelo que pueda y luego úselo para responderlas.]

[Con respecto a la presentación; Creo que este es un arenque rojo:

(1) La facilidad de presentación no justifica malas decisiones de modelado. (Y en los casos en que binning es una buena decisión de modelado, no necesita justificación adicional). Seguramente esto es evidente. Nadie recomienda nunca sacar una interacción importante de un modelo porque es difícil de presentar.

(2) Cualquiera sea el tipo de modelo que se ajuste, aún puede presentar sus resultados en términos de categorías si cree que ayudará a la interpretación. Aunque ...

(3) Debe tener cuidado para asegurarse de que no ayuda a la mala interpretación, por las razones expuestas anteriormente.

(4) De hecho, no es difícil presentar respuestas no lineales. La opinión personal, claramente, y el público difieren; pero nunca he visto un gráfico de valores de respuesta ajustados versus valores predictores que desconciertan a alguien solo porque es curvo. Interacciones, logits, efectos aleatorios, multicolinealidad, ... estos son mucho más difíciles de explicar.]

[Un punto adicional presentado por @Roland es la exactitud de la medición de los predictores; él sugiere, creo, que la categorización puede ser apropiada cuando no son especialmente precisos. El sentido común podría sugerir que no se mejoran las cosas volviendo a plantearlas con menos precisión, y el sentido común sería correcto: MacCallum et al (2002), "Sobre la práctica de la dicotomización de variables cuantitativas", Métodos psicológicos , 7 , 1, pp17-19.]

Scortchi - Restablece a Monica
fuente
66
Excelentes comentarios sobre un tema generalizado. Es importante hacer propaganda para un pensamiento completamente cuantitativo aquí. Ya hay demasiado énfasis en cruzar umbrales, por ejemplo, por encima de algún nivel de desastre, por debajo de cierto nivel de comodidad.
Nick Cox
14
Desafiaría a cualquiera a mostrar una validación de cualquier corte utilizado por los médicos.
Frank Harrell
Vale la pena señalar que este enfoque de binning tiene algunos beneficios en otras áreas: es particularmente popular cuando se combina con grandes redes neuronales para predecir distribuciones multimodales como la orientación del vehículo. Ver arxiv.org/abs/1612.00496 por ejemplo.
N. McA.
11

Una parte de esta respuesta que aprendí desde que pregunté es que no binning y binning buscan responder dos preguntas ligeramente diferentes: ¿Cuál es el cambio incremental en los datos? y ¿Cuál es la diferencia entre el más bajo y el más alto? .

No binning dice "esta es una cuantificación de la tendencia observada en los datos" y binning dice "No tengo suficiente información para decir cuánto cambia esto en cada incremento, pero puedo decir que la parte superior es diferente de la parte inferior" .

Tom
fuente
5

Como clínico, creo que la respuesta depende de lo que quieras hacer. Si desea hacer el mejor ajuste o hacer el mejor ajuste, puede usar variables continuas y cuadradas.

Si desea describir y comunicar asociaciones complicadas para una audiencia no orientada estadísticamente, el uso de variables categorizadas es mejor, aceptando que puede dar algunos resultados ligeramente sesgados en el último decimal. Prefiero usar al menos tres categorías para mostrar asociaciones no lineales. La alternativa es producir gráficos y resultados pronosticados en ciertos puntos. Entonces es posible que deba generar una familia de gráficos para cada covariable continua que pueda ser interesante. Si tienes miedo de tener demasiada parcialidad, creo que puedes probar ambos modelos y ver si la diferencia es importante o no. Debes ser práctico y realista.

Creo que podemos darnos cuenta de que en muchas situaciones clínicas nuestros cálculos no se basan en datos exactos y cuando, por ejemplo, le receto un medicamento a un adulto, no hago eso con mg exactos por kilo de todos modos (la parábola con la elección entre cirugía y tratamiento médico) es una tontería).

Roland
fuente
1
¿Por qué es exactamente la analogía sin sentido? ¿Porque categorizar variables continuas nunca produce modelos significativamente peores? ¿O porque usar un modelo significativamente peor nunca tiene consecuencias prácticas?
Scortchi - Restablece a Monica
99
Ese simplemente no es el caso @Roland. Las estimaciones obtenidas de los puntos de corte son simples porque las personas no entienden lo que estiman las estimaciones. Esto se debe a que no estiman una cantidad científica, es decir, una cantidad que tiene un significado fuera de la muestra o el experimento. Por ejemplo, la razón de probabilidad alta: baja o la diferencia de medias aumentarán si agrega pacientes con valores muy altos o muy bajos al conjunto de datos. Además, el uso de puntos de corte implica que la biología es discontinua, lo cual no es el caso.
Frank Harrell
@Scortchi Cambiar de tratamiento médico a quirúrgico porque es más fácil de explicar (¿es realmente así?) Sería como reemplazar la edad con la altura como variable explicativa.
Roland
Estoy de acuerdo en evitar las variables dicotomizadas. La medicina clínica no es una ciencia espacial donde el último decimal es importante. En los modelos con los que trabajo, los resultados solo cambian en el último decimal si utilizo categorías de edad versus edad como variables continuas y cuadradas, pero aumenta enormemente la comprensión y la comunicabilidad de las asociaciones.
Roland
4

Como los carteles anteriores han mencionado, generalmente es mejor evitar dicotomizar una variable continua. Sin embargo, en respuesta a su pregunta, hay casos en los que la dicotomización de una variable continua confiere ventajas.

Por ejemplo, si una variable dada contiene valores faltantes para una proporción significativa de la población, pero se sabe que es altamente predictiva y los valores faltantes en sí mismos tienen valor predictivo. Por ejemplo, en un modelo de calificación crediticia, considere una variable, digamos saldo de crédito revolvente promedio (que otorgado, no es técnicamente continuo, pero en este caso refleja una distribución normal lo suficientemente cercana como para ser tratada como tal), que contiene valores faltantes para aproximadamente el 20% del grupo de solicitantes en un mercado objetivo dado. En este caso, los valores faltantes para esta variable representan una clase distinta: aquellos que no tienen una línea de crédito rotativa abierta; estos clientes mostrarán un comportamiento completamente diferente en comparación con, por ejemplo, aquellos con líneas de crédito rotativas disponibles, pero que regularmente no tienen saldo.

Otro beneficio de la dicotomización: se puede usar para mitigar los efectos de valores atípicos significativos que sesgan los coeficientes, pero representan casos realistas que deben manejarse. Si los valores atípicos no difieren mucho en el resultado de otros valores en los percentiles más cercanos, pero sesgan los parámetros lo suficiente como para lograr una precisión marginal, entonces puede ser beneficioso agruparlos con valores que muestren efectos similares.

A veces, una distribución se presta naturalmente a un conjunto de clases, en cuyo caso la dicotomización realmente le dará un mayor grado de precisión que una función continua.

Además, como se mencionó anteriormente, dependiendo de la audiencia, la facilidad de presentación puede superar las pérdidas de precisión. Para volver a utilizar la calificación crediticia como ejemplo, en la práctica, el alto grado de regulación es un caso práctico para discretizar a veces. Si bien el mayor grado de precisión podría ayudar al prestamista a reducir las pérdidas, los profesionales también deben considerar que los reguladores deben comprender fácilmente los modelos (que pueden solicitar miles de páginas de documentación del modelo) y los consumidores, a quienes, si se les niega el crédito, tienen derecho legal a un explicación de por qué.

Todo depende del problema en cuestión y de los datos, pero ciertamente hay casos en los que la dicotomización tiene sus méritos.

cjthompson
fuente
La dicotomización se pone en dos contenedores: ¿quiere decir discretización?
Scortchi - Restablece a Monica
2
En los dos primeros ejemplos, la discretización está tratando de abrirse camino en la fiesta atrapando a un invitado de buena fe. No te dejes engañar. (1) Si desea modelar que no tiene una línea de crédito revolvente abierta como una clase distinta, simplemente use una variable ficticia para indicar esa condición y asigne cualquier valor constante para el saldo de crédito revolvente promedio. (2) Si desea tratar ciertos valores predictores extremos de forma idéntica, como "grande" o "pequeño", trunquelos; no hay necesidad de perder el tiempo con el resto de los valores. El tercer caso es indiscutible: siéntase libre de agregar ejemplos.
Scortchi - Restablece a Monica
3

Si una variable tiene un efecto en un umbral específico, crear una nueva variable al agruparla es algo bueno. Siempre mantengo ambas variables, la original y la agrupación, y compruebo qué variable es un mejor predictor.

Nguyen
fuente
3

Soy un fanático comprometido con el consejo de Frank Harrell de que los analistas deben resistir la discretización prematura de datos continuos. Y tengo varias respuestas sobre CV y ​​SO que demuestran cómo visualizar las interacciones entre variables continuas, ya que creo que es una línea de investigación aún más valiosa. Sin embargo, también tengo experiencia en el mundo real en el mundo médico de las barreras para cumplir con este consejo. A menudo hay divisiones atractivas que tanto médicos como no médicos esperan para "divisiones". El "límite superior de la normalidad" convencional es uno de esos puntos de división "naturales". Esencialmente, primero se examina la base estadística de una relación y luego se comunica la sustancia de los hallazgos en términos que su audiencia espera y puede comprender fácilmente. A pesar de mi "alergia" Para las gráficas de barras, son extremadamente comunes en el discurso científico y médico. Por lo tanto, es probable que la audiencia tenga un patrón cognitivo listo para procesarlos y pueda integrar los resultados en su base de conocimiento.

Además, la visualización gráfica de las interacciones modeladas entre formas no lineales de variables predictoras requiere presentaciones de gráficos de contorno o pantallas de estructura metálica que la mayoría de la audiencia tendrá algunas dificultades para digerir. He descubierto que el público médico y general es más receptivo a las presentaciones que tienen resultados discretos y segmentados. Así que supongo que la conclusión es que la división se realiza correctamente después de que se completa el análisis estadístico; y se realiza en la fase de presentación.

DWin
fuente
1

Muchas veces el binning de variables continuas viene con una sensación incómoda de causar daño debido a la pérdida de información. Sin embargo, no solo puede limitar la pérdida de información, también puede obtener información y obtener más ventajas.

Si usa binning y obtiene variables categorizadas, podría aplicar algoritmos de aprendizaje que no son aplicables a las variables continuas. Su conjunto de datos podría ajustarse mejor a uno de estos algoritmos, así que aquí está su primer beneficio.

La idea de estimar la pérdida debido al binning se basa en el documento "Aprendizaje PAC con atributos irrelevantes". Supongamos que nuestro concepto es binario para que podamos dividir las muestras en positivos y negativos. Para cada par de muestras negativas y positivas, la diferencia de concepto podría explicarse por una diferencia en una de las características (o de lo contrario, no se explica por las características dadas). El conjunto de diferencias de características es el conjunto de posibles explicaciones a la diferencia de concepto, de ahí los datos que se utilizarán para determinar el concepto. Si hicimos binning y aún obtenemos el mismo conjunto de explicaciones para los pares, no perdemos ninguna información necesaria (con respecto a los algoritmos de aprendizaje que funcionan según tales comparaciones). Si nuestra categorización será muy estricta, probablemente tendremos un conjunto más pequeño de posibles explicaciones, pero podremos medir con precisión cuánto y dónde perdemos. Eso nos permitirá intercambiar el número de contenedores frente a un conjunto de explicaciones.

Hasta ahora vimos que podríamos no perder debido a la categorización, pero si consideramos aplicar tal paso, nos gustaría beneficiarnos. De hecho, podemos beneficiarnos de la categorización

Muchos algoritmos de aprendizaje a los que se les pedirá que clasifiquen una muestra con valores no vistos en el conjunto de trenes, considerarán el valor como "desconocido". Por lo tanto, obtendremos un contenedor de "desconocido" que incluye TODOS los valores no vistos durante el tren (o incluso no se ve lo suficiente). Para tales algoritmos, la diferencia entre pares de valores desconocidos no se utilizará para mejorar la clasificación. Compare sus pares después de binning con los pares con unknown y vea si su binning es útil y realmente ganó.

Puede estimar qué tan comunes serán los valores desconocidos al verificar la distribución de valores de cada entidad. Los valores de la característica que aparecen solo pocas veces son una parte considerable de su distribución y son buenos candidatos para el binning. Tenga en cuenta que en muchos escenarios tendrá muchas características con desconocido, lo que aumenta la probabilidad de que una muestra contenga un valor desconocido. Los algoritmos que tratan todas o muchas de las características son propensos a errores en tales situaciones.

A. Dhagat y L. Hellerstein, "Aprendizaje de PAC con atributos irrelevantes", en 'Proceedings of the IEEE Symp. en Foundation of Computer Science ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

DaL
fuente