Gelman y Park tienen un artículo que compara la práctica de crear tres categorías a partir de una variable continua, en lugar de dos. Por lo general, es mejor dejar la variable continua por las razones explicadas por otros a continuación.
Michael Bishop
Respuestas:
10
Qué información se pierde: depende de la variable. En general, al dicotomizar, usted afirma que hay una línea recta de efecto entre una variable y otra. Por ejemplo, considere una medida continua de exposición a un contaminante en un estudio sobre cáncer. Si lo dicotomiza en "Alto" y "Bajo", afirma que esos son los dos únicos valores que importan. Existe un riesgo de cáncer en alto y hay uno en bajo Pero, ¿qué pasa si el riesgo aumenta de manera constante durante un tiempo, luego se aplana y luego vuelve a aumentar antes de aumentar finalmente a valores altos? Todo eso está perdido.
Lo que ganas: es más fácil. Las variables dicotómicas a menudo son mucho más fáciles de manejar estadísticamente. Hay razones para hacerlo: si una variable continua se divide en dos grupos claros de todos modos , pero tiendo a evitar la dicotomización a menos que sea una forma natural de la variable en primer lugar. A menudo también es útil si su campo está dicotomizando cosas de todos modos para tener una forma dicotomizada de una variable. Por ejemplo, muchos consideran que el recuento de células CD4 de menos de 400 es un umbral crítico para el VIH. Como tal, a menudo tendría una variable 0/1 para Arriba / Abajo 400, aunque también retendría la variable continua de recuento de CD4. Esto ayuda a cohesionar tu estudio con los demás.
Estaré un poco en desacuerdo con Peter. Si bien dividir una variable continua en categorías a menudo es mucho más sensato que una dicotomización cruda, me opongo bastante a la categorización cuantil. Tales categorizaciones son muy difíciles de dar interpretaciones significativas. Creo que su primer paso debería ser ver si hay una categorización con soporte biológico o clínico que uno pueda usar, y solo una vez que esas opciones se agoten, debe usar cuantiles.
Hola @epigrad Creo que la regresión cuantil tiene una interpretación bastante fácil; es muy similar a la regresión regular de OLS, excepto para sustituir "percentil XXX" por "media".
Peter Flom - Restablece a Monica
@PeterFlom Lo siento, debería haber sido más claro. Los encuentro difíciles de componer como una interpretación clínica / biológicamente relevante, en comparación con las categorías construidas a partir de evidencia clínica / biológica. Esto es ciertamente un sesgo específico de campo de mi parte.
Fomite
Oh, está bien, @epigrad, eso tiene sentido. Y editaré mi respuesta para incluir este caso.
Peter Flom - Restablece a Monica
1
Parece que EpiGrad y @PeterFlom interpretan la "regresión cuantil" de manera diferente. EpiGrad habla de dividir la variable X en grupos definidos por cuantiles, mientras que Peter Flom habla de modelar, digamos, el 90o cuantil de la respuesta en lugar de su media.
Aniko
@ Aniko Eso también puede ser posible. Asumí (probablemente incorrectamente) que Peter se refería a clasificar los datos en cuantiles y usarlos en un modelo de regresión. Una tendencia común (e irritante) en mi campo. Ese puede no ser el caso.
Fomite
9
La dicotimización agrega pensamiento mágico al análisis de datos. Rara vez es una buena idea.
Aquí hay un artículo de Royston, Altman y Sauerbrei sobre algunas razones por las cuales es una mala idea.
Mis propios pensamientos: si dicotomiza una variable dependiente, digamos, el peso al nacer a 2.5 kg (esto se hace todo el tiempo), entonces está tratando a los bebés que nacen con 2.49 kg al igual que los que nacen con 1.5 kg, y los bebés que nacen con 2.51 kg al igual que los que tienen 3.5 kg. Esto no tiene sentido.
Una alternativa mejor es a menudo la regresión cuantil. Escribí sobre esto para NESUG recientemente. Ese papel esta aqui
Una excepción a lo anterior es cuando las categorías están sustancialmente motivadas; por ejemplo, si está trabajando con un comportamiento de conducción, será sensato clasificarlo según la edad legal para conducir.
Bellamente dijo Peter. No puedo imaginar una situación en la que la dicotomización en el análisis sea una buena idea.
Frank Harrell
5
Me gustaron y apoyé las respuestas de @ Epigrad y @ Peter. Solo quería agregar que, la variable de intervalo de agrupamiento en binario hace que la variable (potencialmente) métrica sea solo ordinal. Con la variable binaria es incorrecto calcular la media o la varianza (a pesar de que algunas personas lo hacen), y, como he señalado en otros lugares , algunos análisis multivariados se vuelven teórica o lógicamente inaplicables. Por ejemplo, creo que no es correcto usar el agrupamiento jerárquico centroide / Ward o el análisis factorial con variables binarias.
Los clientes de investigación a menudo nos obligan a dicotomizar las variables en la salida porque pensar en términos de pocas clases en lugar de un rasgo continuo es más simple, la información parece menos confusa y (falsamente) más voluminosa.
Sin embargo, hay casos en que la dicotomización puede estar justificada. Por ejemplo, cuando hay una fuerte bimodalidad o cuando el análisis (por ejemplo, MAMBAC u otro) muestra la presencia de 2 clases latentes.
Me está costando entender tu argumento. Y si un cliente quiere que participemos en una mala práctica estadística, debemos pensarlo dos veces. Nota: trichotomise no es una palabra. Dicotomización = dicho (dos) + tomous (corte), por lo que sería tritomizar / tritomizar si se usa.
Frank Harrell
La aprobación del cliente fue un lamento, no un argumento. En cuanto al griego, tienes razón; Quité la palabra.
ttnphns
1
Gracias. Intento, tanto como sea humanamente posible, traducir los lamentos estadísticos en acciones correctivas, a través de un proceso educativo intensivo con el cliente.
Respuestas:
Qué información se pierde: depende de la variable. En general, al dicotomizar, usted afirma que hay una línea recta de efecto entre una variable y otra. Por ejemplo, considere una medida continua de exposición a un contaminante en un estudio sobre cáncer. Si lo dicotomiza en "Alto" y "Bajo", afirma que esos son los dos únicos valores que importan. Existe un riesgo de cáncer en alto y hay uno en bajo Pero, ¿qué pasa si el riesgo aumenta de manera constante durante un tiempo, luego se aplana y luego vuelve a aumentar antes de aumentar finalmente a valores altos? Todo eso está perdido.
Lo que ganas: es más fácil. Las variables dicotómicas a menudo son mucho más fáciles de manejar estadísticamente. Hay razones para hacerlo: si una variable continua se divide en dos grupos claros de todos modos , pero tiendo a evitar la dicotomización a menos que sea una forma natural de la variable en primer lugar. A menudo también es útil si su campo está dicotomizando cosas de todos modos para tener una forma dicotomizada de una variable. Por ejemplo, muchos consideran que el recuento de células CD4 de menos de 400 es un umbral crítico para el VIH. Como tal, a menudo tendría una variable 0/1 para Arriba / Abajo 400, aunque también retendría la variable continua de recuento de CD4. Esto ayuda a cohesionar tu estudio con los demás.
Estaré un poco en desacuerdo con Peter. Si bien dividir una variable continua en categorías a menudo es mucho más sensato que una dicotomización cruda, me opongo bastante a la categorización cuantil. Tales categorizaciones son muy difíciles de dar interpretaciones significativas. Creo que su primer paso debería ser ver si hay una categorización con soporte biológico o clínico que uno pueda usar, y solo una vez que esas opciones se agoten, debe usar cuantiles.
fuente
La dicotimización agrega pensamiento mágico al análisis de datos. Rara vez es una buena idea.
Aquí hay un artículo de Royston, Altman y Sauerbrei sobre algunas razones por las cuales es una mala idea.
Mis propios pensamientos: si dicotomiza una variable dependiente, digamos, el peso al nacer a 2.5 kg (esto se hace todo el tiempo), entonces está tratando a los bebés que nacen con 2.49 kg al igual que los que nacen con 1.5 kg, y los bebés que nacen con 2.51 kg al igual que los que tienen 3.5 kg. Esto no tiene sentido.
Una alternativa mejor es a menudo la regresión cuantil. Escribí sobre esto para NESUG recientemente. Ese papel esta aqui
Una excepción a lo anterior es cuando las categorías están sustancialmente motivadas; por ejemplo, si está trabajando con un comportamiento de conducción, será sensato clasificarlo según la edad legal para conducir.
fuente
Me gustaron y apoyé las respuestas de @ Epigrad y @ Peter. Solo quería agregar que, la variable de intervalo de agrupamiento en binario hace que la variable (potencialmente) métrica sea solo ordinal. Con la variable binaria es incorrecto calcular la media o la varianza (a pesar de que algunas personas lo hacen), y, como he señalado en otros lugares , algunos análisis multivariados se vuelven teórica o lógicamente inaplicables. Por ejemplo, creo que no es correcto usar el agrupamiento jerárquico centroide / Ward o el análisis factorial con variables binarias.
Los clientes de investigación a menudo nos obligan a dicotomizar las variables en la salida porque pensar en términos de pocas clases en lugar de un rasgo continuo es más simple, la información parece menos confusa y (falsamente) más voluminosa.
Sin embargo, hay casos en que la dicotomización puede estar justificada. Por ejemplo, cuando hay una fuerte bimodalidad o cuando el análisis (por ejemplo, MAMBAC u otro) muestra la presencia de 2 clases latentes.
fuente