¿Tiene sentido tratar los datos categóricos como continuos?

57

Al responder esta pregunta sobre datos discretos y continuos , afirmé con soltura que rara vez tiene sentido tratar los datos categóricos como continuos.

A primera vista, parece evidente, pero la intuición es a menudo una guía pobre para las estadísticas, o al menos la mía lo es. Entonces ahora me pregunto: ¿es cierto? ¿O hay análisis establecidos para los que una transformación de datos categóricos a algún continuo es realmente útil? ¿Habría alguna diferencia si los datos fueran ordinales?

categorical-data data-transformation ordinal-data continuous-data radio telefono
fuente

20

Esta pregunta y sus respuestas nos recuerdan cuán cruda y limitada es realmente esta división anticuada de variables en relación de intervalo categórico ordinal. Puede guiar a los estadísticamente ingenuos, pero para el analista reflexivo o experimentado es un obstáculo, un obstáculo en la forma de expresar las variables de manera apropiada para los datos y las decisiones que se tomarán con ellos. Alguien que trabaje desde este último punto de vista se moverá libremente entre representaciones de datos categóricas y "continuas"; ¡Para ellos, esta pregunta ni siquiera puede surgir! En cambio, deberíamos preguntar: ¿cómo ayuda?

whuber

@whuber (+1) Como mínimo, parece difícil optimizar la fiabilidad de la medición y la precisión del diagnóstico al mismo tiempo.

chl

34

Asumiré que una variable "categórica" en realidad representa una variable ordinal; de lo contrario, no tiene mucho sentido tratarlo como continuo, a menos que sea una variable binaria (codificada 0/1) como lo señala @Rob. Entonces, diría que el problema no es tanto la forma en que tratamos la variable, aunque hasta el momento se han desarrollado muchos modelos para el análisis de datos categóricos; véase, por ejemplo, El análisis de datos categóricos ordenados: una visión general y una encuesta de recientes desarrollos de Liu y Agresti--, que la escala de medición subyacente que asumimos. Mi respuesta se centrará en este segundo punto, aunque primero discutiré brevemente la asignación de puntajes numéricos a categorías o niveles variables.

Al usar una simple recodificación numérica de una variable ordinal, está asumiendo que la variable tiene propiedades de intervalo (en el sentido de la clasificación dada por Stevens, 1946). Desde la perspectiva de la teoría de la medición (en psicología), esto a menudo puede ser una suposición demasiado fuerte, pero para el estudio básico (es decir, cuando se usa un solo elemento para expresar la opinión de uno sobre una actividad diaria con una redacción clara), cualquier puntaje monótono debería dar resultados comparables . Cochran (1954) ya señaló que

cualquier conjunto de puntajes da una prueba válida , siempre que se construyan sin consultar los resultados del experimento. Si el conjunto de puntajes es pobre, ya que distorsiona gravemente una escala numérica que realmente subyace a la clasificación ordenada, la prueba no será sensible. Por lo tanto, los puntajes deben incorporar la mejor información disponible sobre la forma en que se construyó y usó la clasificación. (pág. 436)

(Muchas gracias a @whuber por recordarme esto a lo largo de uno de sus comentarios, que me llevó a volver a leer el libro de Agresti, del cual proviene esta cita).

En realidad, varias pruebas tratan implícitamente tales variables como escalas de intervalo: por ejemplo, el estadístico para probar una tendencia lineal (como alternativa a la independencia simple) se basa en un enfoque correlacional ( , Agresti, 2002, p. 87). $M^2$ $M^2=(n-1)r^2$

Bueno, también puede decidir recodificar su variable en un rango irregular o agregar algunos de sus niveles, pero en este caso un fuerte desequilibrio entre categorías recodificadas puede distorsionar las pruebas estadísticas, por ejemplo, la prueba de tendencia mencionada anteriormente. @Jeromy ya propuso una buena alternativa para asignar la distancia entre categorías, a saber, la escala óptima.

Ahora, analicemos el segundo punto que hice, el del modelo de medición subyacente. Siempre dudo en agregar la etiqueta "psicometría" cuando veo este tipo de preguntas, porque la construcción y el análisis de escalas de medición se encuentran bajo la Teoría psicométrica (Nunnally y Bernstein, 1994, para una visión general ordenada). No me detendré en todos los modelos que en realidad se dirigen bajo la Teoría de la respuesta al ítem , y gentilmente remito al lector interesado a I. Tutorial de Partchev, Una guía visual de la teoría de la respuesta al ítem, para una introducción suave a IRT, y a las referencias (5-8) enumeradas al final para posibles taxonomías IRT. Muy brevemente, la idea es que, en lugar de asignar distancias arbitrarias entre categorías variables, asumas una escala latente y calcules su ubicación en ese continuo, junto con la capacidad o responsabilidad de los individuos. Un ejemplo simple vale mucha notación matemática, así que consideremos el siguiente ítem (proveniente del cuestionario de calidad de vida relacionado con la salud EORTC QLQ-C30 ):

Te preocupaste?

que está codificado en una escala de cuatro puntos, que van desde "Nada" hasta "Mucho". Los puntajes brutos se calculan asignando un puntaje de 1 a 4. Los puntajes de los elementos que pertenecen a la misma escala se pueden sumar para obtener el llamado puntaje de escala, que denota el rango de uno en la construcción subyacente (aquí, un componente de salud mental ) Estos puntajes de escala sumados son muy prácticos debido a la facilidad de puntaje (para el profesional o la enfermera), pero no son más que una escala discreta (ordenada).

También podemos considerar que la probabilidad de respaldar una categoría de respuesta dada obedece a algún tipo de modelo logístico, como se describe en el tutorial de I. Partchev, mencionado anteriormente. Básicamente, la idea es la de un tipo de modelo de umbral (que conduce a una formulación equivalente en términos de modelos de probabilidades proporcionales o acumulativas) y modelamos las probabilidades de estar en una categoría de respuesta en lugar de la anterior o las probabilidades de obtener un puntaje por encima de un cierta categoría, condicional a la ubicación de los sujetos en el rasgo latente. Además, podemos imponer que las categorías de respuesta estén igualmente espaciadas en la escala latente (este es el modelo de Escala de Calificación), que es la forma en que lo hacemos asignando puntajes numéricos espaciados regularmente o no (este es el modelo de Crédito Parcial) .

Claramente, no estamos agregando mucho a la teoría de prueba clásica, donde las variables ordinales se tratan como numéricas. Sin embargo, introducimos un modelo probabilístico, donde asumimos una escala continua (con propiedades de intervalo) y donde se pueden tener en cuenta los errores específicos de medición, y podemos conectar estos puntajes factoriales en cualquier modelo de regresión.

Referencias

SS Stevens. En la teoría de las escalas de medición. Science , 103 : 677-680, 1946.
WG Cochran. Algunos métodos para fortalecer las pruebas comunes de . Biometrics , 10 : 417-451, 1954. $\chi^2$
J Nunnally y yo Bernstein. Teoría psicométrica . McGraw-Hill, 1994
Alan Agresti. Análisis de datos categóricos . Wiley, 1990.
CR Rao y S Sinharay, editores. Manual de Estadística, vol. 26: Psicometría . Elsevier Science BV, Países Bajos, 2007.
A Boomsma, MAJ van Duijn y TAB Snijders. Ensayos sobre la teoría de respuesta al ítem . Springer, 2001.
D Thissen y L Steinberg. Una taxonomía de los modelos de respuesta al ítem. Psychometrika , 51 (4) : 567-577, 1986.
P Mair y R Hatzinger. Extended Rasch Modelado: El MTC paquete para la aplicación de los modelos de la TRI en I . Revista de software estadístico , 20 (9) , 2007.

chl
fuente

19

Si solo hay dos categorías, tiene sentido transformarlas en (0,1). De hecho, esto se hace comúnmente cuando la variable ficticia resultante se usa en modelos de regresión.

Si hay más de dos categorías, entonces creo que solo tiene sentido si los datos son ordinales, y solo en circunstancias muy específicas. Por ejemplo, si estoy haciendo una regresión y ajusto una función no lineal no paramétrica a la variable ordinal-cum-numérica, creo que está bien. Pero si uso la regresión lineal, entonces estoy haciendo suposiciones muy fuertes sobre la diferencia relativa entre los valores consecutivos de la variable ordinal, y generalmente soy reacio a hacerlo.

Rob Hyndman
fuente

1

"[L] a estoy haciendo suposiciones muy fuertes sobre la diferencia relativa entre valores consecutivos de la variable ordinal". Creo que este es el punto clave, de verdad. es decir, ¿hasta qué punto puede argumentar que la diferencia entre los grupos 1 y 2 es comparable a la que existe entre 2 y 3?

Freya Harrison

Creo que debería hacer una suposición acerca de cómo se debe distribuir la variable continua y luego tratar de ajustar este "psudohistograma" de cada frecuencia variable categórica (es decir, encontrar anchos de bin que lo transformarán en un histograma ajustado). Aún así, no soy un experto en este campo, es una idea rápida y sucia.

Redefinir las categorías binarias como {0,1} tiene sentido, pero convertirlo en un intervalo continuo [0,1] parece un salto. En el frente más amplio, estoy totalmente de acuerdo con su renuencia a ponderar los ordinales por igual, a menos que haya argumentos poderosos del modelo.

walkytalky

18

Es una práctica común tratar las variables categóricas ordenadas con muchas categorías como continuas. Ejemplos de esto:

Número de artículos correctos en una prueba de 100 artículos
Una escala psicológica sumada (p. Ej., Es la media de 10 ítems cada uno en una escala de cinco puntos)

Y por "tratar como continuo" me refiero a incluir la variable en un modelo que asume una variable aleatoria continua (por ejemplo, como una variable dependiente en una regresión lineal). Supongo que el problema es cuántos puntos de escala se requieren para que esto sea un supuesto simplificador razonable.

Algunos otros pensamientos:

Las correlaciones policóricas intentan modelar la relación entre dos variables ordinales en términos de variables continuas latentes asumidas.
El escalado óptimo le permite desarrollar modelos en los que el escalado de una variable categórica se desarrolla de forma basada en datos, respetando las restricciones de escala que impone (por ejemplo, la ordinalidad). Para una buena introducción, ver De Leeuw y Mair (2009)

Referencias

De Leeuw, J. y Mair, P. (2009). Métodos Gifi para una escala óptima en R: los paquetes de homals. Journal of Statistical Software, de próxima publicación, 1-30. PDF

Jeromy Anglim
fuente

7

Un ejemplo muy simple que a menudo se pasa por alto y que debe estar dentro de la experiencia de muchos lectores se refiere a las calificaciones o calificaciones otorgadas al trabajo académico. A menudo, las calificaciones de las tareas individuales son, en esencia, medidas ordinales basadas en el juicio, incluso cuando, como cuestión de convención, se otorgan como (digamos) marcas de porcentaje o marcas en una escala con un máximo de 5 (posiblemente también con puntos decimales). Es decir, un maestro puede leer un ensayo o disertación o tesis o papel y decidir que merece 42%, o 4, o lo que sea. Incluso cuando las calificaciones se basan en un esquema de evaluación detallado, la escala está en la raíz a cierta distancia de una escala de medición de intervalo o relación.

Pero luego, muchas instituciones consideran que si tiene suficientes calificaciones o calificaciones, es perfectamente razonable promediarlas (promedio de calificaciones, etc.) e incluso analizarlas con más detalle. Entonces, en algún momento, las mediciones ordinales se transforman en una escala de resumen que se trata como si fuera continua.

Los conocedores de la ironía notarán que los cursos de estadística en muchos departamentos o escuelas a menudo enseñan que esto es, en el mejor de los casos, dudoso y, en el peor de los casos, incorrecto, mientras se implementa como un procedimiento de toda la universidad.

Nick Cox
fuente

5

En un análisis de clasificación por frecuencia, como con un gráfico de Pareto y los valores asociados (por ejemplo, cuántas categorías constituyen el 80% de las fallas principales del producto)

AdamV
fuente

55

Punto importante, y puede extenderse: muchos modelos de datos ordinales dependen de la idea de que no se pueden modelar los datos ordinales sino sus probabilidades acumulativas.

Nick Cox

4

Voy a argumentar que tratar una variable verdaderamente categórica y no ordinal como continua a veces puede tener sentido.

Si está creando árboles de decisión basados en grandes conjuntos de datos, puede ser costoso en términos de potencia de procesamiento y memoria convertir las variables categóricas en variables ficticias. Además, algunos modelos (por ejemplo, randomForesten R) no pueden manejar variables categóricas con muchos niveles.

En estos casos, un modelo basado en árboles debería ser capaz de identificar categorías extremadamente importantes, INCLUSO SI están codificadas como una variable continua. Un ejemplo artificial:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y es una variable continua, a es una variable continua yb es una variable categórica. Sin embargo, en dat1b se trata como continuo.

Al ajustar un árbol de decisión a estos 2 conjuntos de datos, encontramos que dat1es un poco peor que dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

Si observa los 2 modelos, encontrará que son muy similares, pero model1 pierde la importancia de b == 42:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

Sin embargo, model1 se ejecuta en aproximadamente 1/10 del tiempo de model2:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066

Por supuesto, puede ajustar los parámetros del problema para encontrar situaciones en las que el dat2rendimiento supera dat1o dat1supera ligeramente dat2.

En general, no estoy abogando por tratar las variables categóricas como continuas, pero he encontrado situaciones en las que hacerlo ha reducido en gran medida el tiempo que lleva ajustar mis modelos, sin disminuir su precisión predictiva.

Zach
fuente

3

Un buen resumen de este tema se puede encontrar aquí:

mijkerhemtulla.socsci.uva.nl PDF

"¿Cuándo se pueden tratar las variables categóricas como continuas? Una comparación de métodos sólidos y continuos de estimación SEM categórica en condiciones subóptimas".

Mijke Rhemtulla, Patricia É. Brosseau-Liard y Victoria Savalei

Investigan alrededor de 60 páginas de métodos para hacerlo y proporcionan información sobre cuándo es útil hacerlo, qué enfoque adoptar y cuáles son las fortalezas y debilidades de cada enfoque para adaptarse a su situación específica. No los cubren a todos (como estoy aprendiendo parece que hay una cantidad ilimitada), pero los que sí cubren cubren bien.

Taal
fuente

2

Hay otro caso cuando tiene sentido: cuando los datos se muestrean a partir de datos continuos (por ejemplo, a través de un convertidor analógico a digital). Para los instrumentos más antiguos, los ADC a menudo serían de 10 bits, lo que da lo que nominalmente son datos ordinales de 1024 categorías, pero para la mayoría de los propósitos pueden tratarse como reales (aunque habrá algunos artefactos para valores cerca del extremo inferior de la escala). Hoy los ADC son más comúnmente de 16 o 24 bits. Cuando habla de 65536 o 16777216 "categorías", realmente no tiene problemas para tratar los datos como continuos.

Kieran O'Neill
fuente

Estoy totalmente de acuerdo con su resultado final, pero podría decirse que tales datos nunca fueron ordinales para empezar, solo discretizados. Los malos tratamientos de la relación nominal del intervalo ordinal son los culpables de no señalar con frecuencia que el ordinal implica discreto, pero no viceversa. Un recuento es ordinal, pero también es intervalo y relación.

Nick Cox

@Nick Ordinal implica discreto? No necesariamente. Las medidas continuas pueden ser ordinales. Por ejemplo, las variables fisiológicas como el GSP o la frecuencia cardíaca son continuas, pero como medidas de variables psicológicas como la ansiedad o la excitación son solo ordinales. La noción de ordinal vs intervalo realmente se refiere a la linealidad de la función que relaciona la medida con lo que se pretende medir.

Ray Koopman

Esa es una observación interesante, pero una vez que entras en ese territorio, no veo cómo puedes clasificar la frecuencia cardíaca sin evidencia independiente de lo que realmente es la ansiedad y, en última instancia, la mayoría de las variables consideradas como indicadores no son clasificables. ¿Llegaría hasta el punto de negarse a utilizar métodos para datos de intervalo o relación cada vez que cambie a la escala de medición como ordinal? No creo que los datos se comporten de manera diferente debido a lo que pretendes hacer con ellos; ese es el meollo del problema para mí.

Nick Cox

1

@Nick La pregunta es si la función que relaciona el valor medido con el valor "verdadero" es lo suficientemente cercana a la lineal como para que tratarla como tal no conduzca a conclusiones sustantivas erróneas, o debe tratarse solo como monotónica. Usualmente hay poca o ninguna información sólida sobre la cual basar la decisión; casi siempre será una decisión de juicio, sobre la cual las personas inteligentes informadas pueden tener que estar de acuerdo en no estar de acuerdo.

Ray Koopman

1

Creo que el énfasis habitual en las discusiones sobre escalas de medición en estadística está en las propiedades matemáticas de las variables y cuáles son las operaciones matemáticas legítimas para cada una. Eso es lo suficientemente polémico. La preocupación científica sobre si algo mide lo que se supone que estoy de acuerdo es de vital importancia, pero lo veo como un área de debate bastante diferente.

Nick Cox

¿Tiene sentido tratar los datos categóricos como continuos?

Respuestas:

Referencias