Al responder esta pregunta sobre datos discretos y continuos , afirmé con soltura que rara vez tiene sentido tratar los datos categóricos como continuos.
A primera vista, parece evidente, pero la intuición es a menudo una guía pobre para las estadísticas, o al menos la mía lo es. Entonces ahora me pregunto: ¿es cierto? ¿O hay análisis establecidos para los que una transformación de datos categóricos a algún continuo es realmente útil? ¿Habría alguna diferencia si los datos fueran ordinales?
categorical-data
data-transformation
ordinal-data
continuous-data
radio telefono
fuente
fuente
Respuestas:
Asumiré que una variable "categórica" en realidad representa una variable ordinal; de lo contrario, no tiene mucho sentido tratarlo como continuo, a menos que sea una variable binaria (codificada 0/1) como lo señala @Rob. Entonces, diría que el problema no es tanto la forma en que tratamos la variable, aunque hasta el momento se han desarrollado muchos modelos para el análisis de datos categóricos; véase, por ejemplo, El análisis de datos categóricos ordenados: una visión general y una encuesta de recientes desarrollos de Liu y Agresti--, que la escala de medición subyacente que asumimos. Mi respuesta se centrará en este segundo punto, aunque primero discutiré brevemente la asignación de puntajes numéricos a categorías o niveles variables.
Al usar una simple recodificación numérica de una variable ordinal, está asumiendo que la variable tiene propiedades de intervalo (en el sentido de la clasificación dada por Stevens, 1946). Desde la perspectiva de la teoría de la medición (en psicología), esto a menudo puede ser una suposición demasiado fuerte, pero para el estudio básico (es decir, cuando se usa un solo elemento para expresar la opinión de uno sobre una actividad diaria con una redacción clara), cualquier puntaje monótono debería dar resultados comparables . Cochran (1954) ya señaló que
(Muchas gracias a @whuber por recordarme esto a lo largo de uno de sus comentarios, que me llevó a volver a leer el libro de Agresti, del cual proviene esta cita).
En realidad, varias pruebas tratan implícitamente tales variables como escalas de intervalo: por ejemplo, el estadístico para probar una tendencia lineal (como alternativa a la independencia simple) se basa en un enfoque correlacional ( , Agresti, 2002, p. 87).M 2 = ( n - 1 ) r 2METRO2 METRO2= ( n - 1 ) r2
Bueno, también puede decidir recodificar su variable en un rango irregular o agregar algunos de sus niveles, pero en este caso un fuerte desequilibrio entre categorías recodificadas puede distorsionar las pruebas estadísticas, por ejemplo, la prueba de tendencia mencionada anteriormente. @Jeromy ya propuso una buena alternativa para asignar la distancia entre categorías, a saber, la escala óptima.
Ahora, analicemos el segundo punto que hice, el del modelo de medición subyacente. Siempre dudo en agregar la etiqueta "psicometría" cuando veo este tipo de preguntas, porque la construcción y el análisis de escalas de medición se encuentran bajo la Teoría psicométrica (Nunnally y Bernstein, 1994, para una visión general ordenada). No me detendré en todos los modelos que en realidad se dirigen bajo la Teoría de la respuesta al ítem , y gentilmente remito al lector interesado a I. Tutorial de Partchev, Una guía visual de la teoría de la respuesta al ítem, para una introducción suave a IRT, y a las referencias (5-8) enumeradas al final para posibles taxonomías IRT. Muy brevemente, la idea es que, en lugar de asignar distancias arbitrarias entre categorías variables, asumas una escala latente y calcules su ubicación en ese continuo, junto con la capacidad o responsabilidad de los individuos. Un ejemplo simple vale mucha notación matemática, así que consideremos el siguiente ítem (proveniente del cuestionario de calidad de vida relacionado con la salud EORTC QLQ-C30 ):
que está codificado en una escala de cuatro puntos, que van desde "Nada" hasta "Mucho". Los puntajes brutos se calculan asignando un puntaje de 1 a 4. Los puntajes de los elementos que pertenecen a la misma escala se pueden sumar para obtener el llamado puntaje de escala, que denota el rango de uno en la construcción subyacente (aquí, un componente de salud mental ) Estos puntajes de escala sumados son muy prácticos debido a la facilidad de puntaje (para el profesional o la enfermera), pero no son más que una escala discreta (ordenada).
También podemos considerar que la probabilidad de respaldar una categoría de respuesta dada obedece a algún tipo de modelo logístico, como se describe en el tutorial de I. Partchev, mencionado anteriormente. Básicamente, la idea es la de un tipo de modelo de umbral (que conduce a una formulación equivalente en términos de modelos de probabilidades proporcionales o acumulativas) y modelamos las probabilidades de estar en una categoría de respuesta en lugar de la anterior o las probabilidades de obtener un puntaje por encima de un cierta categoría, condicional a la ubicación de los sujetos en el rasgo latente. Además, podemos imponer que las categorías de respuesta estén igualmente espaciadas en la escala latente (este es el modelo de Escala de Calificación), que es la forma en que lo hacemos asignando puntajes numéricos espaciados regularmente o no (este es el modelo de Crédito Parcial) .
Claramente, no estamos agregando mucho a la teoría de prueba clásica, donde las variables ordinales se tratan como numéricas. Sin embargo, introducimos un modelo probabilístico, donde asumimos una escala continua (con propiedades de intervalo) y donde se pueden tener en cuenta los errores específicos de medición, y podemos conectar estos puntajes factoriales en cualquier modelo de regresión.
Referencias
fuente
Si solo hay dos categorías, tiene sentido transformarlas en (0,1). De hecho, esto se hace comúnmente cuando la variable ficticia resultante se usa en modelos de regresión.
Si hay más de dos categorías, entonces creo que solo tiene sentido si los datos son ordinales, y solo en circunstancias muy específicas. Por ejemplo, si estoy haciendo una regresión y ajusto una función no lineal no paramétrica a la variable ordinal-cum-numérica, creo que está bien. Pero si uso la regresión lineal, entonces estoy haciendo suposiciones muy fuertes sobre la diferencia relativa entre los valores consecutivos de la variable ordinal, y generalmente soy reacio a hacerlo.
fuente
Es una práctica común tratar las variables categóricas ordenadas con muchas categorías como continuas. Ejemplos de esto:
Y por "tratar como continuo" me refiero a incluir la variable en un modelo que asume una variable aleatoria continua (por ejemplo, como una variable dependiente en una regresión lineal). Supongo que el problema es cuántos puntos de escala se requieren para que esto sea un supuesto simplificador razonable.
Algunos otros pensamientos:
Referencias
fuente
Un ejemplo muy simple que a menudo se pasa por alto y que debe estar dentro de la experiencia de muchos lectores se refiere a las calificaciones o calificaciones otorgadas al trabajo académico. A menudo, las calificaciones de las tareas individuales son, en esencia, medidas ordinales basadas en el juicio, incluso cuando, como cuestión de convención, se otorgan como (digamos) marcas de porcentaje o marcas en una escala con un máximo de 5 (posiblemente también con puntos decimales). Es decir, un maestro puede leer un ensayo o disertación o tesis o papel y decidir que merece 42%, o 4, o lo que sea. Incluso cuando las calificaciones se basan en un esquema de evaluación detallado, la escala está en la raíz a cierta distancia de una escala de medición de intervalo o relación.
Pero luego, muchas instituciones consideran que si tiene suficientes calificaciones o calificaciones, es perfectamente razonable promediarlas (promedio de calificaciones, etc.) e incluso analizarlas con más detalle. Entonces, en algún momento, las mediciones ordinales se transforman en una escala de resumen que se trata como si fuera continua.
Los conocedores de la ironía notarán que los cursos de estadística en muchos departamentos o escuelas a menudo enseñan que esto es, en el mejor de los casos, dudoso y, en el peor de los casos, incorrecto, mientras se implementa como un procedimiento de toda la universidad.
fuente
En un análisis de clasificación por frecuencia, como con un gráfico de Pareto y los valores asociados (por ejemplo, cuántas categorías constituyen el 80% de las fallas principales del producto)
fuente
Voy a argumentar que tratar una variable verdaderamente categórica y no ordinal como continua a veces puede tener sentido.
Si está creando árboles de decisión basados en grandes conjuntos de datos, puede ser costoso en términos de potencia de procesamiento y memoria convertir las variables categóricas en variables ficticias. Además, algunos modelos (por ejemplo,
randomForest
en R) no pueden manejar variables categóricas con muchos niveles.En estos casos, un modelo basado en árboles debería ser capaz de identificar categorías extremadamente importantes, INCLUSO SI están codificadas como una variable continua. Un ejemplo artificial:
y es una variable continua, a es una variable continua yb es una variable categórica. Sin embargo, en
dat1
b se trata como continuo.Al ajustar un árbol de decisión a estos 2 conjuntos de datos, encontramos que
dat1
es un poco peor quedat2
:Si observa los 2 modelos, encontrará que son muy similares, pero model1 pierde la importancia de b == 42:
Sin embargo, model1 se ejecuta en aproximadamente 1/10 del tiempo de model2:
Por supuesto, puede ajustar los parámetros del problema para encontrar situaciones en las que el
dat2
rendimiento superadat1
odat1
supera ligeramentedat2
.En general, no estoy abogando por tratar las variables categóricas como continuas, pero he encontrado situaciones en las que hacerlo ha reducido en gran medida el tiempo que lleva ajustar mis modelos, sin disminuir su precisión predictiva.
fuente
Un buen resumen de este tema se puede encontrar aquí:
mijkerhemtulla.socsci.uva.nl PDF
"¿Cuándo se pueden tratar las variables categóricas como continuas? Una comparación de métodos sólidos y continuos de estimación SEM categórica en condiciones subóptimas".
Mijke Rhemtulla, Patricia É. Brosseau-Liard y Victoria Savalei
Investigan alrededor de 60 páginas de métodos para hacerlo y proporcionan información sobre cuándo es útil hacerlo, qué enfoque adoptar y cuáles son las fortalezas y debilidades de cada enfoque para adaptarse a su situación específica. No los cubren a todos (como estoy aprendiendo parece que hay una cantidad ilimitada), pero los que sí cubren cubren bien.
fuente
Hay otro caso cuando tiene sentido: cuando los datos se muestrean a partir de datos continuos (por ejemplo, a través de un convertidor analógico a digital). Para los instrumentos más antiguos, los ADC a menudo serían de 10 bits, lo que da lo que nominalmente son datos ordinales de 1024 categorías, pero para la mayoría de los propósitos pueden tratarse como reales (aunque habrá algunos artefactos para valores cerca del extremo inferior de la escala). Hoy los ADC son más comúnmente de 16 o 24 bits. Cuando habla de 65536 o 16777216 "categorías", realmente no tiene problemas para tratar los datos como continuos.
fuente