Solo para aclarar, cuando me refiero a las estadísticas de resumen, me refiero a la media, los rangos de cuartiles medios, la varianza, la desviación estándar.
Al resumir un univariante que es categórico o cualitativo , considerando los casos nominales y ordinales , ¿tiene sentido encontrar su media, mediana, rangos de cuartil, varianza y desviación estándar?
Si es así, ¿es diferente de si estuviera resumiendo una variable continua, y cómo?
Respuestas:
En general, la respuesta es no. Sin embargo, uno podría argumentar que puede tomar la mediana de los datos ordinales, pero, por supuesto, tendrá una categoría como mediana, no un número. La mediana divide los datos en partes iguales: mitad arriba, mitad abajo. Los datos ordinales dependen solo del orden.
Además, en algunos casos, la ordinalidad se puede convertir en datos de nivel de intervalo aproximado. Esto es cierto cuando se agrupan los datos ordinales (por ejemplo, las preguntas sobre ingresos a menudo se hacen de esta manera). En este caso, puede encontrar una mediana precisa y puede aproximar los otros valores, especialmente si se especifican los límites inferior y superior: puede asumir alguna distribución (por ejemplo, uniforme) dentro de cada categoría. Otro caso de datos ordinales que se puede hacer intervalo es cuando los niveles reciben equivalentes numéricos. Por ejemplo: Nunca (0%), a veces (10-30%), aproximadamente la mitad del tiempo (50%) y así sucesivamente.
Para (una vez más) citar a David Cox:
fuente
Como se ha mencionado, los medios, las SD y los puntos de articulación no son significativos para los datos categóricos. Los puntos de articulación (p. Ej., Mediana y cuartiles) pueden ser significativos para los datos ordinales. Su título también pregunta qué estadísticas de resumen deben usarse para describir datos categóricos. Es estándar caracterizar los datos categóricos por conteos y porcentajes. (También puede incluir un intervalo de confianza del 95% alrededor de los porcentajes). Por ejemplo, si sus datos fueron:
Podrías resumirlos así:
fuente
Si tiene variables nominales, no hay función de orden o distancia. Entonces, ¿cómo podría definir alguna de las estadísticas de resumen que menciona? No creo que puedas. Los cuartiles y el rango al menos requieren orden y las medias y la varianza requieren datos numéricos. Creo que los gráficos de barras y los gráficos circulares son ejemplos típicos de las formas adecuadas de resumir variables cualitativas que no son ordinales.
fuente
¡El modo aún funciona! ¿No es esa una estadística resumen importante? (¿Cuál es la categoría más común?) Creo que la sugerencia mediana tiene poco o ningún valor como estadística, pero el modo sí.
También contar distinto sería valioso. (¿Cuántas categorías tienes?)
Puede crear proporciones, como (categoría más común) / (categoría menos común) o (# 1 categoría más común) / (# 2 categoría más común). También (categoría más común) / (todas las demás categorías), como la regla 80/20.
También puede asignar números a sus categorías y volverse loco con todas las estadísticas habituales. AA = 1, Hisp = 2, etc. Ahora puede calcular la media, la mediana, la moda, la SD, etc.
fuente
Aprecio las otras respuestas, pero me parece que algunos antecedentes topológicos darían una estructura muy necesaria a las respuestas.
Definiciones
Comencemos por establecer las definiciones de los dominios:
La variable categórica es aquella cuyo dominio contiene elementos, pero no existe una relación conocida entre ellos (por lo tanto, solo tenemos categorías). Los ejemplos dependen del contexto, pero yo diría que en el caso general, es difícil comparar los días de la semana: es lunes antes del domingo, si es así, ¿qué pasa con el próximo lunes? Quizás un ejemplo más fácil, pero menos usado, son las prendas de vestir: sin proporcionar un contexto que tenga sentido para una orden, es difícil decir si los pantalones van antes que los puentes o viceversa.
La variable ordinal es aquella que tiene un orden total definido sobre el dominio, es decir, por cada dos elementos del dominio, podemos decir que son idénticos o uno es más grande que el otro. Una escala Likert es un buen ejemplo de una definición de una variable ordinal. "algo de acuerdo" está definitivamente más cerca de "totalmente de acuerdo" que "en desacuerdo".
La variable de intervalo es una, cuyo dominio define distancias entre elementos (una métrica ), lo que nos permite definir intervalos.
Ejemplos de dominio
Como el conjunto más común que utilizamos, los números naturales y reales tienen un orden total estándar y métricas. Es por eso que debemos tener cuidado cuando asignamos números a nuestras categorías. Si no tenemos cuidado de ignorar el orden y la distancia, prácticamente convertimos nuestros datos categóricos en datos de intervalo. Cuando uno usa un algoritmo de aprendizaje automático sin saber cómo funciona, se corre el riesgo de hacer tales suposiciones de mala gana, lo que potencialmente invalida los propios resultados. Por ejemplo, los algoritmos de aprendizaje profundo más populares funcionan con números reales aprovechando sus propiedades de intervalo y continuas. Otro ejemplo, piense en escalas de Likert de 5 puntos, y cómo el análisis que aplicamos en ellas supone que la distancia entre totalmente de acuerdo y de acuerdoes lo mismo que estar en desacuerdo y ni de acuerdo ni en desacuerdo . Difícil hacer un caso para tal relación.
Otro conjunto con el que a menudo trabajamos son las cadenas . Hay varias métricas de similitud de cadenas que son útiles cuando se trabaja con cadenas. Sin embargo, estos no siempre son útiles. Por ejemplo, para las direcciones, John Smith Street y John Smith Road están bastante cerca en términos de similitud de cadenas, pero obviamente representan dos entidades diferentes que podrían estar a millas de distancia.
Resumen estadístico
Ok, ahora veamos cómo encajan algunas estadísticas resumidas en esto. Como las estadísticas funcionan con números, sus funciones están bien definidas en intervalos. Pero veamos ejemplos sobre si / cómo podríamos generalizarlos a datos categóricos u ordinales:
Ejemplo de contextualidad de datos.
Al final, quiero enfatizar nuevamente que el orden y las métricas que define en sus datos son muy contextuales. Esto ya debería ser obvio, pero déjame darte un último ejemplo: cuando trabajamos con ubicaciones geográficas, tenemos muchas formas diferentes de abordarlas:
fuente