¿Qué resumen de estadísticas usar con variables categóricas o cualitativas?

18

Solo para aclarar, cuando me refiero a las estadísticas de resumen, me refiero a la media, los rangos de cuartiles medios, la varianza, la desviación estándar.

Al resumir un univariante que es categórico o cualitativo , considerando los casos nominales y ordinales , ¿tiene sentido encontrar su media, mediana, rangos de cuartil, varianza y desviación estándar?

Si es así, ¿es diferente de si estuviera resumiendo una variable continua, y cómo?

chutsu
fuente
2
Apenas veo diferencias entre las variables categóricas y cualitativas, excepto una de terminología. De todos modos, sería muy difícil calcular algo como media o DE en una variable nominal (p. Ej., Color de cabello). ¿Quizás estás pensando en variables categóricas con niveles ordenados?
chl
No, si los datos categóricos tienen un orden o niveles clasificados, se dice que son Ordinal según este sitio web: [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] , y dice "Puede contar y ordenar, pero no medir, datos ordinales "
chutsu
Pero estoy equivocado?
chutsu

Respuestas:

8

En general, la respuesta es no. Sin embargo, uno podría argumentar que puede tomar la mediana de los datos ordinales, pero, por supuesto, tendrá una categoría como mediana, no un número. La mediana divide los datos en partes iguales: mitad arriba, mitad abajo. Los datos ordinales dependen solo del orden.

Además, en algunos casos, la ordinalidad se puede convertir en datos de nivel de intervalo aproximado. Esto es cierto cuando se agrupan los datos ordinales (por ejemplo, las preguntas sobre ingresos a menudo se hacen de esta manera). En este caso, puede encontrar una mediana precisa y puede aproximar los otros valores, especialmente si se especifican los límites inferior y superior: puede asumir alguna distribución (por ejemplo, uniforme) dentro de cada categoría. Otro caso de datos ordinales que se puede hacer intervalo es cuando los niveles reciben equivalentes numéricos. Por ejemplo: Nunca (0%), a veces (10-30%), aproximadamente la mitad del tiempo (50%) y así sucesivamente.

Para (una vez más) citar a David Cox:

No hay preguntas estadísticas de rutina, solo rutinas estadísticas cuestionables

Peter Flom - Restablece a Monica
fuente
1
Usted proporciona buena información relacionada, pero creo que en respuesta a la pregunta CHL, el OP dejó en claro que está hablando de datos categóricos que no son ordinales. Por lo tanto, su respuesta no es realmente una respuesta, pero yo no soy alguien que daría un voto negativo. Pero sí creo que deberías cambiarlo a un comentario.
Michael R. Chernick
1
No, no rechazaré la respuesta, ya que creo que ha agregado algo de valor a mi comprensión limitada. Debería haber dejado claro en mi descripción que estoy considerando las estadísticas del resumen ordinal y nominal, por lo que la culpa es mía.
chutsu
5

Como se ha mencionado, los medios, las SD y los puntos de articulación no son significativos para los datos categóricos. Los puntos de articulación (p. Ej., Mediana y cuartiles) pueden ser significativos para los datos ordinales. Su título también pregunta qué estadísticas de resumen deben usarse para describir datos categóricos. Es estándar caracterizar los datos categóricos por conteos y porcentajes. (También puede incluir un intervalo de confianza del 95% alrededor de los porcentajes). Por ejemplo, si sus datos fueron:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Podrías resumirlos así:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)
gung - Restablece a Monica
fuente
3

Si tiene variables nominales, no hay función de orden o distancia. Entonces, ¿cómo podría definir alguna de las estadísticas de resumen que menciona? No creo que puedas. Los cuartiles y el rango al menos requieren orden y las medias y la varianza requieren datos numéricos. Creo que los gráficos de barras y los gráficos circulares son ejemplos típicos de las formas adecuadas de resumir variables cualitativas que no son ordinales.

Michael R. Chernick
fuente
3
@PeterFlom Mi punto no era enumerar todos los posibles procedimientos gráficos para resumir datos cualitativos. Realmente quiero enfatizar que es realmente una proporción que se puede comparar y la forma en que las proporciones se distribuyen entre las categorías. Para reconocer visualmente las diferencias en las proporciones, creo que los gráficos de barras son más fáciles de visualizar que los gráficos circulares, pero son solo dos formas populares de resumir datos categóricos. No quiero decir que son los mejores, ya que no estoy familiarizado con todos los métodos disponibles.
Michael R. Chernick
77
¡Ciertamente son populares! Pero creo que es parte de nuestra responsabilidad, como expertos en el campo, hacer que los gráficos circulares sean menos populares.
Peter Flom - Restablece a Monica
3
Cleveland demostró, primero, que las personas son peores al percibir la medición angular que la distancia lineal. Segundo, cambiar los colores en un gráfico circular cambió las percepciones de las personas sobre el tamaño de las rebanadas. Tercero, que al rotar el gráfico circular cambió la percepción de las personas sobre el tamaño de las rebanadas. Cuarto, que las personas tenían problemas para ordenar las rodajas de mayor a menor a menos que tuvieran un tamaño muy diferente. Las parcelas de puntos de Cleveland evitan todo esto.
Peter Flom - Restablece a Monica
66
@Michael "Una tabla es casi siempre mejor que un gráfico circular tonto; el único diseño peor que un gráfico circular es varios de ellos ... los gráficos circulares nunca deberían usarse". - Tufte. "Los datos que se pueden mostrar mediante gráficos circulares siempre se pueden mostrar mediante un gráfico de puntos ... en la década de 1920 se libró una batalla en las páginas de JASA sobre los méritos relativos de los gráficos circulares y los gráficos de barras divididos ... ambos campos pierden porque otros gráficos funcionan mucho mejor que los gráficos de barras divididas o los gráficos circulares ". - Cleveland. Como saben, Cleveland no es prescriptivo: esto es tan fuerte como lo es sobre cualquier cosa.
whuber
66
Por cierto, @Michael, estoy de acuerdo con usted y los argumentos que está haciendo en este hilo (que encuentro convincente y bien presentado), pero como moderador tengo que transmitir fuertes objeciones expresadas por los miembros de la comunidad con respecto al "tono de voz" estás adoptando Siga la etiqueta del sitio: manténgase en el tema y no ataque a otros. Ni siquiera escribas cosas que puedan sonar como un ataque, incluso en broma. Por supuesto, la misma advertencia se extiende a todos.
whuber
2

¡El modo aún funciona! ¿No es esa una estadística resumen importante? (¿Cuál es la categoría más común?) Creo que la sugerencia mediana tiene poco o ningún valor como estadística, pero el modo sí.

También contar distinto sería valioso. (¿Cuántas categorías tienes?)

Puede crear proporciones, como (categoría más común) / (categoría menos común) o (# 1 categoría más común) / (# 2 categoría más común). También (categoría más común) / (todas las demás categorías), como la regla 80/20.

También puede asignar números a sus categorías y volverse loco con todas las estadísticas habituales. AA = 1, Hisp = 2, etc. Ahora puede calcular la media, la mediana, la moda, la SD, etc.

Maddenker
fuente
0

Aprecio las otras respuestas, pero me parece que algunos antecedentes topológicos darían una estructura muy necesaria a las respuestas.

Definiciones

Comencemos por establecer las definiciones de los dominios:

  • La variable categórica es aquella cuyo dominio contiene elementos, pero no existe una relación conocida entre ellos (por lo tanto, solo tenemos categorías). Los ejemplos dependen del contexto, pero yo diría que en el caso general, es difícil comparar los días de la semana: es lunes antes del domingo, si es así, ¿qué pasa con el próximo lunes? Quizás un ejemplo más fácil, pero menos usado, son las prendas de vestir: sin proporcionar un contexto que tenga sentido para una orden, es difícil decir si los pantalones van antes que los puentes o viceversa.

  • La variable ordinal es aquella que tiene un orden total definido sobre el dominio, es decir, por cada dos elementos del dominio, podemos decir que son idénticos o uno es más grande que el otro. Una escala Likert es un buen ejemplo de una definición de una variable ordinal. "algo de acuerdo" está definitivamente más cerca de "totalmente de acuerdo" que "en desacuerdo".

  • La variable de intervalo es una, cuyo dominio define distancias entre elementos (una métrica ), lo que nos permite definir intervalos.

Ejemplos de dominio

Como el conjunto más común que utilizamos, los números naturales y reales tienen un orden total estándar y métricas. Es por eso que debemos tener cuidado cuando asignamos números a nuestras categorías. Si no tenemos cuidado de ignorar el orden y la distancia, prácticamente convertimos nuestros datos categóricos en datos de intervalo. Cuando uno usa un algoritmo de aprendizaje automático sin saber cómo funciona, se corre el riesgo de hacer tales suposiciones de mala gana, lo que potencialmente invalida los propios resultados. Por ejemplo, los algoritmos de aprendizaje profundo más populares funcionan con números reales aprovechando sus propiedades de intervalo y continuas. Otro ejemplo, piense en escalas de Likert de 5 puntos, y cómo el análisis que aplicamos en ellas supone que la distancia entre totalmente de acuerdo y de acuerdoes lo mismo que estar en desacuerdo y ni de acuerdo ni en desacuerdo . Difícil hacer un caso para tal relación.

Otro conjunto con el que a menudo trabajamos son las cadenas . Hay varias métricas de similitud de cadenas que son útiles cuando se trabaja con cadenas. Sin embargo, estos no siempre son útiles. Por ejemplo, para las direcciones, John Smith Street y John Smith Road están bastante cerca en términos de similitud de cadenas, pero obviamente representan dos entidades diferentes que podrían estar a millas de distancia.

Resumen estadístico

Ok, ahora veamos cómo encajan algunas estadísticas resumidas en esto. Como las estadísticas funcionan con números, sus funciones están bien definidas en intervalos. Pero veamos ejemplos sobre si / cómo podríamos generalizarlos a datos categóricos u ordinales:

  • modo : tanto al trabajar con datos categóricos como ordinales, podemos saber qué elemento se usa con más frecuencia. Entonces tenemos esto. Entonces también podemos derivar todas las otras medidas que @Maddenker enumera en su respuesta. El intervalo de confianza de @gung también podría ser útil.
  • mediana - como dice @ peter-flom, siempre que tenga un pedido, puede derivar su mediana.
  • media , pero también desviación estándar, percentiles, etc., los obtiene solo con datos de intervalo, debido a la necesidad de una métrica de distancia.

Ejemplo de contextualidad de datos.

Al final, quiero enfatizar nuevamente que el orden y las métricas que define en sus datos son muy contextuales. Esto ya debería ser obvio, pero déjame darte un último ejemplo: cuando trabajamos con ubicaciones geográficas, tenemos muchas formas diferentes de abordarlas:

  • Si estamos interesados ​​en la distancia entre ellos, podemos trabajar con su geolocalización, que básicamente nos da un espacio numérico bidimensional, por lo tanto, intervalo.
  • Si estamos interesados ​​en su parte de la relación, podemos definir un orden total (por ejemplo, una calle es parte de una ciudad, dos ciudades son iguales, un continente contiene un país)
  • Si estamos interesados ​​en saber si dos cadenas representan la misma dirección, podríamos trabajar con cierta distancia de cadena que toleraría errores de ortografía e intercambio de posiciones de palabras, pero asegúrese de distinguir diferentes términos y nombres. Esto no es una cosa fácil, sino solo para hacer el caso.
  • Hay muchos otros casos de uso, que todos nosotros encontramos a diario, donde nada de esto tiene sentido. En algunos de ellos no hay nada más que hacer que tratar las direcciones como categorías diferentes, en otros se trata de modelado y preprocesamiento de datos muy inteligentes.
mapa para
fuente