Visualización de datos ordinales: medias, medianas y rangos medios

11

Tengo algunos datos ordinales que normalmente no se distribuyen, así que decidí hacer pruebas no paramétricas utilizando la prueba U de Mann-Whitney. Estoy buscando diferencias entre los grupos para siete puntajes: estos puntajes son 0, 1, 2 o 3 para cada materia. ¡Estoy teniendo dificultades para descubrir cómo mostrar mis datos!

Si presento los datos usando las medianas (y el IQR de las medianas), no está claro en absoluto dónde están las diferencias porque en su mayor parte las medianas caen en 0 o 1. Entonces, a pesar de que la prueba U de Mann-Whitney muestra diferencias significativas, la mesa no parece interesante.

También podría presentar los datos utilizando los medios . Hay algunos documentos científicos que dicen que puede usar medios con datos ordinales, pero que no puede hacer el mismo tipo de suposiciones sobre las diferencias entre los puntajes (por ejemplo, la diferencia entre 0 y 1 no es la misma que entre 1 y 2) Usar medios sería un poco controvertido, aunque los números en la tabla cuentan bien la historia cuando los uso.

Una tercera opción es utilizar los rangos medios que SPSS me da en la salida de Mann-Whitney. Los rangos medios son los que se comparan entre los grupos, ¿así que quizás debería usarlos? El único problema que tengo con esto es que los rangos medios realmente no significan nada con respecto a los datos reales (por ejemplo, no puedo ver que los sujetos estén más cerca de un 3 mientras que los controles están más cerca de un 1 usando rangos medios).

Y una última opción fue realizar un análisis de chi-cuadrado comparando sujetos y controles después de dividir los puntajes en dos grupos (0 y 1 para bajo y 2 y 3 para alto). Sin embargo, cuando hice esto, las diferencias no fueron tan pronunciadas (probablemente por varias razones).

Eric
fuente
¿Está preguntando cuál es la mejor manera de presentar sus datos en texto, en una tabla o en una figura?
gung - Restablece a Monica
Tanto texto como tabla. En el texto voy a decir que hubo diferencias significativas entre los grupos en varios componentes de mi encuesta de sueño. Esas diferencias son a través de una prueba de Mann-Whitney, por lo que están comparando los rangos medios. Lo que no sé es cómo debo presentar estas diferencias en una tabla. El uso de medianas no funciona porque son demasiado similares y no se pueden ver las diferencias. Los medios funcionan mejor, pero parece extraño usar medidas paramétricas en una tabla que debería ser sobre las medianas no paramétricas. Y los rangos medios funcionarían, pero no representan valores reales.
Eric
1
Me pregunto si algunas respuestas de Graph para la relación entre dos variables ordinales podrían adaptarse para sus propósitos. Los gráficos de ejemplo muestran la relación entre dos variables, cada una con cinco niveles, pero si, por ejemplo, compara dos grupos y tiene cuatro niveles posibles, podría volver a imaginar algunas de esas visualizaciones como 4 por 2 en lugar de 5 por 5 5, tal vez.
Silverfish
Podría ser útil si pudiera publicar algunos datos de ejemplo (posiblemente completamente falsos), para que las personas que quieran demostrar una posible técnica tengan algo con qué trabajar.
Silverfish
1
Eric, por definición, una prueba no paramétrica, Mann-Whitney en particular, compara (para el dominio) dos distribuciones en general, no compara un valor de parámetro específico de una distribución, como la media o la mediana. No existe un número único que sea una característica de una distribución y al mismo tiempo es lo que se compara, en este caso. Puede usar el estimador de 2 muestras de Hodges-Lehmann, pero es la característica de la diferencia entre dos distribuciones y no de cada una de las dos distribuciones.
ttnphns

Respuestas:

8

1,2,=3

La exactitud del uso de la media para resumir variables ordinales rara vez puede provenir de los datos mismos. Es subjetivo.

Dxyγxy

Frank Harrell
fuente
1
Hola Frank, gracias por tu atenta respuesta. Si no le importa, tengo un par de preguntas de seguimiento. Con respecto a los medios: creo que las categorías tienen al menos un significado medio, ya que básicamente se refieren a "no, deterioro leve, moderado y grave", respectivamente. ¿Hay alguna referencia que conozca que pueda usar como precedente para esto? También dudo en usar medios en una sola tabla y medianas en otras por razones de coherencia. Y para los rangos medios, creo que estoy comparando grupos, sujetos versus controles en 7 puntajes. ¿Es aceptable / útil comparar rangos medios?
Eric
Para datos ordinales numéricos con pocos niveles, como conteos y quizás su ejemplo de discapacidad, los medios son útiles y las medianas no lo son (debido a demasiados lazos). Hay muchas ocasiones en las que he usado medios para datos ordinales y medianas para datos continuos sesgados, en la misma tabla.
Frank Harrell