He leído en varios lugares que calcular la media de una variable ordinal es inapropiado. Estoy tratando de tener una intuición de por qué podría ser inapropiado. Creo que es porque, en general, una variable ordinal no se distribuye normalmente y, por lo tanto, calcular la media dará una representación inexacta. ¿Podría alguien dar un razonamiento más detallado de por qué calcular la media de una variable ordinal podría ser inapropiado?
mean
ordinal-data
luciano
fuente
fuente
Respuestas:
Una respuesta corta es que esto es polémico. Contrariamente a lo que usted menciona, las personas en muchos campos toman medidas de escalas ordinales y a menudo están contentas de que hagan lo que quieren. Los promedios de calificaciones o el equivalente en muchos sistemas educativos son un ejemplo.
Sin embargo, los datos ordinales que no se distribuyen normalmente no son una razón válida, porque la media es
ampliamente utilizado para distribuciones no normales
matemáticamente bien definido para muchas distribuciones no normales, excepto en algunos casos patológicos.
Puede que no sea una buena idea usar la media en la práctica si los datos definitivamente no se distribuyen normalmente, pero eso es diferente.
Una razón más fuerte para no usar la media con datos ordinales es que su valor depende de las convenciones de codificación. Los códigos numéricos como 1, 2, 3, 4 generalmente solo se eligen por simplicidad o conveniencia, pero en principio también podrían ser 1, 23, 456, 7890 en lo que respecta a un orden definido en lo que respecta. Tomar la media en cualquier caso implicaría tomar esas convenciones literalmente (es decir, como si los números no fueran arbitrarios, sino justificables), y no hay motivos rigurosos para hacerlo. Necesita una escala de intervalo en la que las diferencias iguales entre los valores se puedan tomar literalmente para justificar la toma de medios. Considero que este es el argumento principal, pero como ya se indicó, las personas a menudo lo ignoran y deliberadamente, porque consideran que los medios son útiles, digan lo que digan los teóricos de la medición.
Aquí hay un ejemplo extra. A menudo se le pide a la gente que elija uno de "totalmente en desacuerdo" ... "totalmente de acuerdo" y (dependiendo en parte de lo que el software quiera) los investigadores codifican eso como 1 .. 5 o 0 .. 4 o lo que quieran, o lo declaran como un factor ordenado (o cualquier término que use el software). Aquí la codificación es arbitraria y está oculta para las personas que responden la pregunta.
Pero a menudo también se pregunta a las personas (por ejemplo) en una escala del 1 al 5, ¿cómo calificas algo? Los ejemplos abundan: sitios web, deportes, otros tipos de competiciones e incluso educación. Aquí a las personas se les muestra una escala y se les pide que la usen. Se entiende ampliamente que los no enteros tienen sentido, pero solo se le permite usar enteros como convención. ¿Es esta escala ordinal? Algunos dicen que sí, otros dicen que no. Dicho de otro modo, parte del problema es que lo que es la escala ordinal es en sí mismo un área difusa o debatida.
Considere nuevamente las calificaciones para el trabajo académico, diga E a A. A menudo, tales calificaciones también se tratan numéricamente, digamos del 1 al 5, y la gente calcula rutinariamente promedios para estudiantes, cursos, escuelas, etc. y realiza análisis adicionales de dichos datos. Si bien sigue siendo cierto que cualquier asignación a puntajes numéricos es arbitraria pero aceptable siempre que conserve el orden, sin embargo, en la práctica, las personas que asignan y reciben las calificaciones saben que los puntajes tienen equivalentes numéricos y saben que las calificaciones serán promediadas .
Una razón pragmática para usar medios es que las medianas y los modos son a menudo malos resúmenes de la información en los datos. Suponga que tiene una escala que va desde totalmente en desacuerdo hasta totalmente de acuerdo y codifique por conveniencia esos puntos 1 a 5. Ahora imagine una muestra codificada 1, 1, 2, 2, 2 y otra 1, 2, 2, 4, 5. Ahora aumente tus manos si crees que la mediana y la moda son los únicos resúmenes justificables porque es una escala ordinal. Ahora levante la mano si también encuentra útil la media, independientemente de si las sumas están bien definidas, etc.
Naturalmente, la media sería un resumen hipersensible si los códigos fueran cuadrados o cubos del 1 al 5, por ejemplo, y eso podría no ser lo que desea. (¡Si su objetivo es identificar rápidamente a los voladores altos, podría ser exactamente lo que desea!) Pero es precisamente por eso que la codificación convencional con códigos enteros sucesivos es una opción práctica, ya que a menudo funciona bastante bien en la práctica. Ese no es un argumento que tenga peso con los teóricos de la medición, ni debería hacerlo, pero los analistas de datos deberían estar interesados en producir resúmenes ricos en información.
Estoy de acuerdo con cualquiera que diga: use toda la distribución de frecuencias de grado, pero ese no es el punto en cuestión.
fuente
Supongamos que tomamos valores ordinales, por ejemplo, 1 para estar totalmente en desacuerdo, 2 para estar en desacuerdo, 3 para estar de acuerdo y 4 para estar muy de acuerdo. Si cuatro personas dan las respuestas 1, 2, 3 y 4, ¿cuál sería la media? Es (1 + 2 + 3 + 4) /4=2.50.
¿Cómo debe interpretarse eso, cuando la respuesta promedio de cuatro personas es "en desacuerdo o de acuerdo"? Es por eso que no debemos usar la media para los datos ordinales.
fuente
Estoy totalmente de acuerdo con @Azeem. Pero solo para llevar este punto a casa, déjenme explicar un poco más.
Digamos que tiene datos ordinales como en el ejemplo de @Azeem, donde su escala varía de 1 a 4. Y también digamos que tiene un par de personas que califican algo (como Ice Cream) en esta escala. Imagine que obtiene los siguientes resultados:
Cuando desee interpretar los resultados, puede concluir algo en la medida de:
Sin embargo, no sabes nada sobre los intervalos entre las clasificaciones. ¿La diferencia entre 1 y 2 es la misma que entre 3 y 4? ¿Una calificación de 4 realmente significa que a la persona le gusta el helado 4 veces más que a alguien que lo califica como 1? Y así sucesivamente ... Cuando calcula la media aritmética, trata los números como si las diferencias entre ellos fueran iguales. Pero esa es una suposición bastante fuerte con datos ordinales y tendrías que justificarla.
fuente
Estoy de acuerdo con el concepto de que la media aritmética no puede justificarse verdaderamente en datos de escala ordinal. En lugar de calcular la media, podemos usar la moda o la mediana en situaciones que pueden darnos una interpretación más significativa de nuestros resultados.
fuente