¿Cómo puedo determinar si los datos categóricos se distribuyen normalmente?

9
  1. ¿Es cierto que una verificación de normalidad debe usarse solo para datos continuos (relación, nivel de intervalo de medición) y no para datos categóricos (nominal, ordinal)?

  2. ¿Hay alguna forma de verificar la normalidad de los datos categóricos?

NoraNorad
fuente

Respuestas:

17

Los datos categóricos no son de una distribución normal.

La distribución normal solo tiene sentido si se trata de al menos datos de intervalo, y la distribución normal es continua y en toda la línea real. Si alguno de esos no es cierto, no necesita examinar la distribución de datos para concluir que no es consistente con la normalidad.

[Tenga en cuenta que si no es intervalo, tiene problemas más grandes que los asociados asumiendo una forma de distribución, ya que incluso el cálculo de una media implica que tiene una escala de intervalo. Para decir que "Alto" + "Muy bajo" = "Medio" + "Bajo" y "Muy alto" + "Medio" = "Alto" + "Alto" (es decir, exactamente el tipo de cosas que debe mantener para comenzar incluso agregar valores en primer lugar), se ve obligado a asumir una escala de intervalo en ese punto.]

Sería algo raro tener incluso muestras de aspecto normal razonablemente aproximadas con datos de relación real, ya que los datos de relación generalmente no son negativos y generalmente son algo sesgados.

Cuando sus medidas son categóricas, no es tanto que no pueda "verificarlo", ya que generalmente no tiene sentido hacerlo, ya sabe que no es una muestra de una distribución normal. De hecho, la idea de intentarlo no tiene sentido en el caso de los datos nominales, ¡ya que las categorías ni siquiera tienen un orden! [La única distribución invariable a un reordenamiento arbitrario del orden sería un uniforme discreto.]

Si sus datos se ordenan categóricamente, los intervalos son arbitrarios, y nuevamente, nos queda una noción con la que realmente no podemos hacer mucho; incluso nociones más simples como la simetría realmente no se sostienen bajo cambios arbitrarios en intervalos.

Para comenzar a contemplar incluso la normalidad aproximada significa que debemos al menos asumir que nuestras categorías son intervalos / tienen "puntajes" fijos y conocidos.

Pero en cualquier caso, la pregunta "¿es normal?" de todos modos, ¿no es realmente una pregunta útil? ¿ Desde cuándo se toman muestras reales de una distribución normal ?

[Puede haber situaciones en las que podría ser significativo considerar si las categorías ordenadas tienen una variable subyacente (latente) con (digamos) una distribución normal, pero ese es un tipo de consideración bastante diferente.]

George Box sugiere una pregunta más útil:

Recuerde que todos los modelos están equivocados; La pregunta práctica es cuán equivocados deben estar para no ser útiles.

(Creo que eso está en Box and Draper, junto con su aforismo más conocido).

Si tuviera datos discretos que fueran al menos de intervalo, y tuviera un buen número de categorías, podría tener sentido verificar que no estuvieran muy sesgados, por ejemplo, pero en realidad no creería que se obtuvieron de una población normal No puede ser.

Para algunos procedimientos inferenciales, la normalidad real puede no ser especialmente importante, particularmente en muestras de mayor tamaño.

Glen_b -Reinstate a Monica
fuente
Pero, ¿cómo puedo verificar la normalidad de los datos categóricos nominales que se requieren para la prueba z para las proporciones? Aquí dice que debería ser una distribución normal estándar: newonlinecourses.science.psu.edu/stat414/node/268
vasili111
No confunda las categorías con los recuentos de valores en esas categorías. Un conjunto de respuestas categóricas como "rojo, azul, rosa, azul ..." no puede ser normal. Sin embargo, cuenta dentro de las categorías es una historia diferente. Específicamente, un conjunto de recuentos en categorías puede (dado algunos supuestos simples) modelarse como una distribución multinomial que, si los recuentos esperados no son demasiado bajos, puede aproximarse bien como una normal multivariada (degenerada). Con una prueba z para proporciones (2 resultados), el recuento en cualquiera de los resultados (dados los supuestos) será binomial (y, por lo tanto, aproximadamente normal con n grande).
Glen_b -Reinstala a Monica el