Creí que los diagramas de caja a continuación podrían interpretarse como "la mayoría de los hombres son más rápidos que la mayoría de las mujeres" (en este conjunto de datos), principalmente porque el tiempo promedio de los hombres fue menor que el tiempo promedio de las mujeres. Pero el curso de EdX sobre R y cuestionario de estadísticas me dijo que eso es incorrecto. Por favor, ayúdame a entender por qué mi intuición es incorrecta.
Aquí está la pregunta:
Consideremos una muestra aleatoria de finalistas del maratón de la ciudad de Nueva York en 2002. Este conjunto de datos se puede encontrar en el paquete UsingR. Cargue la biblioteca y luego cargue el conjunto de datos nym.2002.
library(dplyr) data(nym.2002, package="UsingR")
Use diagramas de caja e histogramas para comparar los tiempos de finalización de hombres y mujeres. ¿Cuál de las siguientes opciones describe mejor la diferencia?
- Los machos y las hembras tienen la misma distribución.
- La mayoría de los hombres son más rápidos que la mayoría de las mujeres.
- Los machos y las hembras tienen distribuciones asimétricas derechas similares a las primeras, 20 minutos desplazados a la izquierda.
- Ambas distribuciones se distribuyen normalmente con una diferencia en la media de aproximadamente 30 minutos.
Estos son los tiempos de maratón de Nueva York para hombres y mujeres, como cuantiles, histogramas y diagramas de caja:
# Men's time quantile
0% 25% 50% 75% 100%
147.3333 226.1333 256.0167 290.6375 508.0833
# Women's time quantile
0% 25% 50% 75% 100%
175.5333 250.8208 277.7250 309.4625 566.7833
Respuestas:
Creo que la razón por la que fue marcado como incorrecto no es tanto que la respuesta que dio a la pregunta multicoice era incorrecta, sino que la opción 3 "Hombres y mujeres tienen distribuciones asimétricas derechas similares a las anteriores, 20 minutos desplazados a la izquierda" habría sido una mejor opción ya que es más informativo en función de la información proporcionada.
fuente
Aquí está el contraejemplo más pequeño que pude encontrar:
A (
[1, 4, 10])
y B ([0, 6, 9]
) tienen el mismo promedio (5
)B tiene una mediana mayor (
6
) que A (4
)Aquí hay otro ejemplo con 4 elementos:
fuente
"La mayoría de los hombres son más rápidos que la mayoría de las mujeres" es potencialmente un poco ambiguo, pero normalmente interpretaría que la intención es que si observamos emparejamientos aleatorios, la mayoría de las veces el hombre sería más rápido, es decir, para aleatorio (donde es 'tiempo para el -ésimo macho', etc.).P(Mi<Fj)>12 i,j Mi i
Por supuesto, son posibles otras interpretaciones de la frase (después de todo, esa es la ambigüedad) y algunas de esas otras posibilidades podrían ser consistentes con su razonamiento.
[También tenemos el problema de si estamos hablando de muestras o poblaciones ... "la mayoría de los hombres [...] la mayoría de las mujeres" parece ser una declaración de población (sobre una población de tiempos potenciales) pero solo hemos observado tiempos que parece que estamos tratando como una muestra, por lo que debemos tener cuidado con la amplitud de la afirmación.]
Tenga en cuenta que no está implícito en . Pueden ir en direcciones opuestas.P(Mi<Fj)>12 M˜<F˜
[No digo que te equivoques al pensar que la proporción de parejas de MF aleatorias en las que el hombre era más rápido que la mujer es más de 1/2; es casi seguro que tienes razón. Solo digo que no puedes decirlo comparando medianas. Tampoco puede decirlo observando la proporción en cada muestra por encima o por debajo de la mediana de la otra muestra. Tendrías que hacer una comparación diferente.]
Es decir, mientras que el hombre promedio puede ser más rápido que la mujer mediana, es posible tener una muestra de tiempos (o una distribución continua de tiempos, en ese caso) donde la posibilidad de que un hombre aleatorio sea más rápido que una mujer aleatoria es menos de . En muestras grandes, las dos indicaciones opuestas pueden ser significativas.12
Ejemplo:
Conjunto de datos A:
Conjunto de datos B:
Conjunto de datos C:
(Los datos están aquí , pero se están utilizando para un propósito diferente allí; para mi recuerdo, yo mismo los generé)
Tenga en cuenta que la proporción de A <B es 2/3, la proporción de A <C es 5/9 y la proporción de B <C es 2/3. Tanto A vs B como B vs C son significativos al nivel del 5%, pero podemos lograr cualquier nivel de importancia simplemente agregando suficientes copias de las muestras. Incluso podemos evitar lazos, duplicando las muestras pero agregando una fluctuación suficientemente pequeña (lo suficientemente más pequeña que el espacio más pequeño entre los puntos)
Las medianas de muestra van en la otra dirección: mediana (A)> mediana (B)> mediana (C)
Una vez más, podríamos lograr importancia para alguna comparación de medianas, a cualquier nivel de importancia, repitiendo las muestras.
Para relacionarlo con el problema actual, imagine que A es "tiempos de mujeres" y B es "tiempos de hombres". Entonces el tiempo medio de los hombres es más rápido, pero un hombre elegido al azar será 2/3 de las veces más lento que una mujer elegida al azar.
Tomando nuestro ejemplo de las muestras A y C, podemos generar un conjunto de datos más grande (en R) de la siguiente manera:
La mediana de F será de alrededor de 16.25, mientras que la mediana de M será de alrededor de 11.25, pero la proporción de casos donde F <M será de 5/9.
[Si reemplazamos el n / 3 con una variante binomial con los parámetros y estaríamos muestras de una población donde la mediana de la distribución de F está en 16.25 mientras que la mediana de la distribución de M está en 11.25. Mientras tanto, en esa población, la probabilidad de que F <M vuelva a ser 5/9.]n 13
Tenga en cuenta también que y while (por una distancia considerable).P(F<med(M))=23 P(M>med(F))=23 med(M)<med(F)
fuente
Las siguientes cifras están tomadas de esta publicación de blog , que ilustra una aplicación práctica importante de estas ideas.
La estandarización proporciona un dispositivo poderoso para comparar 2 distribuciones. Las siguientes 3 cifras comparan las alturas de niños y niñas de 130 meses del Programa Nacional de Medición de Niños (NCMP) de Inglaterra. (Esta era la edad modal en este conjunto de datos; la seleccioné simplemente para obtener la mayor cantidad de datos y, por lo tanto, las parcelas más uniformes, dentro de una sola cohorte de edad).
Figura 1: Alturas de niños y niñas de 130 meses, del Programa Nacional de Medición de Niños de Inglaterra (NCMP)
Figura 2: Percentiles de estatura para niños y niñas de 130 meses. Fuente: Inglés NCMP
Figura 3: Distribución de las alturas de las niñas de 130 meses en relación con los niños de la misma edad.
En la última de estas cifras, la comparación de altura se ha estandarizado de acuerdo con las alturas de los niños. Por lo tanto, leyendo a lo largo de las líneas grises punteadas en la Figura 3, puede hacer declaraciones como:
Un punto de posible confusión en esta trama merece ser mencionado. Aunque la línea de 45 ° de los niños es "más alta" en la trama que la curva magenta de las niñas, esta observación corresponde sin embargo al hecho bien conocido de que a esta edad (estos son estudiantes de sexto grado), las niñas suelen ser más altas que los niños . Tenga en cuenta que esta altura se refleja adecuadamente en el hecho de que la curva magenta se desplaza hacia la derecha en relación con la línea azul.
Este enfoque es bastante genérico . Bajo tal comparación, uno de los grupos, el que usted estandariza, se convierte en la línea de 45 °. El otro grupo puede ser, en general, cualquier curva creciente monótona dibujada desde la parte inferior izquierda a la parte superior derecha. Siempre que las distribuciones subyacentes sean continuas (las densidades carecen de masas puntuales), la curva comparada será continua. Si las densidades subyacentes comparten el mismo soporte , la curva debe ir de a .( 1 , 1 )(0,0) (1,1)
Su pregunta original ahora puede reformularse en términos geométricos, como una pregunta sobre si podría dibujar la curva magenta de la Figura 3 para lograr simultáneamente (a) la relación postulada entre las medianas y (b) la relación ligeramente difícil de alcanzar que @Glen_b dilucidado (correctamente, creo) en su respuesta. Me pregunto si las discontinuidades distributivas (masas puntuales en las densidades) podrían permitir un caso "patológico". Supongo que cualquier caso patológico será la 'excepción que pruebe la regla'.
Si uno hace la traducción más directa y lógica de la pregunta de su cuestionario a un lenguaje más formal susceptible de análisis, entonces (usando la configuración de las alturas de los niños desde arriba) podríamos decir que un individuo tiene la propiedad TMB si es t aler que m ost b OYS. Luego, la pregunta de tu cuestionario preguntaba simplemente si la mayoría de las chicas tienen la propiedad TMB . Si uno define "más" como más de la mitad , entonces tener la propiedad TMB significa ser más alto que el niño de mediana estatura. Preguntar si la mayoría de las niñas tienen la propiedad TMB equivale a preguntar si la niña medianaxx x Tiene esta propiedad. En esta cuenta, la respuesta a la pregunta del cuestionario sería sí .
Por otro lado, si la intención real de 'la mayoría' era "> 50%", uno podría esperar que se haya empleado la frase más precisa "la mayoría de". Si alguien me dice que algo "probablemente" sucederá, creo que se está aludiendo a una probabilidad subjetiva de 60% o más. Del mismo modo, "más" para mí significa algo más como 70-80%. Claramente, de la gráfica anterior, si "la mayoría" se toma como criterio más estricto que el 52.5%, entonces no se puede decir "la mayoría de las niñas [tienen la propiedad de que] son más altas que la mayoría de los niños". Me pregunto si parte de la justificación de la pregunta del cuestionario era estimular un examen de las palabras relacionadas con las nociones numéricas. (Si crees que todo esto es un poco tonto, considera estos gráficos, que muestra cómo las personas tienden a interpretar diferentes palabras y frases probabilísticas.) Quizás la intención también fue subrayar el punto de que hay mucha variación en las distribuciones del mundo real, y que una sola estadística (mediana, media, qué-tiene- usted) rara vez admitirá declaraciones amplias y amplias.
fuente