Supongamos que estamos viendo este diagrama de caja y bigotes:
Entre el jueves y el viernes, creo que la mayoría estaría de acuerdo en que parece haber una diferencia significativa en el tiempo de sueño. Sin embargo, ¿es una conjetura estadísticamente válida? ¿Podemos discernir diferencias significativas debido a que ninguno de los rangos del cuartil interno se superponen entre el jueves y el viernes? ¿Qué pasa con el hecho de que los bigotes superior e inferior del jueves y viernes, respectivamente, se superponen? ¿Eso afecta nuestro análisis?
Por lo general, acompañar un cuadro como este sería una especie de ANOVA, pero tengo curiosidad por saber cuánto podemos decir sobre las diferencias entre los grupos simplemente mirando un diagrama de caja .
fuente
Respuestas:
No puedes. Si tuviera los tamaños de muestra y mucha experiencia, podría ser capaz de adivinar, y la precisión de su suposición dependería (además del tamaño del efecto) del tamaño de la muestra. Si N = 1,000,000 por grupo, mucha importancia. Si N = 10 por grupo, no tanto. A 100 por grupo es más difícil de adivinar.
Yo diría que eso es algo bueno . Lo que se debe hacer con un diagrama de caja no es tratar de adivinar la significación estadística, sino observar lo que está sucediendo y tratar de razonar sobre ello. Hmm Más durmiendo los fines de semana. Eso es interesante pero no realmente sorprendente. Podríamos modelar horas de sueño en función del fin de semana versus no. O podríamos intentar ver si este patrón varía. ¿Quizás los jubilados no tienen este patrón? ¿Qué pasa con los trabajadores por turnos? ¿Gente que trabaja los fines de semana? ¿Personas que trabajan los 7 días de la semana?
Como mi profesor favorito en la escuela de posgrado (Herman Friedman) solía decir: "¡Dejen de seguir en la investigación!"
fuente
Sí tu puedes. Al menos en un sentido aproximado.
Esbozo cómo a continuación (y, de hecho, hay una relación con la "superposición de cajas" como sugiere) junto con algunas advertencias y limitaciones. Pero primero analicemos algunos preliminares para algunos antecedentes y contexto. (Creo que una respuesta apropiada aquí debería centrarse no en los detalles del ejemplo, aunque eso quizás merezca alguna mención aparte, sino en el tema central de usar diagramas de caja para evaluar si las diferencias aparentes pueden explicarse fácilmente como variación aleatoria o no .)
Si tiene acceso a los datos, puede dibujar diagramas de caja con muescas diseñados para este tipo de comparación visual.
Hay una discusión de cálculos diagrama de caja con muescas aquí . Si los intervalos de muesca no se superponen, los dos grupos que se comparan son aproximadamente diferentes al nivel del 5%; los cálculos se basan en cálculos normales, pero son bastante robustos y funcionan razonablemente bien en un rango de distribuciones. (Si se trata como una prueba formal, el poder no es tan alto como lo normal, pero debería funcionar bastante bien para una variedad de casos más o menos "típicos" de cola más pesada).
Teniendo en cuenta cómo funcionan los diagramas de caja con muescas, puede discernir una regla general rápida que funcionará cuando solo tenga una pantalla como la de la pregunta. Cuando el tamaño de la muestra es 10 y la mediana se coloca cerca del centro de la caja, las muescas en un diagrama de caja con muescas son aproximadamente del ancho de la caja, por lo que los extremos de la muesca y la caja están aproximadamente en el mismo lugar.
Mirando tu parcela:
Tenga en cuenta que podemos deducir por la apariencia de la gráfica en la pregunta que los tamaños de muestra deben ser de al menos 5; si fueran menos de 5, las gráficas de caja de muestra individual tendrían pistas distintas de que eran de un tamaño de muestra más bajo (como las medianas que están en el punto muerto de cada caja, o el bigote de longitud 0 cuando había un valor atípico).
Alternativamente, si las cajas (que marcan los cuartiles) no se superponen entre sí y el tamaño de la muestra es de al menos 10, entonces los dos grupos que se comparan deberían tener medianas diferentes al nivel del 5% (considerado como una comparación por pares).
[Tenga en cuenta que esto no tiene en cuenta la cantidad de comparaciones, por lo que si está haciendo varias comparaciones, su error general tipo I será mayor. Está destinado a una inspección visual en lugar de una prueba formal; sin embargo, las ideas involucradas pueden adaptarse a un enfoque más formal, incluido el ajuste para comparaciones múltiples.]
Habiendo abordado si puede , sería razonable considerar si debería hacerlo . Talvez no; El problema del potencial p-hacking es real, pero si está utilizando esto para determinar si, por ejemplo, busca recopilar nuevos datos sobre el tema de investigación y todo lo que tiene es un diagrama de caja en un documento, digamos, puede ser bastante útil para poder hacer una evaluación de si hay más allí de lo que podría explicarse fácilmente por la variación debida al ruido. Pero considerar esa cuestión en profundidad sería realmente responder una pregunta diferente.
fuente