SD mayor que la media, escala no negativa

9

Me dieron un artículo que informaba sobre un estudio muy similar al que mi laboratorio desea realizar. Pero, noté que para la variable de interés, Duración, las DE son mayores que la media ... ya que esta es la duración medida en minutos, nunca puede ser negativa y esto me parece muy extraño. Esto sucedió en 2 estudios informados, a continuación se muestra uno.

Más allá de eso, este es un diseño mixto. Control v Tratamiento (entre grupos) y Tiempo1, Tiempo2, Tiempo3 (medidas repetidas). Aquí están los medios (DE), N> 200

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

... corrieron un ANOVA y reportaron un p <.001.

Me pidieron que usara esto como base para un análisis de potencia para determinar el tamaño de la muestra para nuestro estudio. Estoy bastante seguro de que esto indica que los datos no son normales o tienen valores atípicos y no me siento cómodo al determinar el tamaño de la muestra en función de esto. ¿Estoy solo fuera de la base?

Curioso
fuente
¿Está seguro de que son SD y no intervalos de confianza del 95%, que podrían ser más como 3 * SD. Parece que esas SD tienen aproximadamente el mismo tamaño que los medios. Es realmente difícil decir cuál es el tamaño de la muestra ya que no sabemos qué efectos se incluyeron en esos errores o incluso cuál es la estadística. Si solo se tratara de contar estadísticas, es decir, la distribución de Poisson, incluiría que la media sobre la DE debería ser como 1 / Sqrt (N). Sin embargo, eso implicaría N = 1 (o algunos como máximo). ¿Puede darnos más información sobre cuáles son estas estadísticas?
Dave31415
Además, la distribución normal tiene una media y una DE que son completamente independientes entre sí. Creo que tal vez te referías a la distribución de Poisson.
Dave31415
2
Con duraciones que no son negativas, generalmente esperaría una distribución sesgada. Las SD comparables a la media son perfectamente posibles y en ningún sentido sorprendentes. No se puede aconsejar qué distribución se supone mejor para otros cálculos sin más información, pero no elegiría a Poisson como mi primera suposición, sino más bien gamma o lognormal.
Nick Cox
Como señala @NickCox, con duraciones, me sorprendería si la SD no fuera mayor que la media (si no hubiera censura). También puede considerar la distribución de Weibull. El análisis de potencia probablemente tendrá que estar basado en simulación. En una nota diferente, supongo que un ANOVA no era válido con datos como ese.
gung - Restablece a Monica
1
Para un conjunto de datos de números no negativos, el coeficiente de variación (la relación entre la desviación estándar y la media) puede tomar valores tan grandes como con el valor máximo en el caso extremo cuando todos los números son excepto uno (vea esta pregunta para más detalles). Por lo tanto, la desviación estándar que excede la media no debe considerarse como un caso excepcional que requiere mucha explicación. O ( n0O(n)0
Dilip Sarwate

Respuestas:

5

Es fácilmente posible que la desviación estándar supere la media con datos no negativos o estrictamente positivos.

Describiría el caso de sus datos como la desviación estándar que está cerca de la media (no todos los valores son mayores y los que son más grandes generalmente están cerca). Para datos no negativos, indica claramente que los datos están sesgados (por ejemplo, la distribución gamma con coeficiente de variación = 1 sería la distribución exponencial, por lo que si los datos fueran gamma, se verían en algún lugar cerca de exponencial)

Sin embargo, con ese tipo de tamaño de muestra, el ANOVA puede no verse particularmente afectado por eso; la incertidumbre en la estimación de la varianza agrupada será bastante pequeña, por lo que podríamos considerar que entre el CLT (para las medias) y el teorema de Slutsky (para la estimación de la varianza en el denominador), un ANOVA probablemente funcionará razonablemente bien, ya que usted ' Tendrá un chi-cuadrado asintótico, para el cual el ANOVA-F con su gran denominador-grados de libertad será una buena aproximación. (es decir, debe tener un nivel de robustez razonable, y dado que los medios no están muy lejos de ser constantes, el poder no debería verse muy afectado por la heterocedasticidad)

Dicho esto, si su estudio tendrá un tamaño de muestra más pequeño, es mejor que utilice una prueba diferente (quizás una prueba de permutación, o una más adecuada para datos asimétricos, tal vez una basada en un GLM). El cambio en la prueba puede requerir un tamaño de muestra algo mayor que el que obtendría por un ANOVA directo.

Con los datos originales, podría hacer un análisis de potencia bajo un modelo / análisis adecuado. Incluso en ausencia de los datos originales, uno podría hacer suposiciones más plausibles sobre la distribución (tal vez una variedad de ellas) e investigar toda la curva de potencia (o, más simplemente, solo la tasa de error tipo I y la potencia en cualquier tamaño de efecto es de interés). Se podrían usar una variedad de suposiciones razonables, lo que da una idea de qué poder se puede lograr en circunstancias plausibles y cuánto más grande podría ser el tamaño de la muestra.

Glen_b -Reinstate a Monica
fuente
4

Tiene razón al concluir que los datos no son normales. Si los datos fueran normales, esperaríamos que alrededor del 16% de las observaciones fueran menores que la media menos la desviación estándar. Con una SD mayor que la media, este número es negativo y usted afirma que no puede haber números negativos, por lo que lo que está viendo no es coherente con los datos distribuidos normalmente. Los valores SD son posibles, pero solo si la distribución está muy sesgada (lo cual es común en las duraciones).

Estoy de acuerdo en que elegir un tamaño de muestra basado en la suposición de que los datos serán normales no es una buena idea, pero si puede obtener más información sobre el proceso y encontrar una distribución sesgada correcta (una distribución gamma como una posibilidad) es una suposición razonable, entonces podría usar eso para ayudar a determinar el tamaño de la muestra.

Greg Snow
fuente