Tengo una media de 74.10 y una desviación estándar de 33.44 para una muestra que tiene un mínimo de 0 y un máximo de 94.33.
Mi profesor me pregunta cómo puede significar más una desviación estándar que exceda el máximo.
Le mostré muchos ejemplos sobre esto, pero ella no entiende. Necesito alguna referencia para mostrarle. Podría ser cualquier capítulo o párrafo de un libro de estadísticas que hable particularmente sobre esto.
standard-deviation
mean
references
bounds
maximum
Boyun Omuru
fuente
fuente
Respuestas:
Ciertamente, la media más un SD puede exceder la mayor observación.
Considere la muestra 1, 5, 5, 5 -
tiene media 4 y desviación estándar 2, por lo que la media + sd es 6, uno más que el máximo de la muestra. Aquí está el cálculo en R:
Es una ocurrencia común. Tiende a suceder cuando hay un montón de valores altos y una cola hacia la izquierda (es decir, cuando hay un fuerte sesgo a la izquierda y un pico cercano al máximo).
-
La misma posibilidad se aplica a las distribuciones de probabilidad, no solo a las muestras: la media de la población más el SD de la población puede superar fácilmente el valor máximo posible.
Aquí hay un ejemplo de una densidad , que tiene un valor máximo posible de 1:beta(10,12)
En este caso, podemos mirar la página de Wikipedia para la distribución beta, que establece que la media es:
y la varianza es:
(Aunque no necesitamos confiar en Wikipedia, ya que son bastante fáciles de obtener).
Entonces, para y tenemos una media de y sd , entonces media + sd , más que el máximo posible de 1.α=10 β=12 ≈0.9523 ≈0.0628 ≈1.0152
Es decir, es fácilmente posible tener un valor de media + sd que no se puede observar como un valor de datos .
-
Para cualquier situación donde el modo estaba al máximo, la asimetría del modo Pearson solo necesita ser para que la media + sd exceda el máximo. Puede tomar cualquier valor, positivo o negativo, por lo que podemos ver que es fácilmente posible.<−1
-
A menudo se ve un problema estrechamente relacionado con los intervalos de confianza para una proporción binomial , donde un intervalo de uso común, el intervalo de aproximación normal puede producir límites fuera de .[0,1]
Por ejemplo, considere un intervalo de aproximación normal del 95.4% para la proporción poblacional de éxitos en los ensayos de Bernoulli (los resultados son 1 o 0 que representan eventos de éxito y fracaso respectivamente), donde 3 de 4 observaciones son " " y una observación es " ".01 0
Entonces, el límite superior para el intervalo es p + 2 × √p^+2×14p^(1−p^)−−−−−−−−−√=p^+p^(1−p^)−−−−−−−√=0.75+0.433=1.183
Esta es solo la media de la muestra + la estimación habitual de la SD para el binomio ... y produce un valor imposible.
El sd muestra habitual para 0,1,1,1 es 0,5 en lugar de 0.433 (que difieren debido a que la estimación binomial ML de la desviación estándar p ( 1 - p ) corresponde a la división de la varianza por n en lugar de n - 1 ) . Pero no hace ninguna diferencia: en cualquier caso, la media + sd excede la mayor proporción posible.p^(1−p^) n n−1
Este hecho: que un intervalo de aproximación normal para el binomio puede producir "valores imposibles" a menudo se observa en libros y documentos. Sin embargo, no se trata de datos binomiales. Sin embargo, el problema, que significa que + algún número de desviaciones estándar no es un valor posible, es análogo.
-
En su caso, el valor inusual "0" en su muestra está haciendo que el sd sea más grande de lo que baja la media, por lo que la media + sd es alta.
-
(La pregunta sería: ¿por qué razonamiento sería imposible? Porque sin saber por qué alguien pensaría que hay un problema, ¿a qué nos enfrentamos?)
Lógicamente, por supuesto, uno demuestra que es posible dando un ejemplo de dónde sucede. Ya lo has hecho. En ausencia de una razón establecida por la que debería ser de otra manera, ¿qué debe hacer?
Si un ejemplo no es suficiente, ¿qué prueba sería aceptable?
Realmente no tiene sentido simplemente señalar una declaración en un libro, ya que cualquier libro puede hacer una declaración por error: los veo todo el tiempo. Uno debe confiar en la demostración directa de que es posible, ya sea una prueba en álgebra (se podría construir a partir del ejemplo beta anterior, por ejemplo *) o mediante un ejemplo numérico (que ya ha dado), que cualquiera puede examinar la verdad por sí mismo .
* whuber da las condiciones precisas para el caso beta en los comentarios.
fuente
Según la desigualdad de Chebyshev, menos de k -2 puntos pueden estar a más de k desviaciones estándar de distancia. Entonces, para k = 1 eso significa que menos del 100% de sus muestras pueden estar a más de una desviación estándar de distancia.
Es más interesante mirar el límite bajo. Su profesor debería estar más sorprendido de que haya puntos que sean aproximadamente 2.5 desviaciones estándar por debajo de la media. Pero ahora sabemos que solo alrededor de 1/6 de sus muestras puede ser 0.
fuente
fuente
Y queremos
Cuadra ambos lados para obtener
fuente