¿Puede la media más una desviación estándar exceder el valor máximo?

19

Tengo una media de 74.10 y una desviación estándar de 33.44 para una muestra que tiene un mínimo de 0 y un máximo de 94.33.

Mi profesor me pregunta cómo puede significar más una desviación estándar que exceda el máximo.

Le mostré muchos ejemplos sobre esto, pero ella no entiende. Necesito alguna referencia para mostrarle. Podría ser cualquier capítulo o párrafo de un libro de estadísticas que hable particularmente sobre esto.

Boyun Omuru
fuente
¿Por qué quieres sumar (o restar) una desviación estándar de la media? El SD ​​es una medida de la propagación de los datos. ¿Querías el error estándar de la media en su lugar quizás?
Restablece a Monica - G. Simpson el
No quiero sumar ni restar, el que quiere esto es mi profesor. Esa es la forma en que entiende la desviación estándar
Boyun Omuru
55
Un ejemplo interesante es la muestra (0.01,0.02,0.98,0.99). Tanto la media más la desviación estándar como la media menos la desviación estándar se encuentran fuera de [0,1].
Glen_b -Reinstala a Monica el
¿Quizás solo está pensando en una distribución Normal?
usuario765195

Respuestas:

28

Ciertamente, la media más un SD puede exceder la mayor observación.

Considere la muestra 1, 5, 5, 5 -

tiene media 4 y desviación estándar 2, por lo que la media + sd es 6, uno más que el máximo de la muestra. Aquí está el cálculo en R:

> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6

Es una ocurrencia común. Tiende a suceder cuando hay un montón de valores altos y una cola hacia la izquierda (es decir, cuando hay un fuerte sesgo a la izquierda y un pico cercano al máximo).

-

La misma posibilidad se aplica a las distribuciones de probabilidad, no solo a las muestras: la media de la población más el SD de la población puede superar fácilmente el valor máximo posible.

Aquí hay un ejemplo de una densidad , que tiene un valor máximo posible de 1:beta(10,12)

ingrese la descripción de la imagen aquí

En este caso, podemos mirar la página de Wikipedia para la distribución beta, que establece que la media es:

E[X]=αα+β

y la varianza es:

var[X]=αβ(α+β)2(α+β+1)

(Aunque no necesitamos confiar en Wikipedia, ya que son bastante fáciles de obtener).

Entonces, para y tenemos una media de y sd , entonces media + sd , más que el máximo posible de 1.α=10β=120.95230.06281.0152

Es decir, es fácilmente posible tener un valor de media + sd que no se puede observar como un valor de datos .

-

Para cualquier situación donde el modo estaba al máximo, la asimetría del modo Pearson solo necesita ser para que la media + sd exceda el máximo. Puede tomar cualquier valor, positivo o negativo, por lo que podemos ver que es fácilmente posible.<1

-

A menudo se ve un problema estrechamente relacionado con los intervalos de confianza para una proporción binomial , donde un intervalo de uso común, el intervalo de aproximación normal puede producir límites fuera de .[0,1]

Por ejemplo, considere un intervalo de aproximación normal del 95.4% para la proporción poblacional de éxitos en los ensayos de Bernoulli (los resultados son 1 o 0 que representan eventos de éxito y fracaso respectivamente), donde 3 de 4 observaciones son " " y una observación es " ".010

Entonces, el límite superior para el intervalo es p + 2 × p^+2×14p^(1p^)=p^+p^(1p^)=0.75+0.433=1.183

Esta es solo la media de la muestra + la estimación habitual de la SD para el binomio ... y produce un valor imposible.

El sd muestra habitual para 0,1,1,1 es 0,5 en lugar de 0.433 (que difieren debido a que la estimación binomial ML de la desviación estándar p ( 1 - p ) corresponde a la división de la varianza por n en lugar de n - 1 ) . Pero no hace ninguna diferencia: en cualquier caso, la media + sd excede la mayor proporción posible.p^(1p^)nn1

Este hecho: que un intervalo de aproximación normal para el binomio puede producir "valores imposibles" a menudo se observa en libros y documentos. Sin embargo, no se trata de datos binomiales. Sin embargo, el problema, que significa que + algún número de desviaciones estándar no es un valor posible, es análogo.

-

En su caso, el valor inusual "0" en su muestra está haciendo que el sd sea más grande de lo que baja la media, por lo que la media + sd es alta.

ingrese la descripción de la imagen aquí

-

(La pregunta sería: ¿por qué razonamiento sería imposible? Porque sin saber por qué alguien pensaría que hay un problema, ¿a qué nos enfrentamos?)

Lógicamente, por supuesto, uno demuestra que es posible dando un ejemplo de dónde sucede. Ya lo has hecho. En ausencia de una razón establecida por la que debería ser de otra manera, ¿qué debe hacer?

Si un ejemplo no es suficiente, ¿qué prueba sería aceptable?

Realmente no tiene sentido simplemente señalar una declaración en un libro, ya que cualquier libro puede hacer una declaración por error: los veo todo el tiempo. Uno debe confiar en la demostración directa de que es posible, ya sea una prueba en álgebra (se podría construir a partir del ejemplo beta anterior, por ejemplo *) o mediante un ejemplo numérico (que ya ha dado), que cualquiera puede examinar la verdad por sí mismo .

* whuber da las condiciones precisas para el caso beta en los comentarios.

Glen_b -Reinstate a Monica
fuente
55
0<β<1α>β(1+β)/(1β)(α,β)1
Déjame explicarte más. Estoy buscando el porcentaje de precisión de un aparato en particular utilizado para la corrección de los dientes. Y este aparato realizó un porcentaje de precisión para 7 dientes de la siguiente manera:% 76,19,% 77,41,% 94,33,% 91,06,% 0,% 87,77,% 91,96. Mi profesor agrega una desviación estándar a la media y declara que el resultado no puede exceder el valor máximo, incluso% 100 porque% 100 es el porcentaje de precisión máxima que puede alcanzar el dispositivo.
Boyun Omuru
2
Tiene razón en que un porcentaje> 100% no tiene sentido en su situación. El problema es en realidad la premisa no declarada de que agregar un SD a la media debería tener sentido en este contexto, cuando no es así . Ahí es donde creo que se origina tu dificultad. Si entendiéramos de dónde viene la premisa, podría conducir a una mejor resolución. Es posible que el simple hecho se establezca en un libro en alguna parte (sin embargo, es una observación trivial, por lo que es posible que tampoco lo sea), pero dudo que alguna vez se exprese de una manera que la satisfaga, porque es falso. La premisa es la fuente del problema.
Glen_b -Reinstate Monica
1
De hecho, mi punto menor es que esta curiosidad es el resultado de lo que representan las desviaciones estándar para distribuciones fuertemente no simétricas, más que el resultado de tomar una muestra. Pero en general, creo que su respuesta es excelente
Henry
2
@tomka He intentado ayudar a muchos estudiantes en una posición similar. Eventualmente aprendí la regla general (posiblemente no sorprendente) de que es efectivamente imposible enseñarle a un supervisor algo por medio de su estudiante.
Glen_b -Reinstala a Monica el
4

Según la desigualdad de Chebyshev, menos de k -2 puntos pueden estar a más de k desviaciones estándar de distancia. Entonces, para k = 1 eso significa que menos del 100% de sus muestras pueden estar a más de una desviación estándar de distancia.

Es más interesante mirar el límite bajo. Su profesor debería estar más sorprendido de que haya puntos que sean aproximadamente 2.5 desviaciones estándar por debajo de la media. Pero ahora sabemos que solo alrededor de 1/6 de sus muestras puede ser 0.

MSalters
fuente
3

σσ

Snives
fuente
55
Esta es una buena contribución. Sin embargo, no estoy seguro de que la SD realmente "asuma" una distribución normal.
gung - Restablecer Monica
3
El "ajuste de distribución" y la búsqueda de una transformación a la normalidad son procedimientos distintos con diferentes objetivos.
whuber
2

X10<p<101p

E(X)=p,SE(X)=p(1p)

Y queremos

E(X)+SE(X)>1p+p(1p)>1

p(1p)>(1p)

Cuadra ambos lados para obtener

p(1p)>(1p)2p>1pp>12

p>1/2E(X)+SE(X)>maxX

p=0.71

U(a,b)E(U)+SE(U)<maxU=b

Alecos Papadopoulos
fuente