¿Puede la desviación estándar de datos no negativos exceder la media?

15

Tengo algunas mallas trianguladas en 3D. Las estadísticas para las áreas triangulares son:

  • Min 0.000
  • Máx. 2341.141
  • Promedio 56.317
  • Std dev 98.720

Entonces, ¿significa algo particularmente útil sobre la desviación estándar o sugiere que hay errores al calcularla, cuando las cifras funcionan como las anteriores? Las áreas ciertamente están lejos de estar distribuidas normalmente.

Y como alguien mencionó en una de sus respuestas a continuación, lo que realmente me sorprendió fue que solo tomó una SD de la media para que los números fueran negativos y, por lo tanto, fuera del dominio legal.

Gracias

Andy Dent
fuente
44
En el conjunto de datos {2,2,2,202} la desviación estándar de la muestra es 100 mientras que la media es 52 bastante cerca de lo que observa.
whuber
55
Para un ejemplo familiar (para algunos), el resultado medio de alguien jugando al blackjack durante una hora podría ser negativo $ 25 pero con una desviación estándar de decir $ 100 (números para ilustración). Este gran coeficiente de variación hace que sea más fácil engañar a alguien para que piense que es mejor de lo que realmente es.
Michael McGowan
La pregunta de seguimiento también es bastante informativa: coloca límites en la SD de un conjunto de (datos no negativos), dada la media.
whuber

Respuestas:

9

No hay nada que indique que la desviación estándar tiene que ser menor o mayor que la media. Dado un conjunto de datos, puede mantener la media igual pero cambiar la desviación estándar a un grado arbitrario sumando / restando un número positivo de manera apropiada .

Usando el conjunto de datos de ejemplo de @ whuber de su comentario a la pregunta: {2, 2, 2, 202}. Como dijo @whuber: la media es 52 y la desviación estándar es 100.

Ahora, perturbe cada elemento de los datos de la siguiente manera: {22, 22, 22, 142}. La media sigue siendo 52 pero la desviación estándar es 60.

varty
fuente
1
Si agrega a cada elemento, cambia el parámetro de ubicación , es decir, la media. Cambia la dispersión (es decir, la desviación estándar) multiplicándola con un factor de escala (siempre que su media sea cero).
Dirk Eddelbuettel
@DirkEddelbuettel Tienes razón. Arreglé la respuesta y proporcioné un ejemplo para mayor claridad.
varty
2
No sigo el ejemplo. El nuevo conjunto de datos claramente no se deriva del original al "sumar o restar un número positivo" de cada uno de los valores originales.
whuber
33
No puedo editarlo porque no sé lo que estás tratando de decir. Si puede agregar arbitrariamente valores separados a cada uno de los números en un conjunto de datos, simplemente está cambiando un conjunto de valores en un conjunto completamente diferente de n valores. No veo cómo eso es relevante para la pregunta o incluso para su párrafo inicial. Creo que cualquiera concedería que tales cambios pueden alterar la media y la DE, pero eso no nos dice por qué la DE de un conjunto de datos no negativos puede ser un múltiplo positivo de su media. nn
whuber
2
Tiene razón: la afirmación citada es mía y no aparece en su respuesta. (Sin embargo, resulta ser correcto y relevante. :-) Un punto que estoy tratando de transmitir es que la mera capacidad de cambiar la SD mientras se mantiene la media no responde a la pregunta. ¿Cuánto se puede cambiar la SD (manteniendo todos los datos no negativos)? El otro punto que he tratado de hacer es que su ejemplo no ilustra un proceso general y predecible de hacer tales alteraciones a los datos. Esto hace que parezca arbitrario, lo que no es de mucha ayuda.
whuber
9

Por supuesto, estos son parámetros independientes. Puede establecer exploraciones simples en R (u otra herramienta que prefiera).

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

Del mismo modo, estandariza los datos que está viendo restando la media y dividiendo por la desviación estándar.

Editar Y siguiendo la idea de @ whuber, aquí hay una infinidad de conjuntos de datos que se acercan a sus cuatro mediciones:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 
Dirk Eddelbuettel
fuente
No estoy seguro de entender tu punto. No son exactamente independientes, ya que uno podría cambiar la media al perturbar un punto de datos y, por lo tanto, también cambiar la desviación estándar. ¿Interpreté mal algo?
varty
Al observar que las áreas triangulares no pueden ser negativas (como lo confirma el valor mínimo citado en la pregunta), uno esperaría un ejemplo que consista únicamente en números no negativos.
whuber
(+1) Vuelva a editar: intente usar 536 repeticiones de 52.15 :-).
whuber
Nice one re 536 repeticiones. Debería haber hecho una búsqueda binaria :)
Dirk Eddelbuettel
@Dirk "estos son parámetros independientes", considere el caso cuando es un bernouilli. la varianza y la media no son independientes: v a r ( X ) = p ( 1 - p ) . Considere una variable aleatoria 100 > X > 0 , varianza máxima posible es ( 50 ) 2 ahora si se fuerza la media sea igual a uno (es decir, menor que 50 ) la varianza máxima no puede ser mayor que 99 / 100 * ( 1 ) 2 + (Xvar(X)=p(1p)100>X>0(50)250 . ¿Hay más ejemplos de variables limitadas en la naturaleza que los gaussianos? 99/100(1)2+(1/100)992
robin girard
7

No estoy seguro de por qué @Andy está sorprendida por este resultado, pero sé que no está solo. Tampoco estoy seguro de qué tiene que ver la normalidad de los datos con el hecho de que el SD es más alto que la media. Es bastante simple generar un conjunto de datos que normalmente se distribuye donde este es el caso; de hecho, la normal estándar tiene una media de 0, sd de 1. Sería difícil obtener un conjunto de datos de distribución normal de todos los valores positivos con sd> media; de hecho, no debería ser posible (pero depende del tamaño de la muestra y de la prueba de normalidad que use ... con una muestra muy pequeña, suceden cosas extrañas)

Sin embargo, una vez que elimine la estipulación de la normalidad, como lo hizo @Andy, no hay ninguna razón por la cual sd debería ser mayor o menor que la media, incluso para todos los valores positivos. Un solo caso atípico hará esto. p.ej

x <- runif (100, 1, 200) x <- c (x, 2000)

da una media de 113 y una desviación estándar de 198 (dependiendo de la semilla, por supuesto).

Pero una pregunta más importante es por qué esto sorprende a la gente.

No enseño estadística, pero me pregunto qué pasa con la forma en que se enseña estadística hace que esta noción sea común.

Peter Flom - Restablece a Monica
fuente
Nunca estudié estadística, solo un par de unidades de matemática de ingeniería y eso fue hace treinta años. Otras personas en el trabajo, que pensé que entendían mejor el dominio, han estado hablando de representar datos incorrectos por "número de desarrolladores estándar lejos de la media". Entonces, se trata más de "cómo se menciona comúnmente std dev" que "enseñado" :-)
Andy Dent
@Andy con una gran cantidad de std lejos de la media simplemente significa que la variable no es significativamente diferente de cero. Entonces depende del contexto (¿es el significado de la variable aleatoria) pero en algún caso es posible que desee eliminarlos?
robin girard
@Peter mira mi comentario a Dirk, esto podría explicar la "sorpresa" en algún contexto. En realidad, he enseñado estadística durante algún tiempo y nunca he visto la sorpresa de la que estás hablando. De todos modos, prefiero a los estudiantes que están sorprendidos por todo, estoy bastante seguro de que esta es una buena posición epistemológica (mejor que desmayarse en la posición absolutamente sin sorpresas :)).
robin girard
Los datos "malos" de @AndyDent, para mí, significan datos que se registran incorrectamente. Los datos que están lejos de la media son valores atípicos. Por ejemplo, suponga que está midiendo las alturas de las personas. Si me mide y registra mi altura como 7'5 'en lugar de 5'7, eso es un mal dato. Si mide a Yao Ming y registra su altura como 7'5 ", eso es un dato atípico pero no malo. Independientemente del hecho de que está muy lejos de la media (algo así como 6 sds)
Peter Flom - Restablece a Monica
@ Peter Florn, en nuestro caso, tenemos valores atípicos de los que queremos deshacernos porque representan triángulos que causarán problemas algorítmicos al procesar la malla. Incluso pueden ser "malos datos" en su sentido si fueron creados por dispositivos de escaneo defectuosos o conversión de otros formatos :-) Otras formas pueden tener valores atípicos que están muy lejos de la media pero no representan un problema. Una de las cosas más interesantes sobre estos datos es que tenemos "datos incorrectos" en ambos extremos, pero los pequeños no están lejos de la media.
Andy Dent
6

Simplemente agregando un punto genérico que, desde una perspectiva de cálculo, y x 2 f ( x ) d x están relacionados por la desigualdad de Jensen , suponiendo que ambas integrales existan, x 2 f ( x ) d x { x f ( x ) d x } 2

xf(x)dx
x2f(x)dx
Dada esta desigualdad general, nada impide que la varianza se vuelva arbitrariamente grande. Sea testigo de ladistribución t de Studentcon ν grados de libertad, X T ( ν , μ , σ ) y tome Y = | X | cuyo segundo momento es el mismo que el segundo momento de X , E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|X
E[|X|2]=νν2σ2+μ2,
ν>2ν2Yν>1
Xi'an
fuente
1
Tenga en cuenta la restricción explícita a los valores no negativos en la pregunta.
whuber
El ejemplo de Student se traduce fácilmente en el ejemplo de valor absoluto de distribución de t de Student ...
Xi'an
1
Pero eso cambia la media, por supuesto :-). La pregunta se refiere a la relación entre la DS y la media (ver su título). No digo que te equivoques; Solo estoy sugiriendo (implícitamente) que su respuesta podría, con poco trabajo, abordar más directamente la pregunta.
whuber
@whuber: ok, edité lo anterior para considerar el valor absoluto (también deduje la media del valor absoluto pero <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> es bastante desgarbado </ a> ...)
Xi'an
3

Quizás el OP se sorprende de que la media - 1 SD sea un número negativo (especialmente cuando el mínimo es 0).

Aquí hay dos ejemplos que pueden aclarar.

Suponga que tiene una clase de 20 alumnos de primer grado, donde 18 tienen 6 años, 1 es 5 y 1 es 7. Ahora agregue al maestro de 49 años. La edad promedio es 8.0, mientras que la desviación estándar es 9.402.

Quizás esté pensando: un rango de desviación estándar para esta clase varía de -1,402 a 17,402 años. Es posible que se sorprenda de que el SD incluye una edad negativa, lo que parece irrazonable.

No tiene que preocuparse por la edad negativa (o las gráficas 3D que se extienden menos del mínimo de 0.0). Intuitivamente, todavía tiene aproximadamente dos tercios de los datos dentro de 1 SD de la media. (En realidad, tiene el 95% de los datos dentro de 2 SD de la media).

Cuando los datos toman una distribución no normal, verá resultados sorprendentes como este.

Segundo ejemplo En su libro, Engañado por la aleatoriedad , Nassim Taleb establece el experimento mental de un arquero con los ojos vendados disparando a una pared de longitud infinita. El arquero puede disparar entre +90 grados y -90 grados.

De vez en cuando, el arquero disparará la flecha paralela a la pared, y nunca golpeará. Considere hasta qué punto la flecha pierde el objetivo como la distribución de números. La desviación estándar para este escenario sería infinita.

rajah9
fuente
La regla sobre 2/3 de los datos dentro de 1 SD de la media es para datos normales. Pero los datos del aula son claramente no normales (incluso si pasan alguna prueba de normalidad debido al pequeño tamaño de la muestra). El ejemplo de Taleb es terrible. Es un ejemplo de pobre operacionalización de una variable. Tomado como está, tanto la media como la DE serían infinitas. Pero eso no tiene sentido. "Qué tan lejos se pierde la flecha" - para mí, eso es una distancia. La flecha, no importa cómo se dispare, aterrizará en algún lugar. Mida la distancia desde allí hasta el objetivo. No más infinito.
Peter Flom - Restablece a Monica
1
Sí, el OP se sorprendió lo suficiente la primera vez que vi la media: 1 SD salió negativo que escribí un conjunto completamente nuevo de pruebas unitarias utilizando datos de Excel para confirmar que al menos mi algoritmo estaba calculando los mismos valores. Porque Excel solo tiene que ser una fuente autorizada, ¿verdad?
Andy Dent
@ Peter La regla 2/3 (parte de una regla del 68-95-99.7%) es buena para una gran variedad de conjuntos de datos, muchos de ellos no normales e incluso para los moderadamente sesgados. (La regla es bastante buena para los conjuntos de datos simétricos). La no finitud de la SD y la media no son "tonterías". El ejemplo de Taleb es una de las pocas situaciones no artificiales donde la distribución de Cauchy gobierna claramente el proceso de generación de datos. La infinitud de la SD no se deriva de la posibilidad de perder el muro sino de la distribución de los golpes reales.
whuber
1
@whuber Conocía tu primer punto, que es bueno. No estoy de acuerdo con tu segundo punto sobre Taleb. Me parece otro ejemplo artificial.
Peter Flom - Restablece a Monica
3

Una variable aleatoria gamma X con densidad

FX(X)=βαΓ(α)Xα-1mi-βXyo(0 0,)(X),
con α,β>0 0, es casi seguro positivo. Elige cualquier mediometro>0 0 y cualquier desviación estándar s>0 0. Mientras sean positivos, no importa simetro>s o m<s. Putting α=m2/s2 and β=m/s2, the mean and standard deviation of X are E[X]=α/β=m and Var[X]=α/β2=s. With a big enough sample from the distribution of X, by the SLLN, the sample mean and sample standard deviation will be close to m and s. You can play with R to get a feeling about this. Here are examples with m>s and m<s.
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139
Zen
fuente
1

As pointed out in the other answers, the mean x¯ and standard deviation σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c], say, then, for large data sets (where the distinction between dividing by n or by n1 does not matter very much), the following inequality holds:

σxx¯(cx¯)c2
and so if x¯>c/2, we can be sure that σx will be smaller. Indeed, since σx=c/2 only for an extremal distribution (half the data have value 0 and the other half value c), σx<x¯ can hold in some cases when x¯<c/2 as well. If the data are measurements of some physical quantity that is nonnegative (e.g. area) and have an empirical distribution that is a good fit to a normal distribution, then σx will be considerably smaller than min{x¯,cx¯} since the fitted normal distribution should assign negligibly small probability to the events {X<0} and {X>c}.
Dilip Sarwate
fuente
4
I don't think the question is whether the dataset is normal; its non-normality is stipulated. The question concerns whether there might have been some error made in computing the standard deviation, because the OP is surprised that even in this obviously non-normal dataset the SD is much larger than the mean. If an error was not made, what can one conclude from such a large coefficient of variation?
whuber
9
Any answer or comment that claims the mean and sd of a dataset are unrelated is plainly incorrect, because both are functions of the same data and both will change whenever a single one of the data values is changed. This remark does bear some echoes of a similar sounding statement that is true (but not terribly relevant to the current question); namely, that the sample mean and sample sd of data drawn independently from a normal distribution are independent (in the probabilistic sense).
whuber
1

What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.

Felipe G. Nievinski
fuente
0

Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?

fred3
fuente