Tengo algunas mallas trianguladas en 3D. Las estadísticas para las áreas triangulares son:
- Min 0.000
- Máx. 2341.141
- Promedio 56.317
- Std dev 98.720
Entonces, ¿significa algo particularmente útil sobre la desviación estándar o sugiere que hay errores al calcularla, cuando las cifras funcionan como las anteriores? Las áreas ciertamente están lejos de estar distribuidas normalmente.
Y como alguien mencionó en una de sus respuestas a continuación, lo que realmente me sorprendió fue que solo tomó una SD de la media para que los números fueran negativos y, por lo tanto, fuera del dominio legal.
Gracias
distributions
mean
standard-deviation
Andy Dent
fuente
fuente
Respuestas:
No hay nada que indique que la desviación estándar tiene que ser menor o mayor que la media. Dado un conjunto de datos, puede mantener la media igual pero cambiar la desviación estándar a un grado arbitrario sumando / restando un número positivo de manera apropiada .
Usando el conjunto de datos de ejemplo de @ whuber de su comentario a la pregunta: {2, 2, 2, 202}. Como dijo @whuber: la media es 52 y la desviación estándar es 100.
Ahora, perturbe cada elemento de los datos de la siguiente manera: {22, 22, 22, 142}. La media sigue siendo 52 pero la desviación estándar es 60.
fuente
Por supuesto, estos son parámetros independientes. Puede establecer exploraciones simples en R (u otra herramienta que prefiera).
Del mismo modo, estandariza los datos que está viendo restando la media y dividiendo por la desviación estándar.
Editar Y siguiendo la idea de @ whuber, aquí hay una infinidad de conjuntos de datos que se acercan a sus cuatro mediciones:
fuente
No estoy seguro de por qué @Andy está sorprendida por este resultado, pero sé que no está solo. Tampoco estoy seguro de qué tiene que ver la normalidad de los datos con el hecho de que el SD es más alto que la media. Es bastante simple generar un conjunto de datos que normalmente se distribuye donde este es el caso; de hecho, la normal estándar tiene una media de 0, sd de 1. Sería difícil obtener un conjunto de datos de distribución normal de todos los valores positivos con sd> media; de hecho, no debería ser posible (pero depende del tamaño de la muestra y de la prueba de normalidad que use ... con una muestra muy pequeña, suceden cosas extrañas)
Sin embargo, una vez que elimine la estipulación de la normalidad, como lo hizo @Andy, no hay ninguna razón por la cual sd debería ser mayor o menor que la media, incluso para todos los valores positivos. Un solo caso atípico hará esto. p.ej
x <- runif (100, 1, 200) x <- c (x, 2000)
da una media de 113 y una desviación estándar de 198 (dependiendo de la semilla, por supuesto).
Pero una pregunta más importante es por qué esto sorprende a la gente.
No enseño estadística, pero me pregunto qué pasa con la forma en que se enseña estadística hace que esta noción sea común.
fuente
Simplemente agregando un punto genérico que, desde una perspectiva de cálculo, y ∫ x 2 f ( x ) d x están relacionados por la desigualdad de Jensen , suponiendo que ambas integrales existan, ∫ x 2 f ( x ) d x ≥ { ∫ x f ( x ) d x } 2
fuente
Quizás el OP se sorprende de que la media - 1 SD sea un número negativo (especialmente cuando el mínimo es 0).
Aquí hay dos ejemplos que pueden aclarar.
Suponga que tiene una clase de 20 alumnos de primer grado, donde 18 tienen 6 años, 1 es 5 y 1 es 7. Ahora agregue al maestro de 49 años. La edad promedio es 8.0, mientras que la desviación estándar es 9.402.
Quizás esté pensando: un rango de desviación estándar para esta clase varía de -1,402 a 17,402 años. Es posible que se sorprenda de que el SD incluye una edad negativa, lo que parece irrazonable.
No tiene que preocuparse por la edad negativa (o las gráficas 3D que se extienden menos del mínimo de 0.0). Intuitivamente, todavía tiene aproximadamente dos tercios de los datos dentro de 1 SD de la media. (En realidad, tiene el 95% de los datos dentro de 2 SD de la media).
Cuando los datos toman una distribución no normal, verá resultados sorprendentes como este.
Segundo ejemplo En su libro, Engañado por la aleatoriedad , Nassim Taleb establece el experimento mental de un arquero con los ojos vendados disparando a una pared de longitud infinita. El arquero puede disparar entre +90 grados y -90 grados.
De vez en cuando, el arquero disparará la flecha paralela a la pared, y nunca golpeará. Considere hasta qué punto la flecha pierde el objetivo como la distribución de números. La desviación estándar para este escenario sería infinita.
fuente
Una variable aleatoria gammaX con densidad
R
to get a feeling about this. Here are examples withfuente
As pointed out in the other answers, the meanx¯ and standard deviation
σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c] , say, then, for large data sets (where the distinction between dividing by n or by n−1 does not matter very much), the following inequality
holds:
fuente
What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.
fuente
Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?
fuente