Digamos que estoy calculando alturas (en cm) y los números deben ser superiores a cero.
Aquí está la lista de muestra:
0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981
Mean: 0.41138725956196015
Std: 0.2860541519582141
En este ejemplo, de acuerdo con la distribución normal, el 99.7% de los valores deben estar entre ± 3 veces la desviación estándar de la media. Sin embargo, incluso el doble de la desviación estándar se vuelve negativa:
-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468
Sin embargo, mis números deben ser positivos. Por lo tanto, deben estar por encima de 0. Puedo ignorar los números negativos, pero dudo que esta sea la forma correcta de calcular las probabilidades utilizando la desviación estándar.
¿Alguien puede ayudarme a entender si estoy usando esto de manera correcta? ¿O necesito elegir un método diferente?
Bueno, para ser sincero, las matemáticas son matemáticas. No importa si es una distribución normal o no. Si funciona con números sin signo, ¡también debería funcionar con números positivos! ¿Me equivoco?
EDITAR1: histograma agregado
Para ser más claro, he agregado el histograma de mis datos reales
EDIT2: algunos valores
Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
fuente
Respuestas:
Si sus números solo pueden ser positivos, modelarlos como una distribución normal puede no ser deseable dependiendo de su caso de uso, porque la distribución normal es compatible con todos los números reales.
¿Quizás quiera modelar la altura como una distribución exponencial, o tal vez una distribución normal truncada?
EDITAR: ¡Después de ver sus datos, realmente parece que podría encajar bien en una distribución exponencial! Puede estimar el parámetro tomando, por ejemplo, un enfoque de máxima verosimilitud.λ
fuente
"¿Cuál es la forma correcta de aplicar 68-95-99.7 a mi caso?"
Uno debería esperar esa regla general para que la cobertura se aplique exactamente solo si está (1) mirando la población completa (infinita) o la distribución de probabilidad teórica , y (2) la distribución es exactamente normal .
Si toma una muestra aleatoria de tamaño 20, incluso de una distribución genuinamente normal, no siempre encontrará que el 95% de los datos (19 de los 20 ítems) se encuentran dentro de 2 (o 1.960) desviaciones estándar de la media. De hecho, no se garantiza que 19 de los 20 ítems se encuentren dentro de 1.960 desviaciones estándar de la población de la media de la población, ni que 19 de los 20 ítems se encuentren dentro de 1.960 desviaciones estándar de la muestra de la media.
Si toma una muestra de datos de una distribución que no está distribuida normalmente, entonces uno no esperaría que la regla 68-95-99.7 se aplique exactamente. Pero puede estar razonablemente cerca de hacerlo, particularmente si el tamaño de la muestra es grande (la regla general de "cobertura del 99.7%" puede no ser especialmente significativa con un tamaño de muestra por debajo de 1000) y la distribución es razonablemente cercana a la normalidad. En teoría, muchos datos, como la altura o el peso, no pueden provenir de una distribución normal precisa o eso implicaría una probabilidad pequeña, pero no nula, de que sean negativos. Sin embargo, para datos con una distribución aproximadamente simétrica y unimodal, donde los valores medios son más comunes y los valores extremadamente altos o bajos disminuyen en probabilidad, el modelo de una distribución normal puede ser adecuado para fines prácticos.Si mi histograma muestra una curva en forma de campana, ¿puedo decir que mis datos se distribuyen normalmente?
Si desea límites teóricamente vinculantes que se apliquen a cualquier distribución, vea la desigualdad de Chebyshev , que establece que, como máximo, de los valores puede ser mayor que k1 / k2 k desviaciones estándar de la media. Esto garantiza que al menos el 75% de los datos se encuentran dentro de dos desviaciones estándar de la media, y el 89% dentro de tres desviaciones estándar. Pero esas cifras son solo el mínimo teóricamente garantizado. Para muchas distribuciones más o menos en forma de campana, encontrará que la cifra de cobertura de desviación de dos estándares se acerca mucho más al 95% que al 75%, por lo que la "regla general" de la distribución normal sigue siendo útil. Por otro lado, si sus datos provienen de una distribución que no tiene forma de campana, es posible que pueda encontrar un modelo alternativo que describa mejor los datos y tenga una regla de cobertura diferente.
(Una cosa que es agradable acerca de la regla 68-95-99.7 es que se aplica a cualquier distribución normal, independientemente de sus parámetros para la media o la desviación estándar. Del mismo modo, la desigualdad de Chebyshev se aplica independientemente de los parámetros, o incluso de la distribución, aunque solo proporciona límites inferiores para la cobertura. Pero si aplica, por ejemplo, un modelo normal truncado o sesgado , entonces no hay un equivalente simple de cobertura "68-95-99.7", porque dependería de los parámetros de la distribución .)
fuente
Oh, eso es facil. No, no lo estás usando correctamente.
En primer lugar, está utilizando un conjunto de datos bastante pequeño. Tratar de descifrar el comportamiento estadístico de este conjunto de tamaños es ciertamente posible, pero los límites de confianza son (ejem) bastante grandes. Para conjuntos de datos pequeños, las desviaciones de las distribuciones esperadas son normales para el curso, y cuanto menor sea el conjunto, mayor será el problema. Recuerde, "La Ley de promedios no solo permite las coincidencias más escandalosas, sino que también las requiere".
Peor aún, el conjunto de datos particular que está utilizando simplemente no se parece mucho a una distribución normal. Piénselo: con una media de .498, tiene dos muestras por debajo de 0.1 y tres más a .748 o más. Entonces tienes un grupo de 3 puntos entre .17 y .22. Mirar este conjunto de datos en particular y argumentar que debe ser una distribución normal es un caso bastante bueno de argumento procrusteano. ¿Te parece una curva de campana? Es perfectamente posible que la población más grande siga una distribución normal o normal modificada, y un tamaño de muestra más grande resolvería el problema, pero no apostaría por ello, particularmente sin saber más sobre la población.
Digo normal modificado, ya que como Kevin Li ha señalado, técnicamente una distribución normal incluye todos los números reales. Como también se señaló en los comentarios a su respuesta, esto no impide aplicar dicha distribución en un rango limitado y obtener resultados útiles. Como dice el refrán, "Todos los modelos están equivocados. Algunos son útiles".
Pero este conjunto de datos en particular simplemente no parece inferir una distribución normal (incluso en un rango limitado) es una idea particularmente buena. Si sus 10 puntos de datos parecieran .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (media de 0.500), ¿asumiría una distribución normal?
fuente
En uno de los comentarios dice que usó "datos aleatorios" pero no dice de qué distribución. Si está hablando de las alturas de los humanos, se distribuyen aproximadamente de manera normal, pero sus datos no son remotamente apropiados para las alturas humanas: ¡los suyos son fracciones de cm!
Y sus datos no son remotamente normales. Supongo que usó una distribución uniforme con límites de 0 y 1. Y generó una muestra muy pequeña. Probemos con una muestra más grande:
entonces, ninguno de los datos está más allá de 2 sd de la media, porque eso está más allá de los límites de los datos. Y la porción dentro de 1 sd será aproximadamente 0.56.
fuente
A menudo, cuando tiene la restricción de que todas sus muestras deben ser positivas, vale la pena mirar el logaritmo de sus datos para ver si su distribución puede ser aproximada por una distribución lognormal.
fuente
Un cálculo de desviación estándar es relativo a la media. ¿Se puede aplicar la desviación estándar a los números que siempre son positivos? Absolutamente. Si tuviera que sumar 1000 a cada uno de los valores en su conjunto de muestra, vería el mismo valor de desviación estándar, pero se habría proporcionado más espacio para respirar por encima de cero.
Sin embargo, agregar una constante arbitraria a sus datos es superficial. Cuando utilice la desviación estándar para un conjunto de datos tan pequeño, deberá esperar resultados sin refinar. Considere la desviación estándar como una lente de cámara con enfoque automático: cuanto más tiempo (datos) le dé, más clara será la imagen. Si después de rastrear 1000000 puntos de datos, su desviación media y estándar sigue siendo la misma que con 10, entonces puedo comenzar a cuestionar la validez de su experimento.
fuente
Su histograma muestra que la distribución normal no es adecuada. Puedes probar lognormal u otra cosa que sea asimétrica y estrictamente positiva
fuente
El punto principal es que muchos de nosotros somos perezosos *, y la distribución normal es conveniente para trabajar con nosotros, las personas perezosas. Es fácil hacer cálculos usando la distribución normal y tiene una buena base matemática. Como tal, es un "modelo" sobre cómo trabajar con datos. Este modelo a menudo funciona sorprendentemente bien, y a veces cae de bruces.
Es muy obvio que sus muestras no indican una distribución normal en los datos. Entonces, la solución a su dilema es elegir un "modelo" diferente y trabajar con una distribución diferente. Las distribuciones de Weibull pueden estar en dirección, hay otras.
fuente
Básicamente está utilizando datos de relación en lugar de datos de intervalo. Los geógrafos pasan por esto todo el tiempo al calcular el S / D para la precipitación anual en un lugar específico (más de 100 años de puntos de muestra en el Centro Cívico de LA) o nevadas (más de 100 años de muestras de nevadas en Big Bear Lake). Solo podemos tener números positivos, así son las cosas.
fuente
En meteorología, las distribuciones de velocidades del viento se parecen mucho a esto. Por definición, las velocidades del viento tampoco son negativas.
Entonces, en su caso, definitivamente miraría la distribución de Weibull .
fuente
Comienza con "según la distribución normal" cuando sus datos claramente no están distribuidos normalmente, ese es el primer problema. Usted dice "No importa si es una distribución normal o no". Lo cual es una tontería absoluta. No puede usar declaraciones sobre datos distribuidos normales si sus datos no están distribuidos normalmente.
Y malinterpretas la declaración. "El 99.7% debe estar dentro de tres desviaciones estándar". Y el 99.7% de sus datos estaban dentro de tres desviaciones estándar. Aún mejor, fue 100% dentro de dos desviaciones estándar. Entonces la afirmación es cierta .
fuente