Obtuve los datos, tracé la distribución de los datos y uso la función qqnorm, pero parece que no sigue una distribución normal, entonces, ¿qué distribución debo usar para describir los datos?
Función empírica de distribución acumulativa
distributions
PepsiCo
fuente
fuente
Respuestas:
Le sugiero que pruebe las distribuciones Lambert W x F de cola pesada o las distribuciones asimétricas Lambert W x F (descargo de responsabilidad: soy el autor). En R se implementan en el paquete LambertW .
Surgen de una transformación paramétrica, no lineal de una variable aleatoria (RV)X∼F , a una versión de cola gruesa (sesgada) Y∼Lambert W×F . porF siendo gaussiano, el Lambert W x F de cola pesada se reduce a Tukey h distribución. (Aquí describiré la versión de cola pesada, la sesgada es análoga).
Tienen un parámetroδ≥0 (γ∈R para Lambert torcido W x F) que regula el grado de pesadez de la cola (asimetría). Opcionalmente, también puede elegir diferentes colas pesadas izquierda y derecha para lograr colas pesadas y asimetría. Transforma un estándar normalU∼N(0,1) a un Lambert W × Gaussiano Z por
Siδ>0 Z tiene colas más pesadas que U ; paraδ=0 , Z≡U .
Si no desea utilizar el gaussiano como línea de base, puede crear otras versiones Lambert W de su distribución favorita, por ejemplo, t, uniforme, gamma, exponencial, beta, ... Sin embargo, para su conjunto de datos un doble pesado- La distribución de cola de Lambert W x Gauss (o un sesgo Lambert W xt) parece ser un buen punto de partida.
En la práctica, por supuesto, tienes que estimarθ=(β,δ) , dónde β es el parámetro de su distribución de entrada (por ejemplo, β=(μ,σ) para un gaussiano, o β=(c,s,ν) para t distribución; ver papel para más detalles):
Dado que esta generación de cola pesada se basa en transformaciones biyectivas de RV / datos, puede eliminar las colas pesadas de los datos y verificar si son agradables ahora, es decir, si son gaussianos (y probarlo usando pruebas de normalidad).
Esto funcionó bastante bien para el conjunto de datos simulado. Le sugiero que lo pruebe y vea si también puede hacer
Gaussianize()
sus datos .Sin embargo, como señaló @whuber, la bimodalidad puede ser un problema aquí. Entonces, tal vez desee verificar los datos transformados (sin las colas pesadas) de lo que está sucediendo con esta bimodalidad y, por lo tanto, brindarle información sobre cómo modelar sus datos (originales).
fuente
Esto parece una distribución asimétrica que tiene colas más largas, en ambas direcciones, que la distribución normal.
Puede ver la cola larga porque los puntos observados son más extremos que los esperados en la distribución normal, tanto en el lado izquierdo como en el derecho (es decir, están por debajo y por encima de la línea, respectivamente).
Puede ver la asimetría porque, en la cola derecha, la medida en que los puntos son más extremos de lo que se esperaría en una distribución normal es mayor que en la cola izquierda.
No puedo pensar en ninguna distribución "enlatada" que tenga esta forma, pero no es demasiado difícil "cocinar" una distribución que tenga las propiedades indicadas anteriormente.
Aquí hay un ejemplo simulado (en
R
):La variable aquí es una mezcla 50/50 entre unexponential(1) y un exponential(2) se reflejó alrededor de 0. Esta elección se hizo porque será, por definición, asimétrica, ya que hay diferentes parámetros de velocidad, y ambos serán de cola larga en relación con la distribución normal, con la cola derecha más larga, ya que la velocidad en la mano derecha El lado es más grande.
Este ejemplo produce un qqplot bastante similar y un CDF empírico (cualitativamente) a lo que está viendo:
fuente
Para determinar qué distribución es la más adecuada, primero identificaría algunas distribuciones objetivo potenciales: pensaría en el proceso del mundo real que generó los datos, luego ajustaría algunas densidades potenciales a los datos y compararía sus puntajes de verosimilitud para ver qué distribución potencial se ajusta mejor. Esto es fácil en R con la función fitdistr en la biblioteca MASS.
Si sus datos son como la z de Macro, entonces:
Entonces esto da la distribución t como la mejor adaptación (de las que probamos) para los datos de Macro. confirme esto con algunos qqplots usando los parámetros de fitdistr.
Luego compare este gráfico con los otros ajustes de distribución.
fuente