Supongamos que tiene un conjunto de valores y desea saber si es más probable que se muestrearon de una distribución gaussiana (normal) o de una distribución lognormal.
Por supuesto, idealmente sabría algo sobre la población o sobre las fuentes de error experimental, por lo que tendría información adicional útil para responder la pregunta. Pero aquí, supongamos que solo tenemos un conjunto de números y ninguna otra información. ¿Qué es más probable: muestreo de un gaussiano o muestreo de una distribución lognormal? ¿Cuánto más probable? Lo que espero es un algoritmo para seleccionar entre los dos modelos y, con suerte, cuantificar la probabilidad relativa de cada uno.
normal-distribution
lognormal
Harvey Motulsky
fuente
fuente
Respuestas:
Puede adivinar mejor el tipo de distribución ajustando cada distribución (normal o logarítmica normal) a los datos por la máxima probabilidad, y luego comparando la probabilidad logarítmica en cada modelo: el modelo con la mayor probabilidad logarítmica es el mejor ajuste. Por ejemplo, en R:
Ahora genera números a partir de una distribución normal y ajusta una distribución normal por ML:
Produce:
Compare la probabilidad logarítmica para el ajuste de ML de distribuciones normales y lognormales:
Pruebe con una distribución lognormal:
La asignación no será perfecta, dependiendo de n, mean y sd:
fuente
p(X|\theta)
). No estamos transformando los datos. Imprimimos la distribución para la cual la probabilidad de observar los datos es más alta. Este enfoque es legítimo pero tiene la desventaja de que no inferimos la probabilidad del modelo dados los datosp(M|X)
, es decir, la probabilidad de que los datos provengan de una distribución normal vs lognormal (p. Ej. P (normal) = 0.1, p (lognormal) = 0.9) a diferencia del enfoque bayesiano.La parte difícil es obtener la probabilidad marginal ,
Ejemplo:
Según Murphy (2007) (Ecuación 203), la probabilidad marginal de la distribución normal viene dada por
Yo uso los mismos hiperparámetros para la distribución log-normal,
el posterior se comporta así:
Al implementar las ecuaciones, sería una buena idea trabajar con densidades logarítmicas en lugar de densidades. Pero de lo contrario debería ser bastante sencillo. Aquí está el código que usé para generar las tramas:
https://gist.github.com/lucastheis/6094631
fuente
Parece que está buscando algo bastante pragmático para ayudar a los analistas que probablemente no sean estadísticos profesionales y que necesiten algo que los impulse a hacer lo que deberían ser técnicas exploratorias estándar, como observar gráficos qq, gráficos de densidad, etc.
En cuyo caso, ¿por qué no simplemente hacer una prueba de normalidad (Shapiro-Wilk o lo que sea) en los datos originales, y una en el registro de datos transformados, y si el segundo valor p es más alto, active un indicador para que el analista considere usar una transformación de registro ? Como beneficio adicional, escupe un gráfico de 2 x 2 de la gráfica de línea de densidad y la gráfica de qqnorm de los datos sin procesar y transformados.
Esto técnicamente no responderá a su pregunta sobre la probabilidad relativa, pero me pregunto si es todo lo que necesita.
fuente