Necesita ayuda para identificar una distribución por su histograma

13

Tengo la población de muestra de la máxima amplitud registrada de cierta señal. La población es de unos 15 millones de muestras. Produje un histograma de la población, pero no puedo adivinar la distribución con dicho histograma.

EDITAR1: el archivo con valores de muestra sin procesar está aquí: datos sin procesar

¿Alguien puede ayudar a estimar la distribución con el siguiente histograma: ingrese la descripción de la imagen aquí

mbaitoff
fuente
1
no es que importe drásticamente, pero cuando se usan histogramas generalmente ayuda a tener la frecuencia relativa en lugar de la frecuencia absoluta en el eje y.
posdef
es decir, para proporcionar 120000/15000000 = 0.008 en lugar de 120000 en eje vertical?
mbaitoff
@mbaitoff: sus comentarios a la respuesta de schenectady indican que está menos interesado en obtener el nombre de la distribución pero en averiguar POR QUÉ los valores se distribuyen de esta manera. Es esto correcto ?
steffen
1
@mbaitoff, no estoy seguro de que se ajuste a su aplicación, pero en áreas de aplicación relacionadas, las magnitudes de ondas que experimentan (muchas) reflexiones aleatorias entre la fuente y el receptor se modelan mediante una distribución de Rayleigh o una de sus generalizaciones, por ejemplo, Rice o Nakagami- distribuciones. metro
cardenal
2
El interés real en estos datos radica en la docena o más de picos: la cantidad de datos es lo suficientemente grande como para que sean reales , en el sentido de que son evidencia de modos locales reales. Parece que hay un amplio conjunto de datos aquí con una gran cantidad de información que se pasaría por alto si se utilizara una fórmula paramétrica simple para resumir su distribución.
whuber

Respuestas:

23

Utilice fitdistrplus:

Aquí está el enlace de CRAN a fitdistrplus.

Aquí está el viejo enlace de viñeta para fitdistrplus.

Si el enlace de la viñeta no funciona, busque "Uso de la biblioteca fitdistrplus para especificar una distribución de datos".

La viñeta hace un buen trabajo al explicar cómo usar el paquete. Puede ver cómo encajan varias distribuciones en un corto período de tiempo. También produce un diagrama de Cullen / Frey.

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

bill_080
fuente
(+1): No conocía ese paquete antes.
steffen
1
(+1 (no sabía que se llamaba diagrama de Cullen / Frey. Tuve que
pensarlo
la segunda imagen es con plotdistcomando? ¿Cómo puedo obtener el diagrama de Cullen / Frey?
juanpablo
1
@juanpablo - Prueba descdist(). Actualicé la publicación anterior para incluir algo de código y un enlace a la viñeta anterior. No pude hacer que el enlace de la viñeta anterior funcione. Entonces, busque en Google lo siguiente: "Uso de la biblioteca fitdistrplus para especificar una distribución a partir de datos". Es un archivo .pdf.
bill_080
3
@juanpablo: la declaración f1g <- fitdist(x1, "gamma")ajusta una distribución gamma a los datos originales x1y los almacena f1g. El gráfico superior izquierdo plot(f1g)muestra un histograma para los datos originales x1como barras, y el diagrama de densidad gamma ajustado f1gcomo la línea continua. El gráfico de densidad (línea continua) se dibuja sobre el histograma como una indicación de qué tan bien el "ajuste" representa los datos.
bill_080
6

La población es de unos 15 millones de muestras.

Entonces es muy probable que pueda rechazar cualquier distribución particular de una forma simple y cerrada.

Incluso esa pequeña protuberancia a la izquierda del gráfico es probable que sea suficiente para hacernos decir 'claramente no tal y tal'.

Por otro lado, probablemente se aproxima bastante bien por una serie de distribuciones comunes; Los candidatos obvios son cosas como lognormal y gamma, pero hay muchos otros. Si observa el registro de la variable x, probablemente pueda decidir si el registro logarítmico está bien a la vista (después de tomar registros, el histograma debería verse simétrico).

Si el registro queda sesgado, considere si Gamma está bien, si está sesgado a la derecha, considere si Gamma inverso o (incluso más sesgado) Gaussiano inverso está bien. Pero este ejercicio consiste más en encontrar una distribución lo suficientemente cercana para vivir; Ninguna de estas sugerencias tiene todas las características que parecen estar presentes allí.

Si tiene alguna teoría para apoyar una elección, descarte toda esta discusión y úsela.

Glen_b -Reinstate a Monica
fuente
Wow, qué tipo de intuición es eso sobre el asunto; ¡bonito! :)
onurcanbektas
1

No estoy seguro de por qué desea clasificar una muestra a una distribución específica con un tamaño de muestra tan grande; parsimonia, comparándola con otra muestra, buscando interpretación física de los parámetros?

La mayoría de los paquetes estadísticos (R, SAS, Minitab) permiten trazar datos en un gráfico que produce una línea recta si los datos provienen de una distribución particular. He visto gráficos que producen una línea recta si los datos son normales (log normal después de una transformación logarítmica), Weibull y chi-cuadrado vienen a la mía de inmediato. Esta técnica le permitirá ver valores atípicos y le dará la posibilidad de asignar razones por las cuales los puntos de datos son atípicos. En R, la gráfica de probabilidad normal se llama qqnorm.

Schenectady
fuente
Buena idea sugiriendo qqplot. Sin embargo, creo que su explicación de la técnica es un poco vaga / difícil de entender. ¿Puedes proporcionar algún código R ejemplar? Esto aumentaría drásticamente el valor de la respuesta.
steffen
Espero que alguien se encuentre con la imagen como la mía e investigue la distribución subyacente, porque los valores tienen una base física.
mbaitoff
Estoy investigando los antecedentes físicos de la distribución de la muestra: cómo se distribuye y por qué.
mbaitoff