Tengo la población de muestra de la máxima amplitud registrada de cierta señal. La población es de unos 15 millones de muestras. Produje un histograma de la población, pero no puedo adivinar la distribución con dicho histograma.
EDITAR1: el archivo con valores de muestra sin procesar está aquí: datos sin procesar
¿Alguien puede ayudar a estimar la distribución con el siguiente histograma:
distributions
histogram
mbaitoff
fuente
fuente
Respuestas:
Utilice fitdistrplus:
Aquí está el enlace de CRAN a fitdistrplus.
Aquí está el viejo enlace de viñeta para fitdistrplus.
Si el enlace de la viñeta no funciona, busque "Uso de la biblioteca fitdistrplus para especificar una distribución de datos".
La viñeta hace un buen trabajo al explicar cómo usar el paquete. Puede ver cómo encajan varias distribuciones en un corto período de tiempo. También produce un diagrama de Cullen / Frey.
fuente
plotdist
comando? ¿Cómo puedo obtener el diagrama de Cullen / Frey?descdist()
. Actualicé la publicación anterior para incluir algo de código y un enlace a la viñeta anterior. No pude hacer que el enlace de la viñeta anterior funcione. Entonces, busque en Google lo siguiente: "Uso de la biblioteca fitdistrplus para especificar una distribución a partir de datos". Es un archivo .pdf.f1g <- fitdist(x1, "gamma")
ajusta una distribución gamma a los datos originalesx1
y los almacenaf1g
. El gráfico superior izquierdoplot(f1g)
muestra un histograma para los datos originalesx1
como barras, y el diagrama de densidad gamma ajustadof1g
como la línea continua. El gráfico de densidad (línea continua) se dibuja sobre el histograma como una indicación de qué tan bien el "ajuste" representa los datos.Entonces es muy probable que pueda rechazar cualquier distribución particular de una forma simple y cerrada.
Incluso esa pequeña protuberancia a la izquierda del gráfico es probable que sea suficiente para hacernos decir 'claramente no tal y tal'.
Por otro lado, probablemente se aproxima bastante bien por una serie de distribuciones comunes; Los candidatos obvios son cosas como lognormal y gamma, pero hay muchos otros. Si observa el registro de la variable x, probablemente pueda decidir si el registro logarítmico está bien a la vista (después de tomar registros, el histograma debería verse simétrico).
Si el registro queda sesgado, considere si Gamma está bien, si está sesgado a la derecha, considere si Gamma inverso o (incluso más sesgado) Gaussiano inverso está bien. Pero este ejercicio consiste más en encontrar una distribución lo suficientemente cercana para vivir; Ninguna de estas sugerencias tiene todas las características que parecen estar presentes allí.
Si tiene alguna teoría para apoyar una elección, descarte toda esta discusión y úsela.
fuente
No estoy seguro de por qué desea clasificar una muestra a una distribución específica con un tamaño de muestra tan grande; parsimonia, comparándola con otra muestra, buscando interpretación física de los parámetros?
La mayoría de los paquetes estadísticos (R, SAS, Minitab) permiten trazar datos en un gráfico que produce una línea recta si los datos provienen de una distribución particular. He visto gráficos que producen una línea recta si los datos son normales (log normal después de una transformación logarítmica), Weibull y chi-cuadrado vienen a la mía de inmediato. Esta técnica le permitirá ver valores atípicos y le dará la posibilidad de asignar razones por las cuales los puntos de datos son atípicos. En R, la gráfica de probabilidad normal se llama qqnorm.
fuente