¿Cómo ajusto los parámetros de una distribución t, es decir, los parámetros correspondientes a la 'media' y 'desviación estándar' de una distribución normal? Supongo que se llaman 'media' y 'escala / grados de libertad' para una distribución t?
El siguiente código a menudo produce errores de "error de optimización".
library(MASS)
fitdistr(x, "t")
¿Tengo que escalar x primero o convertirlo en probabilidades? ¿Cómo mejor hacer eso?
r
distributions
maximum-likelihood
fitting
robust
usuario12719
fuente
fuente
Respuestas:
fitdistr
utiliza técnicas de máxima verosimilitud y optimización para encontrar parámetros de una distribución dada. A veces, especialmente para la distribución t, como notó @ user12719, la optimización en la forma:falla con un error.
En este caso, debe ayudar al optimizador proporcionando el punto de partida y el límite inferior para comenzar a buscar parámetros óptimos:
Tenga en cuenta que
df=3
es su mejor estimación de lo quedf
podría ser un "óptimo" . Después de proporcionar esta información adicional, su error desaparecerá.Un par de extractos para ayudarlo a comprender mejor la mecánica interna de
fitdistr
:...
fuente
MASS, el libro (4a edición, página 110) desaconseja tratar de estimar , el parámetro de grados de libertad en la distribución con máxima probabilidad (con algunas referencias bibliográficas: Lange et al. (1989), "Modelo estadístico robusto Usando la distribución t", JASA , 84 , 408 , y Fernandez & Steel (1999), "multivariante Student t modelos de regresión: trampas y la inferencia", Biometrika , 86 , 1 ).ν t
La razón es que la función de probabilidad para basada en la función de densidad t, puede ser ilimitada y, en esos casos, no dará un máximo bien definido. Veamos un ejemplo artificial donde se conoce la ubicación y la escala (como la distribución estándar ) y solo se desconocen los grados de libertad. A continuación se muestra un código R, que simula algunos datos, define la función de probabilidad de registro y la traza:ν t
Si juega con este código, puede encontrar algunos casos en los que hay un máximo bien definido, especialmente cuando el tamaño de la muestra es grande. ¿Pero el estimador de máxima verosimilitud es bueno?n
Probemos algunas simulaciones:
Mostrar la estimación es muy inestable (mirando el histograma, una parte considerable de los valores estimados se encuentra en el límite superior dado para optimizar 200).
Repetir con un tamaño de muestra más grande:
lo cual es mucho mejor, pero la media todavía está muy por encima del verdadero valor de 2.5.
Entonces recuerde que esta es una versión simplificada del problema real donde los parámetros de ubicación y escala también deben estimarse.
Si la razón de usar la distribución es "solidificar", entonces estimar partir de los datos puede destruir la robustez.t ν
fuente
En la ayuda para fitdistr está este ejemplo:
indicando que solo necesita un valor para df. Pero eso supone estandarización.
Para un mayor control, también muestran
donde los parámetros serían m = media, s = desviación estándar, df = grados de libertad
fuente
\mu
y\sigma
también. Hace +1 hace mucho, por cierto.df
es la causa del error, y la respuesta correcta debería proporcionar alguna receta para encontrarlo.df=9
es bueno en su ejemplo e irrelevante aquí.