Tengo algunos datos y estaba tratando de ajustarle una curva suave. Sin embargo, no quiero imponer demasiadas creencias previas o preconcepciones demasiado fuertes (excepto las implicadas por el resto de mi pregunta) sobre ella, o cualquier distribución específica.
Solo quería ajustarlo con una curva suave (o tener una buena estimación de la distribución de probabilidad de la que podría haber salido). El único método que conozco para hacer esto es la estimación de densidad del kernel (KDE). Me preguntaba si la gente conocía otros métodos para estimar tal cosa. Solo quería una lista de ellos y de allí puedo hacer mi propia investigación para descubrir cuáles quiero usar.
¡Dar cualquier enlace o buenas referencias (o intuiciones sobre cuáles son buenas) siempre son bienvenidas (y se alienta)!
fuente
Respuestas:
No especificas que estás hablando de variables aleatorias continuas, pero supongo, ya que mencionas KDE, que lo intentas.
Otros dos métodos para ajustar densidades suaves:
1) estimación de densidad log-spline. Aquí se ajusta una curva spline a la densidad logarítmica.
Un ejemplo de papel:
Kooperberg y Stone (1991),
"Un estudio de estimación de la densidad de la línea de registro",
Computational Statistics & Data Analysis , 12 , 327-347
Kooperberg proporciona un enlace a un pdf de su artículo aquí , en "1991".
Si usa R, hay un paquete para esto. Un ejemplo de un ajuste generado por él está aquí . A continuación se muestra un histograma de los registros del conjunto de datos allí, y reproducciones de la línea de registro y las estimaciones de densidad del núcleo de la respuesta:
Estimación de la densidad de la línea de registro:
Estimación de la densidad del grano:
2) Modelos de mezcla finita . Aquí se elige una familia conveniente de distribuciones (en muchos casos, la normal), y se supone que la densidad es una mezcla de varios miembros diferentes de esa familia. Tenga en cuenta que las estimaciones de densidad del núcleo pueden verse como una mezcla de este tipo (con un núcleo gaussiano, son una mezcla de gaussianos).
En términos más generales, estos pueden ajustarse a través de ML, o el algoritmo EM, o en algunos casos a través de la coincidencia de momentos, aunque en circunstancias particulares pueden ser posibles otros enfoques.
(Hay una gran cantidad de paquetes R que realizan diversas formas de modelado de mezclas).
Agregado en edición:
3) Histogramas desplazados promediados
(que no son literalmente suaves, pero tal vez lo suficientemente suaves para sus criterios no declarados):
Diagrama tomado de esta respuesta . Como digo allí, si vas a ese nivel de esfuerzo, también podrías hacer una estimación de la densidad del núcleo.
fuente
Sujeto a los comentarios anteriores sobre suposiciones como la suavidad, etc. Puede hacer una estimación de densidad no paramétrica bayesiana utilizando modelos de mezcla con el proceso de Dirichlet anterior.
La imagen a continuación muestra los contornos de densidad de probabilidad recuperados de la estimación de MCMC de un modelo bivariado de mezcla DP normal para los datos de "antiguos fieles". Los puntos se colorean IIRC de acuerdo con la agrupación obtenida en el último paso de MCMC.
El 2010 ofrece algunos buenos antecedentes.
fuente
Una opción popular son los bosques aleatorios (ver concretamente el capítulo cinco de " Bosques de decisión: un marco unificado para clasificación, regresión, estimación de densidad, aprendizaje múltiple y aprendizaje semi-supervisado ").
Describe en detalle el algoritmo y lo evalúa contra otras opciones populares como k-means, GMM y KDE. Random Forest se implementan en R y scikit-learn.
Random Forest son árboles de decisión en bolsas de una manera inteligente.
fuente