Diferentes métodos no paramétricos para estimar la distribución de probabilidad de los datos.

Tengo algunos datos y estaba tratando de ajustarle una curva suave. Sin embargo, no quiero imponer demasiadas creencias previas o preconcepciones demasiado fuertes (excepto las implicadas por el resto de mi pregunta) sobre ella, o cualquier distribución específica.

Solo quería ajustarlo con una curva suave (o tener una buena estimación de la distribución de probabilidad de la que podría haber salido). El único método que conozco para hacer esto es la estimación de densidad del kernel (KDE). Me preguntaba si la gente conocía otros métodos para estimar tal cosa. Solo quería una lista de ellos y de allí puedo hacer mi propia investigación para descubrir cuáles quiero usar.

¡Dar cualquier enlace o buenas referencias (o intuiciones sobre cuáles son buenas) siempre son bienvenidas (y se alienta)!

estimation nonparametric references Pinocho
fuente

" No quería imponer ninguna creencia previa ", entonces no puedes asumir que es suave o incluso continua (esas serían creencias previas). En cuyo caso, el ecdf es su único recurso.

Glen_b -Reinstale a Monica el

Creo que es una mejor manera de formular mi pregunta. Quise decir que no quiero asumir su palabra, Bernoulli o algo que podría ser restrictivo. No sé qué es ecdf por cierto. Si tiene una buena sugerencia o lista de sugerencias, no dude en publicarla.

Pinocho

He actualizado mi pregunta. ¿Eso está mejor? ¿Mas claro? Por cierto, no hay una respuesta correcta a mi pregunta, solo buenas y menos útiles. :)

Pinocho

ecdf = cdf empírico , lo siento. Solo podemos responder a la pregunta que hace, no a la que quería hacer, por lo que debe tener cuidado de ser claro cuando exprese sus suposiciones.

Glen_b -Reinstate a Monica el

Un histograma normalizado puede verse como una estimación de densidad

Dason

Respuestas:

No especificas que estás hablando de variables aleatorias continuas, pero supongo, ya que mencionas KDE, que lo intentas.

Otros dos métodos para ajustar densidades suaves:

1) estimación de densidad log-spline. Aquí se ajusta una curva spline a la densidad logarítmica.

Un ejemplo de papel:

Kooperberg y Stone (1991),
"Un estudio de estimación de la densidad de la línea de registro",
Computational Statistics & Data Analysis , 12 , 327-347

Kooperberg proporciona un enlace a un pdf de su artículo aquí , en "1991".

Si usa R, hay un paquete para esto. Un ejemplo de un ajuste generado por él está aquí . A continuación se muestra un histograma de los registros del conjunto de datos allí, y reproducciones de la línea de registro y las estimaciones de densidad del núcleo de la respuesta:

histograma de datos de registro

Estimación de la densidad de la línea de registro:

diagrama de línea de registro

Estimación de la densidad del grano:

estimación de la densidad del grano

2) Modelos de mezcla finita . Aquí se elige una familia conveniente de distribuciones (en muchos casos, la normal), y se supone que la densidad es una mezcla de varios miembros diferentes de esa familia. Tenga en cuenta que las estimaciones de densidad del núcleo pueden verse como una mezcla de este tipo (con un núcleo gaussiano, son una mezcla de gaussianos).

En términos más generales, estos pueden ajustarse a través de ML, o el algoritmo EM, o en algunos casos a través de la coincidencia de momentos, aunque en circunstancias particulares pueden ser posibles otros enfoques.

(Hay una gran cantidad de paquetes R que realizan diversas formas de modelado de mezclas).

Agregado en edición:

3) Histogramas desplazados promediados
(que no son literalmente suaves, pero tal vez lo suficientemente suaves para sus criterios no declarados):

$b$ $b/k$ $k$ $b/k$

$x$

Histograma desplazado promediado

Diagrama tomado de esta respuesta . Como digo allí, si vas a ese nivel de esfuerzo, también podrías hacer una estimación de la densidad del núcleo.

Glen_b -Reinstate a Monica
fuente

Para agregar a esto. Para el modelo de mezcla - Creo que se puede encajar una mezcla de 2, luego 3, luego 4 distribuciones y parada después no hay un aumento significativo en la probabilidad log-o algo así ...

delgadísimas

Sujeto a los comentarios anteriores sobre suposiciones como la suavidad, etc. Puede hacer una estimación de densidad no paramétrica bayesiana utilizando modelos de mezcla con el proceso de Dirichlet anterior.

La imagen a continuación muestra los contornos de densidad de probabilidad recuperados de la estimación de MCMC de un modelo bivariado de mezcla DP normal para los datos de "antiguos fieles". Los puntos se colorean IIRC de acuerdo con la agrupación obtenida en el último paso de MCMC.

ingrese la descripción de la imagen aquí

El 2010 ofrece algunos buenos antecedentes.

conjeturas
fuente

Una opción popular son los bosques aleatorios (ver concretamente el capítulo cinco de " Bosques de decisión: un marco unificado para clasificación, regresión, estimación de densidad, aprendizaje múltiple y aprendizaje semi-supervisado ").

Describe en detalle el algoritmo y lo evalúa contra otras opciones populares como k-means, GMM y KDE. Random Forest se implementan en R y scikit-learn.

Random Forest son árboles de decisión en bolsas de una manera inteligente.

jpmuc
fuente