¿Alguien puede informar sobre su experiencia con un estimador de densidad de núcleo adaptativo?
(Hay muchos sinónimos: adaptativo | variable | ancho variable, KDE | histograma | interpolador ...)
La estimación de densidad de kernel variable
dice "variamos el ancho del kernel en diferentes regiones del espacio muestral. Hay dos métodos ..." en realidad, más: vecinos dentro de cierto radio, KNN vecinos más cercanos (K generalmente fijos), árboles Kd, multigrid ...
Por supuesto, ningún método único puede hacer todo, pero los métodos adaptativos parecen atractivos.
Vea, por ejemplo, la bonita imagen de una malla adaptativa 2d en el
método de elementos finitos .
Me gustaría saber qué funcionó / qué no funcionó para datos reales, especialmente> = 100k puntos de datos dispersos en 2d o 3d.
Agregado el 2 de noviembre: aquí hay una gráfica de una densidad "grumosa" (por partes x ^ 2 * y ^ 2), una estimación del vecino más cercano y KDE gaussiano con el factor de Scott. Si bien un (1) ejemplo no prueba nada, sí muestra que NN puede adaptarse a colinas afiladas razonablemente bien (y, usando árboles KD, es rápido en 2d, 3d ...)
fuente
Respuestas:
La intuición detrás de estos resultados es que si no está en una configuración muy escasa, entonces, la densidad local simplemente no varía lo suficiente como para que la ganancia en el sesgo supere la pérdida de eficiencia (y, por lo tanto, el AMISE del núcleo de ancho variable aumenta en relación con el AMISE de ancho fijo). Además, dado el gran tamaño de muestra que tiene (y las pequeñas dimensiones), el núcleo de ancho fijo ya será muy local, lo que disminuirá cualquier ganancia potencial en términos de sesgo.
fuente
El papel
Maxim V. Shapovalov, Roland L. Dunbrack Jr., Una biblioteca giratoria dependiente de columna vertebral suavizada para proteínas derivadas de estimaciones y regresiones de densidad adaptativa del núcleo, Estructura, Volumen 19, Número 6, 8 de junio de 2011, Páginas 844-858, ISSN 0969- 2126, 10.1016 / j.str.2011.03.019.
utiliza la estimación adaptativa de la densidad del kernel para que su estimación de la densidad sea uniforme en las regiones donde los datos son escasos.
fuente
Loess / lowess es básicamente un método KDE variable, con el ancho del núcleo establecido por el enfoque de vecino más cercano. Descubrí que funciona bastante bien, ciertamente mucho mejor que cualquier modelo de ancho fijo cuando la densidad de los puntos de datos varía notablemente.
Una cosa a tener en cuenta con KDE y los datos multidimensionales es la maldición de la dimensionalidad. En igualdad de condiciones, hay muchos menos puntos dentro de un radio establecido cuando p ~ 10, que cuando p ~ 2. Esto puede no ser un problema para usted si solo tiene datos en 3D, pero es algo a tener en cuenta.
fuente