Esta pregunta es provocada por la discusión en otra parte .
Los núcleos variables a menudo se usan en regresión local. Por ejemplo, loess se usa ampliamente y funciona bien como una regresión más suave, y se basa en un núcleo de ancho variable que se adapta a la escasez de datos.
Por otro lado, generalmente se piensa que los núcleos variables conducen a estimadores deficientes en la estimación de la densidad del núcleo (ver Terrell y Scott, 1992 ).
¿Existe una razón intuitiva por la que funcionarían bien para la regresión pero no para la estimación de densidad?
nonparametric
smoothing
kernel-smoothing
loess
Rob Hyndman
fuente
fuente
Respuestas:
Parece que hay dos preguntas diferentes aquí, que intentaré dividir:
1) ¿en qué se diferencia KS, el suavizado de kernel, de KDE, la estimación de densidad de kernel? Bueno, digamos que tengo un estimador / suavizador / interpolador
y también se conoce la densidad "real" f () en el xi. Luego, la ejecución
est( x, densityf )
debe dar una estimación de la densidadf (): un KDE. Bien puede ser que los KS y los KDE se evalúen de manera diferente, diferentes criterios de suavidad, diferentes normas, pero no veo una diferencia fundamental. Qué me estoy perdiendo ?2) ¿Cómo afecta la dimensión a la estimación o alisamiento, intuitivamente ? Aquí hay un ejemplo de juguete, solo para ayudar a la intuición. Considere una caja de N = 10000 puntos en una cuadrícula uniforme, y una ventana, una línea o cuadrado o cubo, de W = 64 puntos dentro de ella:
Aquí la "relación de lado" es el lado de la ventana / lado de la caja, y "dist para ganar" es una estimación aproximada de la distancia media de un punto aleatorio en el cuadro a una ventana colocada al azar.
¿Tiene esto algún sentido? (Una imagen o applet realmente ayudaría: ¿alguien?)
La idea es que una ventana de tamaño fijo dentro de un cuadro de tamaño fijo tenga una proximidad muy diferente al resto del cuadro, en 1d 2d 3d 4d. Esto es para una cuadrícula uniforme; tal vez la fuerte dependencia de la dimensión se traslada a otras distribuciones, tal vez no. De todos modos, parece un fuerte efecto general, un aspecto de la maldición de la dimensionalidad.
fuente
La estimación de la densidad del núcleo significa integración sobre una ventana local (difusa), y el suavizado del núcleo significa promediar sobre una ventana local (difusa).
Suavizado del núcleo: .y~( x ) ∝ 1ρ ( x )∑ K( | | x - xyoEl | El | )yyo
¿Cómo son estos lo mismo?
Considere las muestras de una función de valor booleano, es decir, un conjunto que contiene "muestras verdaderas" (cada una con valor unitario) y "muestras falsas" (cada una con valor cero). Suponiendo que la densidad de la muestra general es constante (como una cuadrícula), el promedio local de esta función es idénticamente proporcional a la densidad local (parcial) del subconjunto de valores verdaderos. (Las muestras falsas nos permiten ignorar constantemente el denominador de la ecuación de suavizado, mientras agregamos términos cero a la suma, de modo que se simplifique en la ecuación de estimación de densidad).
Del mismo modo, si sus muestras se representaron como elementos dispersos en un ráster booleano, podría estimar su densidad aplicando un filtro de desenfoque al ráster.
¿Cómo son estos diferentes?
Intuitivamente, puede esperar que la elección del algoritmo de suavizado dependa de si las mediciones de la muestra contienen o no un error de medición significativo.
En un extremo (sin ruido) simplemente necesita interpolar entre los valores exactamente conocidos en las ubicaciones de muestra. Digamos, por triangulación de Delaunay (con interpolación bilineal por partes).
La estimación de densidad se asemeja al extremo opuesto, es completamente ruido, ya que la muestra aislada no se acompaña de una medición del valor de densidad en ese punto. (Por lo tanto, no hay nada que interpolar simplemente. Podría considerar medir las áreas de celdas del diagrama de Voronoi, pero la suavización / eliminación de ruido seguirá siendo importante ...)
El punto es que, a pesar de la similitud, estos son problemas fundamentalmente diferentes, por lo que diferentes enfoques pueden ser óptimos.
fuente