Estoy tratando de comprender mejor la estimación de la densidad del kernel.
Usando la definición de Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition
Tomemos como una función rectangular que da si está entre y y contrario, y (tamaño de la ventana) es 1.
Entiendo que la densidad es una convolución de dos funciones, pero no estoy seguro de saber cómo definir estas dos funciones. Uno de ellos debería (probablemente) ser una función de los datos que, para cada punto en R, nos dice cuántos puntos de datos tenemos en esa ubicación (principalmente ). Y la otra función probablemente debería ser alguna modificación de la función del núcleo, combinada con el tamaño de la ventana. Pero no estoy seguro de cómo definirlo.
¿Alguna sugerencia?
A continuación se muestra un código R de ejemplo que (sospecho) replica los ajustes que definí anteriormente (con una mezcla de dos gaussianos ), en los que espero ver una "prueba" de que las funciones que se enredarán son como sospechamos .
# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)
fuente
Respuestas:
Corresponde a cualquier lote de datos es su "función de densidad empírica"X=(x1,x2,…,xn)
Aquí, es una "función generalizada". A pesar de ese nombre, no es una función en absoluto: es un nuevo objeto matemático que solo puede usarse dentro de integrales. Su propiedad definitoria es que para cualquier función de soporte compacto que sea continua en una vecindad de ,δ g 0
(Los nombres para incluyen la medida "atómica" o "punto" y la " función delta de Dirac " . En el siguiente cálculo, este concepto se extiende para incluir funciones que son continuas solo desde un lado).δ gg
Justificando esta caracterización de es la observación de quefX
donde es el CDF empírico habitual e es la función característica habitual (igual a donde su argumento es verdadero y caso contrario). (Me salteo un argumento limitante elemental necesario para pasar de funciones de soporte compacto a funciones definidas sobre ; porque solo ser definido para valores dentro del rango de , que es compacto, esto no es un problema).FX I 1 0 R I X
La convolución de con cualquier otra función se da, por definición, comofX(x) k
Dejando (que es lo mismo que para los núcleos simétricos, y la mayoría de los núcleos son simétricos) obtenemos el resultado reclamado: la fórmula de Wikipedia es una convolución.k(x)=Kh(−x) Kh(x)
fuente