Acabo de pensar en una forma ordenada (no necesariamente buena) de crear estimaciones de densidad unidimensionales y mi pregunta es:
¿Este método de estimación de densidad tiene un nombre? Si no, ¿es un caso especial de algún otro método en la literatura?
Aquí está el método: Tenemos un vector que suponemos se extrae de alguna distribución desconocida que nos gustaría estimar. Una forma de hacerlo es tomar todos los pares de valores posibles en X y para cada par [ x i , x j ] i ≠ j ajustar una distribución Normal usando la máxima verosimilitud. La estimación de densidad resultante es entonces la distribución de la mezcla que consiste en todas las normales resultantes, donde a cada normal se le asigna el mismo peso.
La siguiente figura ilustra el uso de este método en el vector . Aquí los círculos son los puntos de datos, las normales de colores son las distribuciones de máxima probabilidad estimadas usando cada par posible y la línea negra gruesa muestra la estimación de densidad resultante (es decir, la distribución de la mezcla).
Por cierto, es realmente fácil implementar un método en R que extraiga una muestra de la distribución resultante de la mezcla:
# Generating some "data"
x <- rnorm(30)
# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
pair <- sample(x, size = 2)
rnorm(1, mean(pair), sd(pair))
})
# Plotting the density estimate compared with
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')
fuente
x <- c(rnorm(30), rnorm(30, 10))
Respuestas:
Esta es una idea intrigante, porque el estimador de la desviación estándar parece ser menos sensible a los valores atípicos que los enfoques habituales de raíz cuadrática media. Sin embargo, dudo que este estimador haya sido publicado. Hay tres razones por las cuales: es computacionalmente ineficiente, está sesgado e incluso cuando se corrige el sesgo, es estadísticamente ineficiente (pero solo un poco). Esto se puede ver con un pequeño análisis preliminar, así que hagamos eso primero y luego saquemos las conclusiones.
Análisis
y
Por lo tanto, el método descrito en la pregunta es
cuál es el estimador habitual de la media, y
Conclusiones
R
. (En otras plataformas, los requisitos de RAM serían mucho menores, tal vez a un bajo costo en tiempo de cálculo).Es estadísticamente ineficiente. Para darle el mejor resultado, consideremos la versión imparcial y compárela con la versión imparcial del estimador de mínimos cuadrados o de máxima verosimilitud
R
Después
Código
fuente