¿Alguien podría explicar en inglés sencillo cuál es la diferencia entre las reglas generales de Scott y Silverman para la selección de ancho de banda? Específicamente, ¿ cuándo es uno mejor que el otro? ¿Está relacionado con la distribución subyacente? ¿Número de muestras?
PD: me estoy refiriendo al código en SciPy .
kernel-smoothing
xrfang
fuente
fuente
Respuestas:
Los comentarios en el código parecen terminar definiendo los dos esencialmente de manera idéntica (aparte de una diferencia relativamente pequeña en la constante).
nclass.scott
El 1.059 en lo que el código llama la "estimación de Scott" está en el libro (anterior) de Silverman (consulte la página 45 de la referencia de Silverman en su enlace; la derivación de Scott se encuentra en las páginas 130-131 del libro al que hacen referencia). Proviene de una estimación de la teoría normal.
Por razones similares a las que sugerí antes, Silverman continúa sugiriendo reducir 1.059 (de hecho, usa 1.06 en todo momento, no 1.059, como hace Scott en su libro). Él elige un valor reducido que no pierde más del 10% de eficiencia en IMSE en la normalidad, que es de donde proviene el 0.9.
Por lo tanto, ambos anchos de depósito se basan en el ancho de depósito óptimo de IMSE en la normalidad, uno justo en el óptimo, el otro (aproximadamente un 15% más pequeño, para obtener dentro del 90% de la eficiencia del óptimo en la normalidad). [Los llamaría a ambos "Silverman" estimados. No tengo idea de por qué nombran el 1.059 para Scott.]
En mi opinión, ambos son demasiado grandes. No uso histogramas para obtener estimaciones de densidad óptimas para IMSE. Si eso (obtener estimaciones de la densidad que son óptimas en el sentido IMSE) fuera lo que quisiera hacer, no quisiera usar histogramas para ese propósito.
Los histogramas deben estar errando en el lado más ruidoso (deje que el ojo haga el alisado necesario). Casi siempre doblo (o más) el número predeterminado de bins que dan este tipo de reglas. Por lo tanto, no usaría 1.06 o 0.9, tendería a usar algo alrededor de 0.5, tal vez menos en tamaños de muestra realmente grandes.
Realmente hay muy poco para elegir entre ellos, ya que ambos dan muy pocos contenedores para ser muy útiles para encontrar lo que está sucediendo en los datos (en los cuales, al menos en tamaños de muestra pequeños, vea aquí .
[1]: Scott, DW (1979), "Sobre histogramas óptimos y basados en datos" , Biometrika , 66 , 605-610.
fuente