Ancho de banda del núcleo: las reglas de Scott contra Silverman

14

¿Alguien podría explicar en inglés sencillo cuál es la diferencia entre las reglas generales de Scott y Silverman para la selección de ancho de banda? Específicamente, ¿ cuándo es uno mejor que el otro? ¿Está relacionado con la distribución subyacente? ¿Número de muestras?

PD: me estoy refiriendo al código en SciPy .

xrfang
fuente
1
No quiero saber python tampoco. Solo quiero ayuda para comprender cuándo usar qué regla y por qué.
xrfang

Respuestas:

11

Los comentarios en el código parecen terminar definiendo los dos esencialmente de manera idéntica (aparte de una diferencia relativamente pequeña en la constante).

CUNnorte-1/ /5 5UNC

3,49snorte-1/ /3nclass.scott

El 1.059 en lo que el código llama la "estimación de Scott" está en el libro (anterior) de Silverman (consulte la página 45 de la referencia de Silverman en su enlace; la derivación de Scott se encuentra en las páginas 130-131 del libro al que hacen referencia). Proviene de una estimación de la teoría normal.

1.059σ

UNσ

Por razones similares a las que sugerí antes, Silverman continúa sugiriendo reducir 1.059 (de hecho, usa 1.06 en todo momento, no 1.059, como hace Scott en su libro). Él elige un valor reducido que no pierde más del 10% de eficiencia en IMSE en la normalidad, que es de donde proviene el 0.9.

Por lo tanto, ambos anchos de depósito se basan en el ancho de depósito óptimo de IMSE en la normalidad, uno justo en el óptimo, el otro (aproximadamente un 15% más pequeño, para obtener dentro del 90% de la eficiencia del óptimo en la normalidad). [Los llamaría a ambos "Silverman" estimados. No tengo idea de por qué nombran el 1.059 para Scott.]

En mi opinión, ambos son demasiado grandes. No uso histogramas para obtener estimaciones de densidad óptimas para IMSE. Si eso (obtener estimaciones de la densidad que son óptimas en el sentido IMSE) fuera lo que quisiera hacer, no quisiera usar histogramas para ese propósito.

Los histogramas deben estar errando en el lado más ruidoso (deje que el ojo haga el alisado necesario). Casi siempre doblo (o más) el número predeterminado de bins que dan este tipo de reglas. Por lo tanto, no usaría 1.06 o 0.9, tendería a usar algo alrededor de 0.5, tal vez menos en tamaños de muestra realmente grandes.

Realmente hay muy poco para elegir entre ellos, ya que ambos dan muy pocos contenedores para ser muy útiles para encontrar lo que está sucediendo en los datos (en los cuales, al menos en tamaños de muestra pequeños, vea aquí .

[1]: Scott, DW (1979), "Sobre histogramas óptimos y basados ​​en datos" , Biometrika , 66 , 605-610.

Glen_b -Reinstate a Monica
fuente
Según el documento de SciPy aquí , la regla de Scott es: n ** (- 1./(d+4)). Al mirar el código, descubrí que entendía mal la regla como "scotts_factor". Tienes razón en que el ancho de banda es demasiado grande. Abriré una nueva pregunta sobre la selección de ancho de banda numérico. Gracias.
xrfang
re=1norte-1/ /5 5UNC
@ Glen_b-ReinstateMonica ¿Podría echar un vistazo a la pregunta que publiqué aquí ? Muestro los problemas que puede conllevar la regla de Silverman cuando se usa una muestra de gran tamaño. ¿Podrías responder lo que está pasando en detalle?
user269666