Hay muchas reglas para seleccionar un ancho de contenedor óptimo en un histograma 1D (ver por ejemplo )
Estoy buscando una regla que aplique la selección de anchos óptimos de bin igual en histogramas bidimensionales .
¿Existe tal regla? Quizás una de las reglas bien conocidas para los histogramas 1D se pueda adaptar fácilmente, de ser así, ¿podría dar algunos detalles mínimos sobre cómo hacerlo?
optimization
histogram
Gabriel
fuente
fuente
Respuestas:
Mi consejo en general sería que es aún más crítico que en 1-D suavizar siempre que sea posible, es decir, hacer algo como la estimación de la densidad del núcleo (o algún otro método, como la estimación log-spline), que tiende a ser sustancialmente más eficiente que usar histogramas Como señala Whuber, es bastante posible dejarse engañar por la aparición de un histograma, especialmente con pocos contenedores y tamaños de muestra pequeños a moderados.
Si está tratando de optimizar el error cuadrático integrado medio (MISE), digamos, hay reglas que se aplican en dimensiones más altas (el número de bins depende del número de observaciones, la varianza, la dimensión y la "forma"), tanto para la estimación de densidad del núcleo como para los histogramas.
[De hecho, muchos de los problemas para uno también son problemas para el otro, por lo que parte de la información en este artículo de Wikipedia será relevante.]
Esta dependencia de la forma parece implicar que para elegir de manera óptima, ya necesita saber lo que está tramando. Sin embargo, si está preparado para hacer algunas suposiciones razonables, puede usarlas (por ejemplo, algunas personas podrían decir "aproximadamente gaussiano") o, alternativamente, puede usar alguna forma de estimador "enchufable" del apropiado funcional.
Wand, 1997 cubre el caso 1-D. Si puede obtener ese artículo, eche un vistazo a lo que hay allí también es relevante para la situación en dimensiones superiores (en lo que respecta a los tipos de análisis que se realizan). (Existe en forma de documento de trabajo en Internet si no tiene acceso a la revista).[1]
El análisis en dimensiones más altas es algo más complicado (más o menos de la misma manera que procede de las dimensiones 1-D a r para la estimación de la densidad del núcleo), pero hay un término en la dimensión que entra en el poder de n.
Sec 3.4 Eqn 3.61 (p83) de Scott, 1992 da el ancho de bin óptimo asintóticamente:[2]
donde es un término de rugosidad (no el único posible), y creo que es la derivada de con respecto al término en .R(f)=∫Rdf(x)2dx fi f ith x
Entonces, para 2D que sugiere anchos de bin que se reducen como .n−1/4
En el caso de variables normales independientes, la regla aproximada es , donde es el ancho de la bandeja en la dimensión , el indica el valor asintóticamente óptimo, y es la desviación estándar de la población en la dimensión .h∗k≈3.5σkn−1/(2+d) hk k ∗ σk k
Para bivariada normal con correlación , el ancho de bin esρ
Cuando la distribución es sesgada, o de cola pesada, o multimodal, generalmente resultan anchos de bin mucho más pequeños; en consecuencia, los resultados normales a menudo estarían en los mejores límites superiores en bindwith.
Por supuesto, es completamente posible que no le interese el error cuadrático integrado medio, sino algún otro criterio.
[1]: Varita, MP (1997),
"Elección basada en datos del ancho del contenedor de histograma",
American Statistician 51 , 59-64
[2]: Scott, DW (1992),
Estimación de densidad multivariada: teoría, práctica y visualización ,
John Wiley & Sons, Inc., Hoboken, NJ, EE. UU.
fuente
Dado que tiene un número fijo de datos (es decir, tiene el mismo número de lecturas en ambas dimensiones), puede usar de inmediato:N
Para encontrar el número común de contenedores en cada dimensión.M
Por un lado, es posible que desee probar algo más robusto como la regla Freedman-Diaconis que esencialmente define el ancho de banda como igual a:h
donde IQR es el rango intercuartil de sus datos . Luego calcula el número de contenedores largo de cada dimensión como igual a:x M
Hace esto en ambas dimensiones de sus datos ; esto le da dos, posiblemente diferentes, números de contenedores que "deberían" usarse en cada dimensión. Usted ingenuamente toma el más grande para que no se "pierde" la información.x
Sin embargo, una cuarta opción sería tratar de tratar su muestra como nativamente bidimensional, calcular la norma para cada uno de los puntos de muestra y luego realizar la regla de Freedman-Diaconis en las normas de la muestra. es decir.:
OK, aquí hay un código y un diagrama para los procedimientos que describo:
Como otros han señalado, el suavizado es casi seguro más apropiado para este caso (es decir, obtener un KDE). Espero que esto le dé una idea sobre lo que describí en mi comentario sobre la generalización directa (con todos los problemas que puede conllevar) de las reglas de muestra 1-D a las reglas de muestra 2-D. Notablemente, la mayoría de los procedimientos asumen cierto grado de "normalidad" en la muestra. Si tiene una muestra que claramente no está distribuida normalmente (por ejemplo, es leptokurtótica), este procedimiento (incluso en 1-D) fallaría bastante.
fuente