Cuando se piensa en un histograma como una estimación de la función de densidad, ¿es razonable pensar en el tamaño del contenedor como un parámetro que restringe la estructura local de esa función?
Además, ¿hay una mejor manera de articular este razonamiento?
Respuestas:
Sí, esta es una forma razonable de pensarlo (suponiendo que el histograma esté normalizado para obtener un pdf adecuado). El ancho del contenedor restringe la suavidad de la estimación de densidad (en términos generales, ya que los histogramas son funciones discontinuas). Controla la medida en que se puede modelar una estructura más fina, y también la medida en que las fluctuaciones aleatorias en los datos afectan la estimación. Desempeña un papel similar al ancho del núcleo en la estimación de la densidad del núcleo y los hiperparámetros que controlan el tamaño de la hoja en los árboles de decisión.
Para ser un poco más específico, el ancho del contenedor es un hiperparámetro que controla la compensación de la variación de sesgo. La reducción del ancho del contenedor disminuye el sesgo porque permite una representación más fina: los histogramas con contenedores más estrechos forman una clase más rica de funciones que pueden aproximarse mejor a la distribución verdadera / subyacente. Sin embargo, aumenta la varianza porque hay menos puntos de datos disponibles para estimar la altura de cada contenedor: los histogramas con contenedores más estrechos son más sensibles a las fluctuaciones aleatorias en los datos y variarán más sobre los conjuntos de datos extraídos de la misma distribución subyacente. Un buen ancho de contenedor equilibra estos efectos opuestos para dar una estimación de densidad que mejor coincida con la distribución subyacente.
Para más detalles ver:
Scott (1979) . En histogramas óptimos y basados en datos.
Shalizi (2009) . Estimación de distribuciones y densidades [notas del curso]
fuente
Los estimadores de densidad del núcleo a menudo se racionalizan como una versión "continua" de un histograma. Muchos libros sobre estimación de kernel no paramétrico también discuten histogramas. Ver, por ejemplo, el capítulo 2 en Racine, Jeffrey S. " Econometría no paramétrica: un manual ". Foundations and Trends® en Econometrics 3.1 (2008): 1-88.
fuente
Es razonable, porque lo que estás haciendo poniendo muestras en contenedores es aproximar los datos. En mi experiencia, dependiendo de su objetivo y de los datos disponibles, esos contenedores pueden variar drásticamente y tener un gran impacto en cómo se manejan aún más los datos. En algunos casos, es posible que no necesite muchos contenedores o tal vez le falten datos, por lo que aún puede ver la curva general. Por otro lado, si la aproximación es demasiado fuerte, puede perderse algunos detalles, como los minutos y máximos locales o la estructura. Por ejemplo, puede tomar la siguiente función:
Y compare el hist para 100 y 8 contenedores
Hay una clara diferencia entre la complejidad de la estructura. Si hablamos de la función de densidad, por supuesto, debe elegir la segunda opción para una curva más suave sin valores tan extremos como en la primera imagen.
Por lo general, prefiero usar la regla de Freedman-Diaconis como regla general para elegir el valor predeterminado número de contenedores y luego sintonizar teniendo en cuenta la tarea.
fuente