Dados dos histogramas, ¿cómo evaluamos si son similares o no?
¿Es suficiente simplemente mirar los dos histogramas? El mapeo simple uno a uno tiene el problema de que si un histograma es ligeramente diferente y ligeramente cambiado, no obtendremos el resultado deseado.
¿Alguna sugerencia?
histogram
image-processing
Mew 3.4
fuente
fuente
Respuestas:
Un artículo reciente que puede valer la pena leer es:
Cao, Y. Petzold, L. Limitaciones de precisión y medición de errores en la simulación estocástica de sistemas de reacción química, 2006.
Aunque el objetivo de este trabajo es comparar algoritmos de simulación estocástica, esencialmente la idea principal es cómo comparar dos histogramas.
Puede acceder al pdf desde la página web del autor.
fuente
Hay muchas medidas de distancia entre dos histogramas. Puede leer una buena categorización de estas medidas en:
Las funciones de distancia más populares se enumeran aquí para su conveniencia:
Una implementación de Matlab de algunas de estas distancias está disponible en mi repositorio de GitHub: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance. También puede buscar personas como Yossi Rubner, Ofir Pele, Marco Cuturi y Haibin Ling más distancias de vanguardia.
Actualización: la explicación alternativa de las distancias aparece aquí y allá en la literatura, así que las enumero aquí por razones de integridad.
fuente
hist1 < hist2
La respuesta estándar a esta pregunta es la prueba de ji cuadrado . La prueba KS es para datos no enlazados, no para datos agrupados. (Si tiene los datos no enlazados, entonces utilice una prueba de estilo KS, pero si solo tiene el histograma, la prueba KS no es apropiada).
fuente
Estás buscando la prueba de Kolmogorov-Smirnov . No olvide dividir las alturas de las barras por la suma de todas las observaciones de cada histograma.
Tenga en cuenta que la prueba KS también informa una diferencia si, por ejemplo, las medias de las distribuciones se desplazan entre sí. Si la traducción del histograma a lo largo del eje x no tiene sentido en su aplicación, es posible que primero desee restar la media de cada histograma.
fuente
Como señala la respuesta de David, la prueba de ji cuadrado es necesaria para los datos agrupados, ya que la prueba KS supone distribuciones continuas. Con respecto a por qué la prueba KS es inapropiada (comentario de naught101), ha habido una discusión sobre el tema en la literatura de estadística aplicada que vale la pena plantear aquí.
fuente
Puede calcular la correlación cruzada (convolución) entre ambos histogramas. Eso tendrá en cuenta ligeras traducciones.
fuente