Cuantificación de similitudes entre dos conjuntos de datos

12

Resumen : intentar encontrar el mejor método resume la similitud entre dos conjuntos de datos alineados con un solo valor.

Detalles :

Mi pregunta se explica mejor con un diagrama. Los gráficos a continuación muestran dos conjuntos de datos diferentes, cada uno con valores etiquetados nfy nr. Los puntos a lo largo del eje x representan dónde se tomaron las medidas, y los valores en el eje y son el valor medido resultante.

Para cada gráfico quiero un solo número para resumir la similitud nfy los nrvalores en cada punto de medición. En este ejemplo, es visualmente obvio que los resultados en los primeros gráficos son menos similares a los del segundo gráfico. Pero tengo muchos otros datos donde la diferencia es menos obvia, por lo que sería útil clasificar esto cuantitativamente.

Pensé que podría haber una técnica estándar que se usa típicamente. La búsqueda de similitud estadística ha dado muchos resultados diferentes, pero no estoy seguro de qué es lo mejor para elegir o si las cosas que tengo listas se aplican a mi problema. Así que pensé que valía la pena hacer esta pregunta aquí en caso de que haya una respuesta simple.

ingrese la descripción de la imagen aquí

Gabriel Southern
fuente
1
Es posible que desee ver este documento que tiene una gran cantidad de medidas enumeradas. ( users.uom.gr/~kouiruki/sung.pdf ) Si el enlace no funciona se llama "Encuesta completa sobre medidas de distancia / similitud entre funciones de densidad de probabilidad" por Sung-Hyuk Cha en la Revista Internacional de Modelos y Métodos Matemáticos en Ciencias Aplicadas que revisa una gran cantidad de medidas de similitud.
arie64
Dynamic Time Warping se usa para medir la similitud entre dos series de tiempo. Esta técnica puede hacer la tarea aquí. Consulte este enlace: en.wikipedia.org/wiki/Dynamic_time_warping
Aman Anand

Respuestas:

6

El área entre 2 curvas puede darle la diferencia. Por lo tanto, la suma (nr-nf) (suma de todas las diferencias) será una aproximación del área entre 2 curvas. Si desea hacerlo relativo, se puede usar sum (nr-nf) / sum (nf). Estos le darán un valor único que indica similitud entre 2 curvas para cada gráfico.

Editar: El método anterior de suma de diferencias será útil incluso si se trata de puntos u observaciones separados y no de líneas o curvas conectadas, pero en ese caso, la media de las diferencias también puede ser un indicador y puede ser mejor ya que tomaría en cuenta el Número de observaciones.

rnso
fuente
1
Intentaré esto y veré cómo funciona. Todavía espero poder relacionarlo con una técnica más formalizada. He estado leyendo sobre Euclidean Distance y parece que es bastante similar a la técnica aquí. También como nota adicional, aunque mi gráfico tiene líneas de conexión, solo me interesan los puntos individuales. Realmente no estoy comparando curvas, solo los valores medidos. No sé si eso estaba claro en mi pregunta.
Gabriel Southern
Debería funcionar incluso si los puntos no están conectados.
rnso
1

Necesita definir más lo que quiere decir con "similitud". ¿Importa la magnitud? ¿O solo forma?

Si solo importa la forma, querrás normalizar ambas series de tiempo por su valor máximo (por lo que ambas son de 0 a 1).

Si está buscando una correlación lineal, una simple correlación de Pearson funcionará bien, lo que esencialmente mide la covarianza.

Existen otras técnicas, por ejemplo, que podrían ajustarse a una línea o polinomio a la serie temporal (esencialmente suavizándola) y luego comparar los polinomios lisos.

Si está buscando similitud periódica (es decir, la serie de tiempo tiene un cierto componente sinusoidal o estacionalidad), considere usar una descomposición de series de tiempo en la tendencia y los componentes de la estación primero. O usando algo como FFT para comparar los datos en el dominio de frecuencia.

Eso es todo lo que sé sin más definición de lo que debería ser 'similar'. Espero eso ayude.

usuario151975
fuente
0

Puede usar (nr-nf) para cada punto de medición, cuanto menor sea el número (valor absoluto), más similar será el valor. No es exactamente el enfoque más científico, perdóneme, no tengo entrenamiento formal real en estas cosas. Si solo está buscando una representación numérica de lo visual, debería hacerlo.

Mike G
fuente
1
Gracias por tu sugerencia. También pensé en eso, pero el problema es que será ponderado por la diferencia absoluta en lugar de la diferencia relativa. En el ejemplo que incluí, los conjuntos de datos más similares también tenían valores absolutos más pequeños, pero si la situación se invirtiera, podría obtener una interpretación incorrecta utilizando esta técnica. Necesito resumir la similitud / diferencia relativa en lugar de una diferencia absoluta.
Gabriel Southern
¿Funcionaría (nr-nf) / nf? Eso te pondría familiar. Estoy realmente interesado en ver la respuesta real ya que estoy lidiando con el mismo tipo de situación.
Mike G
Si todos están en una escala comparable, el hecho de que sus similares sean generalmente más bajos no se trata de valores relativos, sino de interpretación de la similitud. Si los valores en el segundo gráfico oscilaran entre 101-104, ¿cambiaría la interpretación de su similitud? Si es así, debes explicar eso. Serían necesarios más detalles sobre qué es exactamente la variable y.
John
@ John, ese es un buen punto. Creo que necesito pensar más en esto. Los valores en y son valores de aceleración para un punto de referencia y estoy tratando de comparar la similitud entre una variedad de configuraciones diferentes. Entonces, supongo que la sugerencia en esta respuesta podría funcionar, podría intentarlo solo para ver cómo se ven los números. Todavía prefiero usar una técnica estadística que sea más formalmente aceptada (si hay una para mi problema).
Gabriel Southern