Resumen : intentar encontrar el mejor método resume la similitud entre dos conjuntos de datos alineados con un solo valor.
Detalles :
Mi pregunta se explica mejor con un diagrama. Los gráficos a continuación muestran dos conjuntos de datos diferentes, cada uno con valores etiquetados nf
y nr
. Los puntos a lo largo del eje x representan dónde se tomaron las medidas, y los valores en el eje y son el valor medido resultante.
Para cada gráfico quiero un solo número para resumir la similitud nf
y los nr
valores en cada punto de medición. En este ejemplo, es visualmente obvio que los resultados en los primeros gráficos son menos similares a los del segundo gráfico. Pero tengo muchos otros datos donde la diferencia es menos obvia, por lo que sería útil clasificar esto cuantitativamente.
Pensé que podría haber una técnica estándar que se usa típicamente. La búsqueda de similitud estadística ha dado muchos resultados diferentes, pero no estoy seguro de qué es lo mejor para elegir o si las cosas que tengo listas se aplican a mi problema. Así que pensé que valía la pena hacer esta pregunta aquí en caso de que haya una respuesta simple.
fuente
Respuestas:
El área entre 2 curvas puede darle la diferencia. Por lo tanto, la suma (nr-nf) (suma de todas las diferencias) será una aproximación del área entre 2 curvas. Si desea hacerlo relativo, se puede usar sum (nr-nf) / sum (nf). Estos le darán un valor único que indica similitud entre 2 curvas para cada gráfico.
Editar: El método anterior de suma de diferencias será útil incluso si se trata de puntos u observaciones separados y no de líneas o curvas conectadas, pero en ese caso, la media de las diferencias también puede ser un indicador y puede ser mejor ya que tomaría en cuenta el Número de observaciones.
fuente
Necesita definir más lo que quiere decir con "similitud". ¿Importa la magnitud? ¿O solo forma?
Si solo importa la forma, querrás normalizar ambas series de tiempo por su valor máximo (por lo que ambas son de 0 a 1).
Si está buscando una correlación lineal, una simple correlación de Pearson funcionará bien, lo que esencialmente mide la covarianza.
Existen otras técnicas, por ejemplo, que podrían ajustarse a una línea o polinomio a la serie temporal (esencialmente suavizándola) y luego comparar los polinomios lisos.
Si está buscando similitud periódica (es decir, la serie de tiempo tiene un cierto componente sinusoidal o estacionalidad), considere usar una descomposición de series de tiempo en la tendencia y los componentes de la estación primero. O usando algo como FFT para comparar los datos en el dominio de frecuencia.
Eso es todo lo que sé sin más definición de lo que debería ser 'similar'. Espero eso ayude.
fuente
Puede usar (nr-nf) para cada punto de medición, cuanto menor sea el número (valor absoluto), más similar será el valor. No es exactamente el enfoque más científico, perdóneme, no tengo entrenamiento formal real en estas cosas. Si solo está buscando una representación numérica de lo visual, debería hacerlo.
fuente