Hemos medido dos variables, y el diagrama de dispersión parece sugerir múltiples modelos "lineales". ¿Hay alguna forma de tratar de destilar esos modelos? Identificar otras variables independientes ha resultado ser difícil.
Ambas variables están muy sesgadas a la izquierda (hacia los números pequeños), esta es una distribución esperada en nuestro dominio. La intensidad del punto representa la cantidad de puntos de datos (en una escala ) en este < x , y > .
Alternativamente, ¿hay alguna manera de agrupar los puntos?
En nuestro campo, se afirma que estas dos variables se correlacionan linealmente. Estamos tratando de entender / explicar por qué no es el caso en nuestros datos.
(nota, tenemos 17 millones de puntos de datos)
actualización: gracias por todas las respuestas, aquí hay algunas aclaraciones solicitadas:
- Ambas variables son solo enteras, lo que explica algunos de los patrones en el diagrama de dispersión del registro.
- Afortunadamente, por definición, el valor mínimo de ambas variables es 1.
- 7 millones de puntos están en ("explicados" por el sesgo a la izquierda de los datos)
Aquí están las parcelas solicitadas:
diagrama de dispersión log-log:
(los espacios en blanco son causados por los valores enteros)
log-log polar:
Histograma de relación:
fuente
Respuestas:
Un punto de terminología: la asimetría en las estadísticas se describe con referencia a la cola que está más extendida. Eres libre de considerar esta terminología como al revés. Aquí ambas variables están sesgadas a valores altos o positivamente o con sesgo a la derecha.
Como antes, no recomendaría modelar diferentes franjas de manera diferente sin una razón científica para distinguirlas o tratarlas por separado. Deberías promediar más de lo que tienes. (Puede haber métodos conocidos con este tipo de datos para suprimir la discreción. Si las personas en su campo miden rutinariamente millones de puntos para cada parcela, es difícil creer que esto no se haya visto antes).
La correlación ciertamente debería ser positiva. Además de una prueba de significación formal, que aquí sería completamente inútil ya que las correlaciones minuciosas calificarán como significativas con este tamaño de muestra, si se declara fuerte es una cuestión de expectativas y estándares en su campo. Comparar su correlación cuantitativamente con los resultados de otros es un camino a seguir.
Detalle: la asimetría todavía se describe de manera incorrecta según la convención estadística. Estas variables están sesgadas a la derecha; esa jerga se ajusta cuando se mira un histograma con eje de magnitud horizontal y se observa que la asimetría se llama así por la cola más larga, no por la concentración con más valores.
fuente
fuente
He observado un comportamiento similar en algunos de mis conjuntos de datos. En mi caso, las líneas múltiples diferentes se debieron a un error de cuantización en uno de mis algoritmos de procesamiento.
Es decir, estamos analizando diagramas de dispersión de datos procesados, y el algoritmo de procesamiento tuvo algunos efectos de cuantificación, que causaron dependencias en los datos que se veían exactamente como usted tiene anteriormente.
La fijación de los efectos de cuantización hizo que nuestra salida se viera mucho más suave y menos agrupada.
En cuanto a su comentario de "correlación lineal". Lo que presentó es insuficiente para determinar si estos datos están correlacionados linealmente o no. Es decir, en algunos campos, un coeficiente de correlación de> 0.7 se considera una fuerte correlación lineal. Dado que la mayoría de sus datos están cerca del origen, es bastante concebible que sus datos estén correlacionados linealmente en relación con lo que diría la "sabiduría convencional". La correlación le dice muy poco sobre un conjunto de datos.
fuente