Tengo un conjunto de datos de eventos que ocurrieron durante el mismo período de tiempo. Cada evento tiene un tipo (hay pocos tipos diferentes, menos de diez) y una ubicación, representada como un punto 2D.
Me gustaría verificar si existe alguna correlación entre los tipos de eventos, o entre el tipo y la ubicación. Por ejemplo, tal vez los eventos de tipo A generalmente no ocurren donde ocurren los eventos de tipo B. O tal vez en alguna área, en su mayoría hay eventos de tipo C.
¿Qué tipo de herramientas podría usar para realizar esto? Al ser un novato en el análisis estadístico, mi primera idea fue utilizar algún tipo de PCA (Análisis de componentes principales) en este conjunto de datos para ver si cada tipo de evento tenía su propio componente, o tal vez algunos compartieron el mismo (es decir, estaban correlacionados).
Tengo que mencionar que mi conjunto de datos es del orden de 500,000 puntos , lo que hace que las cosas sean un poco más difíciles de manejar.
EDITAR: Como se señala en las respuestas a continuación y en los comentarios, el camino a seguir es modelar esto como un proceso de puntos marcados, y luego usar R para hacer todo el trabajo pesado, como se explica en detalles en este informe del taller: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Respuestas:
El tipo de datos que describe usualmente se llama "patrones de puntos marcados", R tiene una vista de tareas para estadísticas espaciales que ofrece muchos paquetes buenos para este tipo de análisis, la mayoría de los cuales probablemente no puedan manejar el tipo de datos gigantescos que tener :(
Estos son dos tipos de preguntas bastante diferentes: la segunda pregunta sobre el posicionamiento de un tipo de marca / evento. Las palabras de moda que se deben buscar en este contexto son la estimación de intensidad de fe o la estimación de la función K si está interesado en descubrir patrones de agrupamiento (los eventos de un tipo tienden a agruparse) o la repulsión (los eventos de un tipo tienden a estar separados). La primera pregunta sobre la correlación entre los diferentes tipos de eventos. Esto generalmente se mide con funciones de correlación de marca.
Creo que submuestrear los datos para obtener un tamaño de datos más manejable es peligroso (vea el comentario a la respuesta de @ hamner), pero tal vez podría agregar sus datos: divida la ventana de observación en un número manejable de celdas de igual tamaño y tabule los recuentos de eventos en cada. Luego, cada celda se describe por la ubicación de su centro y un vector de 10 recuentos para sus 10 tipos de marca. Debería poder utilizar los métodos estándar para los procesos de puntos marcados en este proceso agregado.
fuente
Primero, el tamaño del conjunto de datos. Recomiendo tomar muestras pequeñas y manejables del conjunto de datos (ya sea eligiendo aleatoriamente N puntos de datos o eligiendo aleatoriamente varios rectángulos relativamente pequeños en el plano XY y tomando todos los puntos que caen dentro de ese plano) y luego perfeccionando sus técnicas de análisis en este subconjunto. Una vez que tenga una idea de la forma de análisis que funciona, puede aplicarla a porciones más grandes del conjunto de datos.
PCA se utiliza principalmente como una técnica de reducción de dimensionalidad; su conjunto de datos tiene solo tres dimensiones (una de las cuales es categórica), por lo que dudo que se aplique aquí.
Intente trabajar con Matlab o R para visualizar los puntos que está analizando en el plano XY (o su densidad relativa si trabaja con todo el conjunto de datos), tanto para tipos individuales como para todos los tipos combinados, y ver qué patrones emergen visualmente. Eso puede ayudar a guiar un análisis más riguroso.
fuente