Reconocimiento de la actividad humana mediante el problema del conjunto de datos del teléfono

Soy nuevo en esta comunidad y espero que mi pregunta encaje bien aquí. Como parte de mi curso universitario de análisis de datos, he optado por hacer el proyecto de reconocimiento de la actividad humana utilizando conjuntos de datos de teléfonos inteligentes. En lo que a mí respecta, este tema se relaciona con el aprendizaje automático y las máquinas de vectores de soporte. Todavía no estoy familiarizado con estas tecnologías, por lo que necesitaré ayuda.

He decidido seguir esta idea del proyecto http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (primer proyecto en la parte superior) El objetivo del proyecto es determinar qué actividad es una persona participar (por ejemplo, WALKING, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, SITTING, STANDING, LAYING) a partir de datos grabados por un teléfono inteligente (Samsung Galaxy S II) en la cintura del sujeto. Usando su acelerómetro y giroscopio integrados, los datos incluyen aceleración lineal 3-axial y velocidad angular 3-axial a una velocidad constante de 50Hz.

Todo el conjunto de datos se proporciona en una carpeta con algunas descripciones y etiquetas de características. Los datos se dividen para los archivos 'prueba' y 'entrenamiento' en los que los datos se representan en este formato:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

Y eso es solo una muestra muy pequeña de lo que contiene el archivo.

Realmente no sé qué representan estos datos y cómo se pueden interpretar. También para analizar, clasificar y agrupar los datos, ¿qué herramientas necesitaré usar? ¿Hay alguna forma de poner estos datos en Excel con las etiquetas incluidas y, por ejemplo, usar R o python para extraer datos de muestra y trabajar en esto?

Cualquier sugerencia / consejo sería muy apreciada.

bigdata machine-learning databases clustering data-mining Jakubee
fuente

Respuestas:

Las definiciones del conjunto de datos están en la página aquí:

Información de atributos en la parte inferior

o puede ver dentro de la carpeta ZIP el archivo llamado activity_labels, que tiene los encabezados de las columnas dentro de él, asegúrese de leer el archivo LÉAME cuidadosamente, tiene buena información. Puede traer fácilmente un .csvarchivo en R usando el read.csvcomando.

Por ejemplo, si nombra su archivo samsungdata, puede abrir R y ejecutar este comando:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

O si ya está dentro del directorio de trabajo en R, simplemente puede ejecutar lo siguiente

data <- read.csv("samsungdata.csv", header = TRUE)

Donde el nombre datase puede cambiar a lo que quiera llamar a su conjunto de datos.

MCP_infiltrator
fuente

Veo. Estudié el archivo README, sin embargo, todavía no puedo entender cómo se pueden leer los datos. Por ejemplo, el archivo train / X_train.txt' representa el conjunto de entrenamiento (los datos de muestra que mostré en la publicación provienen de este archivo).

Jakubee

Me parece que el conjunto de datos es bastante amplio, hay 561 variables por fila que se enumeran dentro del archivo features.txt. Creo que a eso te refieres.

MCP_infiltrator

Entonces, cada una de las variables del archivo 'características' corresponde a cada columna, por ejemplo, en el archivo 'x-test.txt', o ¿Me equivoco?

Jakubee

Así es como lo estoy tomando. De lo que pude deducir del archivo README es que es lo que contiene el archivo.

MCP_infiltrator

@Jakubee Sí. Hay 561 filas / nombres de variables en el features.txtarchivo y 561 columnas en el X_train.txtarchivo, una para cada variable.

Marco13

Parece que esto (o un conjunto de datos muy similar) se utiliza para los cursos de Coursera. La limpieza de este conjunto de datos es tarea para obtener y limpiar datos , pero también se utiliza para el estudio de casos para el análisis de datos exploratorios . El video de este estudio de caso está disponible en los videos de la semana 4 del curso de EDA. Podría ayudarlo a comenzar con estos datos.

Damian Melniczuk
fuente