Soy asistente de investigación para un laboratorio (voluntario). A mí y a un pequeño grupo se nos ha encomendado el análisis de datos para un conjunto de datos extraídos de un gran estudio. Lamentablemente, los datos se recopilaron con una aplicación en línea de algún tipo, y no se programó para generar los datos en la forma más útil.
Las imágenes a continuación ilustran el problema básico. Me dijeron que esto se llama "Reformar" o "Reestructurar".
Pregunta: ¿Cuál es el mejor proceso para pasar de la Imagen 1 a la Imagen 2 con un gran conjunto de datos con más de 10k entradas?
r
excel
data-cleaning
Wilkoe
fuente
fuente
data.table
,dplyr
,plyr
, yreshape2
- Recomiendo evitar Excel y tablas dinámicas, si es posible.Respuestas:
Como señalé en mi comentario , no hay suficientes detalles en la pregunta para formular una respuesta real. Como necesita ayuda incluso para encontrar los términos correctos y formular su pregunta, puedo hablar brevemente en generalidades.
El término que está buscando es limpieza de datos . Este es el proceso de tomar datos en bruto, mal formateados (sucios) y ponerlos en forma para los análisis. Cambiar y regularizar formatos ("two" ) y reorganizar filas y columnas son tareas de limpieza de datos típicas.→ 2
En cierto sentido, la limpieza de datos se puede hacer en cualquier software y se puede hacer con Excel o con R. Habrá ventajas y desventajas en ambas opciones:
R: R requerirá una curva de aprendizaje empinada. Si no está muy familiarizado con R o la programación, las cosas que se pueden hacer de manera bastante rápida y fácil en Excel serán frustrantes de intentar en R. Por otro lado, si alguna vez tiene que hacer esto nuevamente, ese aprendizaje habrá sido tiempo bien gastado. Además, la capacidad de escribir y guardar su código para limpiar los datos en R aliviará los inconvenientes mencionados anteriormente. Los siguientes son algunos enlaces que lo ayudarán a comenzar con estas tareas en R:
Puede obtener mucha buena información sobre Stack Overflow :
Quick-R también es un recurso valioso:
Poner números en modo numérico:
Otra fuente invaluable para aprender sobre R es el sitio web de ayuda de estadísticas de UCLA :
Por último, siempre puedes encontrar mucha información con el viejo Google:
Actualización: Este es un problema común con respecto a la estructura de su conjunto de datos cuando tiene múltiples mediciones por 'unidad de estudio' (en su caso, una persona). Si tiene una fila para cada persona, se dice que sus datos están en forma 'amplia', pero entonces necesariamente tendrá múltiples columnas para su variable de respuesta, por ejemplo. Por otro lado, puede tener solo una columna para su variable de respuesta (pero, como resultado, tener varias filas por persona), en cuyo caso se dice que sus datos están en forma 'larga'. Moverse entre estos dos formatos a menudo se llama 'remodelar' sus datos, especialmente en el mundo R.
reshape()
en el sitio web de ayuda de estadísticas de UCLA.reshape
es difícil trabajar con ellos. Hadley Wickham ha contribuido con un paquete llamado reshape2 , que pretende simplificar el proceso. El sitio web personal de Hadley para reshape2 está aquí , la descripción general de Quick-R está aquí y hay un tutorial atractivo aquí .fuente
Intenta seguir usando R:
fuente
En scala, esto se denomina operación de "explosión" y se puede hacer en un DataFrame. Si sus datos son un rdd, primero convierte a dataFrame mediante un
toDF
comando y luego usa el.explode
método.fuente