¿Qué es un proceso de análisis de datos prácticamente bueno?

15

Me gustaría saber, o tener referencias sobre el proceso de análisis por el que pasan la mayoría de los analistas de datos estadísticos para cada proyecto de análisis de datos.

Si hago una "lista", para completar el proyecto de análisis de datos, un analista debe:

  1. primero recoger los requisitos para el proyecto,
  2. planificar / diseñar su análisis de datos en función de esos requisitos antes
  3. en realidad preprocesando datos,
  4. ejecutando el análisis de datos y
  5. escribiendo un informe basado en los resultados de su análisis.

Para esta pregunta, estoy interesado en más detalles del Paso 2. Pero entiendo que esto no es prácticamente claro, ya que el analista podría tener que cambiar su plan o diseño de acuerdo con el resultado del análisis de datos. ¿Hay alguna referencia sobre este tema?

Tae-Sung Shin
fuente

Respuestas:

17

Mi "plan" o "lista" favorita es el documento de Scott Emerson Organizando su enfoque para un análisis de datos .

Nota: las últimas dos páginas se encuentran bajo el título "Requisitos generales para el examen de doctorado aplicado", pero el consejo que se brinda allí generaliza para trabajar en cualquier problema de análisis.


fuente
Me encanta cada parte del documento. Gracias por la valiosa referencia.
Tae-Sung Shin
5

Encontré que El flujo de trabajo del análisis de datos con Stata es un buen libro, particularmente (pero no solo) como usuario de Stata. Encontré mucho con lo que no estoy de acuerdo, pero incluso eso ayudó a aclarar por qué hago las cosas de cierta manera.

Dimitriy V. Masterov
fuente
44
+1 pero, advertencia : este libro solo es valioso si eres un usuario de Stata. No uso Stata (de hecho, nunca lo he hecho). Por otro lado, me gusta Long, así que revisé esto en la biblioteca. Estoy seguro de que hay mucha buena información para todos, pero está tan entrelazada con el uso de Stata que es imposible extraer la información general del dominio.
gung - Restablece a Monica
2

CRISP-DM , acuñado por la compañía SPSS (ahora pertenece a IBM) es un acrónimo para el proceso de minería de datos, que es lo mismo que para el "análisis de datos". SAS tiene un proceso similar llamado SEMMA .

Galit Shmueli
fuente