Pautas para descubrir nuevos conocimientos en datos

9

Trazo algo para hacer un punto para mí o para otra persona. Por lo general, una pregunta inicia este proceso y, a menudo, la persona que pregunta espera una respuesta particular.

¿Cómo puedo aprender cosas interesantes sobre los datos de una manera menos sesgada?

En este momento estoy siguiendo este método más o menos:

  1. Resumen estadístico.
  2. Stripchart
  3. Gráfico de dispersión.
  4. Quizás repita con un interesante subconjunto de datos.

Pero eso no parece lo suficientemente metódico o científico.

¿Existen pautas o procedimientos a seguir que revelen cosas sobre los datos que no pensaría pedir? ¿Cómo sé cuándo he hecho un análisis adecuado?

Selden
fuente

Respuestas:

6

Hay todo un campo de análisis de datos exploratorios (EDA) y un excelente libro sobre este tema llamado Análisis de datos exploratorios , de John W. Tukey.

Me gusta que esté usando gráficos, hay muchos otros gráficos que pueden ser útiles, dependiendo de sus datos, ¿cuántas variables? ¿De qué naturaleza son las variables (categóricas, numéricas, continuas, recuentos, ordinales?)

Un gráfico que a menudo es útil para datos con múltiples variables es una matriz de diagrama de dispersión.

Puede buscar varios tipos de valores atípicos, que a menudo son puntos interesantes.

Pero no creo que todo este proceso pueda hacerse realmente metódico y científico: la exploración es lo que viene ANTES de que se puedan introducir los enfoques metódicos y científicos. Aquí, creo que el aspecto clave es la diversión.

Peter Flom - Restablece a Monica
fuente
(+1) ¿Puede proporcionar un enlace al libro mencionado?
steffen
EDA del Manual de Ingeniería y Estadística itl.nist.gov/div898/handbook/eda/eda.htm .
Selden
Las variables de @Peter Flom 13 se producen al comparar dos conjuntos de salida producidos por un programa que se ejecuta en dos conjuntos de entrada. El programa se ejecuta periódicamente. Las variables son ordinales, categoría, categoría, categoría, categoría, cuenta, cuenta, cuenta, cuenta, numérico, numérico, cuenta y cuenta. Los nombres son id, machineA, inputA, machineB, inputB, new, same, missing, newP, missingP, lengthA, lengthB, scoreA, scoreB. Pero la decisión de comparar solo el resultado más reciente también es mi buena / mala idea.
Selden
El libro en realidad se llama Análisis de datos exploratorios (no EDA), es de John W. Tukey (mi memoria me engañó porque la portada de mi edición está etiquetada como EDA) Enlace: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
Peter Flom - Restablece a Monica
@selden Bueno, la identificación probablemente no sea una variable útil. Entre dos variables categóricas puedes mirar los gráficos de mosaico; entre un diagrama de caja categórico y uno numérico, paralelos pueden ser buenos.
Peter Flom - Restablece a Monica
1

Si tiene datos cronológicos, es decir, datos de series de tiempo, entonces hay "conocimientos" y espera ser descubierto son las "incógnitas". Por ejemplo, si tiene una secuencia de puntos de datos para 10 períodos, como 1,9,1,9,1,5,1,9,1,9, según esta muestra, uno puede esperar razonablemente 1,9,1,9 , ... surgir en el futuro. Lo que revela el análisis de datos es que hay una lectura "inusual" en el período 6, aunque está dentro de los límites sigma + -3, lo que sugiere que el DGF no se mantuvo. Desenmascarar el Inlier / Outlier nos permite revelar cosas sobre los datos. También observamos que el valor medio no es el valor esperado. Esta idea se extiende fácilmente a la detección de Desviaciones medias y / o Tendencias de tiempo local que pueden haber sido desconocidas antes de que se analizaran los datos (Generación de hipótesis). Ahora es muy posible que las siguientes 10 lecturas también sean 1,9,1,9, 1,5,1,9,1,9 sugiriendo que el "5" no es necesariamente desagradable. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. 9 sugiere que el "5" no es necesariamente desagradable. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. 9 sugiere que el "5" no es necesariamente desagradable. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. No es necesariamente desagradable. Si observamos un proceso de error de un modelo adecuado que muestra una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. No es necesariamente desagradable. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. estructura contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento consistente / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. estructura contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento consistente / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional.

IrishStat
fuente
0

La minería de datos podría dividirse en dos categorías. Si está interesado en medir el efecto de un conjunto de datos / variables en una variable específica, esto se consideraría aprendizaje supervisado. Para un aprendizaje profundo y exploratorio sin objetivo, está experimentando un aprendizaje sin supervisión.

Los primeros pasos son los gráficos y el análisis estadístico de los datos (comprender las distribuciones y adquirir intuición).

moka
fuente