Trazo algo para hacer un punto para mí o para otra persona. Por lo general, una pregunta inicia este proceso y, a menudo, la persona que pregunta espera una respuesta particular.
¿Cómo puedo aprender cosas interesantes sobre los datos de una manera menos sesgada?
En este momento estoy siguiendo este método más o menos:
- Resumen estadístico.
- Stripchart
- Gráfico de dispersión.
- Quizás repita con un interesante subconjunto de datos.
Pero eso no parece lo suficientemente metódico o científico.
¿Existen pautas o procedimientos a seguir que revelen cosas sobre los datos que no pensaría pedir? ¿Cómo sé cuándo he hecho un análisis adecuado?
Si tiene datos cronológicos, es decir, datos de series de tiempo, entonces hay "conocimientos" y espera ser descubierto son las "incógnitas". Por ejemplo, si tiene una secuencia de puntos de datos para 10 períodos, como 1,9,1,9,1,5,1,9,1,9, según esta muestra, uno puede esperar razonablemente 1,9,1,9 , ... surgir en el futuro. Lo que revela el análisis de datos es que hay una lectura "inusual" en el período 6, aunque está dentro de los límites sigma + -3, lo que sugiere que el DGF no se mantuvo. Desenmascarar el Inlier / Outlier nos permite revelar cosas sobre los datos. También observamos que el valor medio no es el valor esperado. Esta idea se extiende fácilmente a la detección de Desviaciones medias y / o Tendencias de tiempo local que pueden haber sido desconocidas antes de que se analizaran los datos (Generación de hipótesis). Ahora es muy posible que las siguientes 10 lecturas también sean 1,9,1,9, 1,5,1,9,1,9 sugiriendo que el "5" no es necesariamente desagradable. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. 9 sugiere que el "5" no es necesariamente desagradable. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. 9 sugiere que el "5" no es necesariamente desagradable. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. No es necesariamente desagradable. Si observamos un proceso de error de un modelo adecuado que muestra una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. No es necesariamente desagradable. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. Si observamos un proceso de error de un modelo adecuado que exhibe una varianza no constante comprobable, podríamos estar revelando uno de los siguientes estados de la naturaleza: 1) los parámetros podrían haber cambiado en un momento determinado; 2. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. Puede haber una necesidad de análisis ponderado (GLS); 3. Puede ser necesario transformar los datos mediante una transformación de potencia; 4. Puede ser necesario modelar realmente la varianza de los errores. Si tiene datos diarios, un buen análisis podría revelar que hay una ventana de respuesta (estructura principal, contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento constante / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. estructura contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento consistente / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional. estructura contemporánea y de retraso) alrededor de cada día festivo que refleja un comportamiento consistente / predecible. También podría revelar que ciertos días del mes tienen un efecto significativo o que los viernes antes de un feriado del lunes tienen una actividad excepcional.
fuente
La minería de datos podría dividirse en dos categorías. Si está interesado en medir el efecto de un conjunto de datos / variables en una variable específica, esto se consideraría aprendizaje supervisado. Para un aprendizaje profundo y exploratorio sin objetivo, está experimentando un aprendizaje sin supervisión.
Los primeros pasos son los gráficos y el análisis estadístico de los datos (comprender las distribuciones y adquirir intuición).
fuente