Soy estudiante de secundaria y estoy trabajando en un proyecto de programación de computadoras, pero no tengo mucha experiencia en estadísticas y datos de modelado más allá de un curso de estadística de secundaria, así que estoy un poco confundido.
Básicamente, tengo una lista razonablemente grande (supongo que es lo suficientemente grande como para cumplir con los supuestos de cualquier prueba o medida estadística) de veces que alguien decidió imprimir un documento. Con base en esta lista, me gustaría construir un modelo estadístico de algún tipo que prediga el momento más probable para el próximo trabajo de impresión dados todos los tiempos de eventos anteriores.
Ya he leído esto , pero las respuestas no ayudan exactamente con lo que tengo en mente para mi proyecto. Investigué un poco más y descubrí que un modelo oculto de Markov probablemente me permitiría hacerlo con precisión, pero no puedo encontrar un enlace sobre cómo generar un modelo oculto de Markov usando solo una lista de veces. También descubrí que usar un filtro de Kalman en la lista puede ser útil, pero básicamente, me gustaría obtener más información al respecto de alguien que realmente los haya usado y conozca sus limitaciones y requisitos antes de intentar algo y esperar que funcione.
¡Gracias un montón!
Respuestas:
Los modelos ocultos de Markov se aplicarían si los datos fueran emisiones aleatorias de algún modelo subyacente de Markov no observado; No lo descartaría, pero no parece un modelo muy natural.
Pensaría en procesos puntuales , que coincidan bien con sus datos particulares. Hay mucho trabajo para predecir los terremotos (aunque no sé mucho al respecto) e incluso la delincuencia .
Si hay muchas personas diferentes imprimiendo, y solo está viendo los tiempos pero no las identidades individuales, un proceso de Poisson podría funcionar bien (la superposición de múltiples procesos de puntos independientes es aproximadamente Poisson), aunque tendría que ser no homogéneo (el la probabilidad de un punto varía con el tiempo): es menos probable que las personas impriman a las 3 a.m. que a las 3 p.m.
Para el modelo de proceso de Poisson no homogéneo , la clave sería obtener una buena estimación de la posibilidad de un trabajo de impresión en un momento determinado en un día en particular.
Sin embargo, si estos tiempos de impresión son para estudiantes en un aula, podría ser bastante complicado, ya que no es probable que sean independientes y, por lo tanto, el proceso de Poisson no funcionaría bien.
Aquí hay un enlace a un documento sobre la aplicación del delito.
fuente
Según la predicción, el tiempo probable con el uso de la estadística de escaneo bayesiano multivariante (MBSS) podría ser de ayuda. Este MBSS tiene la ventaja de mejorar la oportunidad y la precisión de la detección de eventos.
fuente