De hecho, depende del propósito de su investigación. En mi opinión, podría haber varios:
- Desea comprender cuáles son los factores típicos que causan casos y muertes y que no se ven afectados por los períodos epidémicos y los factores que causan epidemias (por lo que está interesado en las probabilidades típicas de no forzar mayores), en este caso obviamente necesita eliminar la epidemia períodos de los datos, ya que son con el propósito de investigar los valores atípicos a lo que le gustaría concluir
- Es posible que desee incluir cambios epidémicos en sus modelos (los modelos de cambio de régimen, por ejemplo, cualquier enlace bueno y sugerencias de modelos de la comunidad son bienvenidos aquí), porque desea saber la probabilidad de que ocurra un período epidémico (y también cuánto tiempo durará), para probar la estabilidad y pronosticar , en este caso no excluye los períodos epidémicos, sino que busca modelos más complicados en lugar de buscar la herramienta econométrica de martillo o algo similarO L S
- Su objetivo principal es detectar períodos epidémicos y monitorearlos en tiempo real: es un campo especial en econometría con el que varios de mis colegas están trabajando en la Universidad de Vilna (definitivamente, le gustaría tener muchas observaciones epidémicas para tratar )
Por lo tanto, si su objetivo principal es algo así como 2, la eliminación de los datos generará conclusiones erróneas sobre los pronósticos futuros, es decir, el rendimiento impreciso del pronóstico. También es cierto que el segundo caso no necesariamente proporciona mejores pronósticos, pero al menos podría sacar conclusiones sobre las probabilidades de períodos epidémicos y su duración. Esto ES de vital importancia para los matemáticos actuariales, entonces ¿puede ser usted el indicado?
Yo personalmente no llamaría a esto "limpieza de datos". Pienso en la limpieza de datos más en el sentido de la edición de datos: limpieza de inconsistencias en el conjunto de datos (por ejemplo, un registro ha informado una edad de 1000, o una persona de 4 años es madre soltera, etc.).
La presencia de un efecto real en sus datos no lo hace "desordenado" (por el contrario, la presencia de efectos reales lo enriquecería), aunque puede hacer que su tarea matemática sea más complicada. Sugeriría que los datos se "limpien" de esta manera si es la única forma factible de obtener una predicción. Si hay una manera factible que no arroja información, entonces úsela.
Parece que puede beneficiarse de algún tipo de análisis cíclico, dado que usted dice que este efecto se produce periódicamente (algo así como un "ciclo económico").
Desde mi punto de vista, si está buscando pronosticar algo, eliminar un efecto genuino de esa fuente solo puede empeorar sus predicciones. ¡Esto se debe a que efectivamente ha "desechado" la información que desea predecir!
El otro punto es que puede ser difícil determinar cuánto de un conjunto de muertes se debió a la epidemia y cuánto fue causado por las fluctuaciones ordinarias.
En terminología estadística, la epidemia suena así, desde su punto de vista, es una "molestia" a lo que realmente quiere analizar. Por lo tanto, no está particularmente interesado en él, pero debe tenerlo en cuenta de alguna manera en su análisis. Una forma "rápida y sucia" de hacer esto en un entorno de regresión es incluir un indicador para los años / períodos epidémicos como una variable regresora. Esto le dará una estimación promedio del efecto de las epidemias (y asume implícitamente que el efecto es el mismo para cada epidemia). Sin embargo, este enfoque solo funciona para describir el efecto, porque en el pronóstico, su variable de regresión es desconocida (no sabe qué períodos en el futuro serán epidémicos).
Otra forma de explicar la epidemia es utilizar un modelo de mezcla con dos componentes: un modelo para la parte epidémica y un modelo para la parte "ordinaria". Luego, el modelo procede en dos pasos: 1) clasifica un período como epidémico o normal, luego 2) aplica el modelo al que se clasificó.
fuente
Para darle una respuesta general a su pregunta, permítame parafrasear a uno de mis antiguos gerentes generales: las oportunidades de investigación se encuentran en los valores atípicos del modelo que está ajustando.
La situación es similar al experimento realizado por mi Robert Millikan para determinar la carga de un electrón. Décadas después de ganar el premio Nobel por su experimento, se examinaron sus notas y se descubrió que arrojó una gran cantidad de puntos de datos porque no estaban de acuerdo con los resultados que estaba buscando. ¿Eso es mala ciencia?
Si encuentra algunos valores atípicos, quizás se deban a "aberraciones estadísticas". Sin embargo, si encuentra más de unos pocos valores atípicos, debe explorar sus datos más de cerca. Si no puede atribuir una causa para las aberraciones, entonces no comprende el proceso y un modelo estadístico no resolverá su problema. El propósito de un modelo es resumir un proceso, el modelo no resumirá mágicamente un proceso que el experimentador no comprende.
fuente
El papel de la "limpieza de datos" es identificar cuándo "nuestras leyes (modelo) no funcionan". Ajustar valores atípicos o puntos de datos anormales nos permite obtener "estimaciones sólidas" de los parámetros en el modelo actual que estamos entreteniendo. Estos "valores atípicos", si no se tratan, permiten una distorsión no deseada en los parámetros del modelo, ya que la estimación se "impulsa a explicar estos puntos de datos" que "no se comportan de acuerdo con nuestro modelo hipotético". En otras palabras, hay una gran recompensa en términos de Suma de cuadrados explicada al centrarse en los "malos". Los puntos identificados empíricamente que requieren limpieza deben examinarse cuidadosamente para desarrollar / sugerir factores de causa que no están en el modelo actual.
¿Cómo evaluar el efecto de la intervención en un estado versus otro utilizando la tasa de letalidad anual?
Hacer ciencia es buscar patrones repetidos.
Detectar anomalías es identificar valores que no siguen patrones repetidos. ¿De qué otra forma sabrías que un punto violó ese modelo? De hecho, el proceso de crecimiento, comprensión, búsqueda y examen de valores atípicos debe ser iterativo. Este no es un pensamiento nuevo.
Sir Frances Bacon, escribiendo en Novum Organum hace unos 400 años, dijo: “Los errores de la naturaleza, los deportes y los monstruos corrigen la comprensión con respecto a las cosas ordinarias y revelan formas generales. Porque quien conozca los caminos de la Naturaleza notará más fácilmente sus desviaciones; y, por otro lado, quien conoce sus desviaciones describirá con mayor precisión sus formas ".
Cambiamos nuestras reglas al observar cuándo fallan las reglas actuales.
Si, de hecho, los valores atípicos identificados son todos pulsos y tienen efectos similares (tamaño), entonces sugerimos lo siguiente (citado en otro póster)
Una forma "rápida y sucia" de hacer esto en un entorno de regresión es incluir un indicador para los años / períodos epidémicos como una variable regresora. Esto le dará una estimación promedio del efecto de las epidemias (e implícitamente asume que el efecto es lo mismo para cada epidemia). Sin embargo, este enfoque solo funciona para describir el efecto, porque en el pronóstico, su variable de regresión es desconocida (no sabe qué períodos en el futuro serán epidémicos) ".
Esto si el curso requiere que las anomalías individuales (años de pulso) tengan efectos similares. Si difieren, una variable de portmanteau descrita anteriormente sería incorrecta.
fuente
Uno de los métodos más utilizados para encontrar epidemias en datos retrospectivos es en realidad buscar valores atípicos: muchos investigadores de la gripe, por ejemplo, se centran principalmente en los residuos de sus modelos ajustados, en lugar de los modelos en sí, para ver los lugares donde el "día" adentro, día a día ", las predicciones del modelo fallan: una de las formas en que el modelo puede fallar es con la aparición de una epidemia.
Sin embargo, es imperativo que distingas entre buscar valores atípicos en tus resultados, probablemente no es la mejor idea, y lo que la mayoría de la gente llama "limpieza de datos". Aquí, busca valores atípicos no porque representen un problema estadístico, sino porque plantean problemas de calidad de datos.
Por ejemplo, en un conjunto de datos que tengo, hay una variable para el inicio de la enfermedad. Para un tema, esta fecha es noviembre de 1929. ¿Creo que esto es correcto? No. Esto indica un problema de calidad de datos que debe corregirse, en este caso corregir la fecha en función de otra información sobre el tema. Este tipo de limpieza de datos mejorará activamente la calidad de sus resultados estadísticos.
fuente