¿El Profeta de Facebook es diferente de una regresión lineal?

11

Entonces, lo que he leído sobre el profeta de Facebook es que básicamente divide la serie temporal en tendencia y estacionalidad. Por ejemplo, un modelo aditivo se escribiría como:

y(t)=g(t)+s(t)+h(t)+et

con

  • t el tiempo
  • g(t) la tendencia (puede ser lineal o logística)
  • s(t) la estacionalidad (diaria, semanal, anual ...)
  • h(t) las vacaciones
  • et el error

Mis preguntas son: ¿No podría hacerse con una simple regresión lineal? ¿Cuáles serían las diferencias en términos de resultados si los comparáramos y por qué?

K.Hua
fuente
Sí, podrías hacer esto con un modelo lineal. No conozco al Profeta, pero si esto es todo lo que está haciendo, entonces no hay diferencia.
user2974951

Respuestas:

13

El problema aquí es llegar a una ecuación que analice los datos observados en señal y ruido. Si sus datos son simples, entonces su enfoque de regresión podría funcionar. Se debe tener cuidado para comprender algunas de las suposiciones que están haciendo con el Profeta. Debes entender mejor lo que hace Prophet, ya que no solo se ajusta a un modelo simple sino que intenta agregar alguna estructura.

Por ejemplo, algunas reflexiones que hice después de leer su introducción bien escrita podrían ayudarlo en su evaluación. Pido disculpas por adelantado si he entendido mal su enfoque, y me gustaría que me corrijan si es así.

1) Su ejemplo principal tiene dos puntos de quiebre en la tendencia, pero solo capturaron el más obvio.

2) Ignoran todas y cada una de las estructuras ARIMA que reflejan series estocásticas omitidas o el valor de usar valores históricos de Y para guiar el pronóstico.

3) Ignoran cualquier dinámica posible (efectos de adelanto y retraso) de series estocásticas y deterministas sugeridas por el usuario. Los efectos de regresión causal del profeta son simplemente contemporáneos.

4) No se intenta identificar cambios de nivel / paso en la serie o pulsos estacionales, por ejemplo, un cambio en el EFECTO DEL LUNES a mitad del tiempo debido a algún evento externo desconocido. Prophet asume un "crecimiento lineal simple" en lugar de validarlo examinando posibilidades alternativas. Para un posible ejemplo de esto, vea Pronosticar pedidos recurrentes para un negocio de suscripción en línea usando Facebook Prophet y R

5) Los senos y cosenos son una forma opaca de tratar con la estacionalidad, mientras que los efectos estacionales como el día de la semana, el día del mes, la semana del mes, el mes del año son mucho más efectivo / informativo cuando se trata con efectos antropogénicos (¡tratando con humanos!).

Sugerir frecuencias de 365.25 para patrones anuales tiene poco sentido porque no realizamos la misma acción exactamente el mismo día que el año pasado, mientras que la actividad mensual es mucho más persistente, pero Prophet no parece ofrecer los 11 indicadores mensuales opción. Las frecuencias semanales de 52 tienen poco sentido porque no tenemos 52 semanas cada año.

6) No se intenta validar que los procesos de error sean gaussianos, por lo que se pueden realizar pruebas significativas de significación.

7) No hay preocupación de que la varianza del error del modelo sea homogénea, es decir, que no cambie determinísticamente en puntos particulares en el tiempo, sugiriendo mínimos cuadrados ponderados. No le preocupa encontrar una transformación de potencia óptima para tratar la varianza del error que es proporcional al valor esperado ¿ Cuándo (y por qué) debería tomar el registro de una distribución (de números)? .

8) El usuario debe especificar previamente todos los posibles efectos de adelanto y retraso en torno a eventos / vacaciones. Por ejemplo, las ventas diarias a menudo comienzan a aumentar a fines de noviembre, lo que refleja un efecto a largo plazo de la Navidad.

9) No hay preocupación de que los errores resultantes estén libres de estructura, lo que sugiere formas de mejorar el modelo a través de la verificación de diagnóstico de suficiencia.

10) Aparentemente no hay preocupación por mejorar el modelo eliminando la estructura no significativa.

11) No existe la posibilidad de obtener una familia de pronósticos simulados donde los límites de confianza no necesariamente sean simétricos mediante el arranque de los errores del modelo con la posibilidad de posibles anomalías.

12) Permitir que el usuario haga suposiciones sobre las tendencias (# de puntos de corte de tendencia y los puntos de corte reales) permite una flexibilidad no deseada / inutilizable frente al análisis a gran escala que por su nombre está diseñado para aplicaciones de manos libres a gran escala.

IrishStat
fuente
De acuerdo, pero diría que esas cosas están más cerca de las características "agradables de tener", luego "debe tener". Puede tener modelos de pronóstico de alta calidad sin algunos de ellos. Pero, como dije, buenos puntos y buena crítica.
Tim
Tiene bastante razón en su reflexión ... la complejidad inherente de los "datos" es la cuestión dominante. Los datos simples ... necesitan soluciones simples ... los datos complejos sugieren que lo "agradable de tener" podría convertirse en "necesidad de tener". ¡Solo sus datos lo saben con certeza! La navaja de Occam viene a la mente ..
IrishStat
@Tim stats.stackexchange.com/questions/417908/… el hilo sugiere que algunas características que son "agradables de tener" deberían ser "imprescindibles" para frustrar suposiciones incorrectas como "tendencia lineal simple".
IrishStat
10

No lo he usado, pero este es el resumen de su preimpresión (énfasis mío):

El pronóstico es una tarea común de ciencia de datos que ayuda a las organizaciones con la planificación de la capacidad, el establecimiento de objetivos y la detección de anomalías. A pesar de su importancia, existen serios desafíos asociados con la producción de pronósticos confiables y de alta calidad, especialmente cuando hay una variedad de series de tiempo y los analistas con experiencia en el modelado de series de tiempo son relativamente raros . Para abordar estos desafíos, describimos un enfoque práctico para pronosticar "a escala" que combina modelos configurables con análisis de rendimiento de analista en el bucle. Proponemos un modelo de regresión modular con parámetros interpretables que pueden ser ajustados intuitivamente por analistas con conocimiento de dominio sobre las series de tiempo. Describimos los análisis de rendimiento para comparar y evaluar los procedimientos de pronóstico, y marcamos automáticamente los pronósticos para revisión y ajuste manual. Las herramientas que ayudan a los analistas a utilizar su experiencia de manera más efectiva permiten una predicción confiable y práctica de series de tiempo comerciales.

En la introduccion:

Hemos observado dos temas principales en la práctica de crear pronósticos comerciales. Primero, las técnicas de pronóstico completamente automáticas pueden ser difíciles de ajustar y, a menudo, son demasiado inflexibles para incorporar suposiciones o heurísticas útiles. En segundo lugar, los analistas responsables de las tareas de ciencia de datos en una organización generalmente tienen una gran experiencia en el dominio de los productos o servicios específicos que admiten, pero a menudo no tienen capacitación en pronósticos de series de tiempo.

Entonces, me parece que no afirman haber hecho un avance estadístico sustancial aquí (aunque es capaz de mucho más que el modelo simple que delineas). En cambio, afirman que su sistema hace posible que un gran número de personas sin experiencia en análisis de series temporales generen pronósticos mientras aplican su propia experiencia de dominio y restricciones específicas del sistema.

Si ya tiene experiencia tanto en análisis de series temporales como en codificación de modelos complejos, esto puede no serle de mucha ayuda. Pero si sus afirmaciones son ciertas, ¡esto podría ser muy útil! La ciencia (y el comercio) avanza no solo por las nuevas ideas, sino también por las nuevas herramientas y su difusión (vea este breve artículo de Freeman Dyson sobre el tema y esta respuesta ).

Para tomar un ejemplo de las estadísticas en sí: Rno representó un avance estadístico, pero ha sido enormemente influyente porque facilitó a mucha más gente hacer análisis estadísticos. Ha sido el andamiaje sobre el cual se ha construido una gran cantidad de comprensión estadística. Si tenemos suerte, el Profeta puede jugar un papel similar.

Dyson, Freeman J. "¿La ciencia está impulsada principalmente por ideas o por herramientas?" Ciencia 338, no. 6113 (2012): 1426-1427.

mkt - Restablecer a Monica
fuente
0

Le faltan los puntos de cambio, splines lineales por partes, que se pueden implementar en modelos lineales.

Tienes razón en que al menos en el caso límite es una regresión regularizada lineal (regularización L1 y L2).

Tenga en cuenta que hay un modelo de profeta separado, el crecimiento logístico.

También está asumiendo que los factores estacionales son aditivos, pero también admiten efectos estacionales multiplicativos, lo que parece más natural al menos para el modelado del crecimiento.

seanv507
fuente
La suposición del profeta de tomar registros va en contra de esta valiosa discusión ... stats.stackexchange.com/questions/18844/… donde las transformaciones de poder se justifican en base a una relación empírica entre el Valor esperado y la varianza del error del modelo O un específico presunción no lineal basada en el conocimiento del dominio.
IrishStat el
@IrishStat Gracias por ese punto (había olvidado que registran la transformación para implementar la estacionalidad multiplicativa, usan STAN, por lo que creo que podrían haber usado un modelo no lineal en lugar de tomar registros). ¿Puede explicar su distinción entre la suposición de estacionalidad multiplicativa y la 'presunción no lineal ...'
seanv507
Si nos fijamos en las respuestas de @ whuber stats.stackexchange.com/questions/298/… sugiere transforma "cuando la teoría científica lo indica", lo cual sería una posible suposición no lineal basada en el conocimiento del dominio. Las transformaciones empíricas de potencia son útiles cuando se encuentra que la varianza de los errores es proporcional al valor esperado, de lo contrario podría ser simplemente "escaparatismo".
IrishStat el
0

Se puede hacer mucho con una simple regresión lineal, pero no todo lo que hace Profeta. Solo un ejemplo, puede especificar su propio candidato de punto de cambio para una tendencia, y Prophet lo usará como un previo.

Aksakal
fuente