Quiero investigar el comportamiento de fijación de precios de las aerolíneas, específicamente cómo las aerolíneas reaccionan a los precios de la competencia.
Como diría, mi conocimiento sobre análisis más complejos es bastante limitado. He realizado principalmente todos los métodos básicos para obtener una visión general de los datos. Esto incluye gráficos simples que ya ayudan a identificar patrones similares. También estoy usando SAS Enterprise 9.4.
Sin embargo, estoy buscando un enfoque más basado en números.
Conjunto de datos
El conjunto de datos (auto) recopilados que estoy usando contiene alrededor de ~ 54,000 tarifas. Todas las tarifas se cobraron dentro de un período de 60 días, diariamente (todas las noches a las 00:00).
Por lo tanto, cada tarifa dentro de ese intervalo de tiempo ocurre veces sujeta a la disponibilidad de la tarifa, así como a la fecha de salida del vuelo, cuando se pasa por la fecha de cobro de la tarifa. (No puede cobrar una tarifa para un vuelo cuando la fecha de salida del vuelo es anterior)
El no formateado que se ve básicamente así: (datos falsos)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysBeforeDeparture" se calcula a través de donde
- I e intervalo (días antes de la salida)
- Fecha y fecha de la tarifa (salida del vuelo)
- c & fecha de cobro de la tarifa
Aquí hay un ejemplo de conjunto de datos agrupados por I (DaysBeforeDep.) (Datos falsos):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Lo que se me ocurrió hasta ahora
Mirando los gráficos de líneas, ya puedo estimar que varias líneas tendrán un factor de correlación alto. Por lo tanto, intenté usar el análisis de correlación primero en los datos agrupados. ¿Pero es esa la forma correcta? Básicamente, ¿ahora trato de hacer correlaciones en los promedios en lugar de los precios individuales? ¿Hay otra manera?
No estoy seguro de qué modelo de regresión se ajusta aquí, ya que los precios no se mueven en ninguna forma lineal y parecen no lineales. ¿Necesitaría adaptar un modelo a cada uno de los desarrollos de precios de una aerolínea
PD: Este es un largo muro de texto. Si necesito aclarar algo, hágamelo saber. Soy nuevo en este submarino.
Alguien una pista? :-)
Además del análisis exploratorio de datos (EDA), tanto descriptivo como visual, trataría de utilizar el análisis de series de tiempo como un análisis más completo y sofisticado . Específicamente, realizaría análisis de regresión de series de tiempo . El análisis de series de tiempo es un gran campo de investigación y práctica, por lo que, si no está familiarizado con los fundamentos, sugiero comenzar con el artículo de Wikipedia vinculado anteriormente, buscar gradualmente temas más específicos y leer los artículos, documentos y libros correspondientes.
Dado que el análisis de series de tiempo es un muy popular enfoque, que es apoyada por la mayoría de código abierto y comercial de código cerrado la ciencia de datos y estadísticas ambientes (software) , tales como R , Python , SAS , SPSS y muchos otros. Si desea utilizar R para esto, consulte mis respuestas sobre el análisis general de series de tiempo y sobre la clasificación y agrupación de series de tiempo . Espero que esto sea útil.
fuente
ColumnUA(LH) 0.90435 <.0001 ColumnSQ 0.32544 <.0001 ColumnAF(DL) 0.55336 <.0001
supongo que tales resultados indican patrones de precios similares. Con un análisis de regresión, ¿qué averiguaría?