Regresión de datos que incluye una fecha

8

Tengo un conjunto de datos que contiene unos cientos de transacciones de tres proveedores que operan en más de 100 países durante un período de tres años.

Hemos descubierto que el país de ventas no es un factor significativo en los precios alcanzados (los productos son más o menos productos globales). Todos los precios han disminuido significativamente con el tiempo. Cualquier día puede tener múltiples transacciones a diferentes precios del mismo proveedor (es decir, en diferentes países).

Me gustaría probar si existe una diferencia estadísticamente significativa en los precios cobrados por los diferentes proveedores.

Los datos se parecen a esto:

    Country X  1/1/2010  $200 Supplier A
    Country Y  1/1/2010  $209 Supplier A
    Country Z  1/1/2010  $187 Supplier A
    Country A  1/1/2010  $200 Supplier B
    Country X  1/2/2010  $188 Supplier B

¿Alguna idea sobre cómo hacer esto?.....

Tom
fuente
3
El análisis de datos longitudinales es un campo amplio. Para dar una buena respuesta a esta pregunta, es necesaria más información sobre el efecto que espera que tenga el tiempo. Sin esto, no está claro si las respuestas que ha recibido son buenas o no (es por eso que es bueno aclarar la pregunta antes, no después, usted responde ...) . Sé que has dicho que el precio disminuye con el tiempo, pero ¿hay más? Por ejemplo, ¿se espera que las mediciones repetidas en el mismo país estén correlacionadas? Si es así, ninguna de las respuestas existentes hará lo que necesita.
Macro
1
Grandes puntos! @Macro Esperaría alguna correlación entre múltiples puntos de datos dentro del mismo país (los precios pueden ser un poco rígidos). Además, realicé la prueba durban-watson y descubrí que los residuos están autocorrelacionados. Parece que este puede estar más allá de mí. Tal vez sea hora de llamar a un verdadero estadístico.
Tom
2
si está en R, hay funciones para tratar con fechas, y no me sorprendería si R pudiera manejar datos como este de manera elegante sin que tenga que especificar mucho más de lo que lo haría regularmente. Mira esto
bdeonovic
Definitivamente debe tener en cuenta la autocorrelación e incorporarla. Parece que un análisis de series de tiempo está en orden. +1 por reconocer la necesidad de traer "un verdadero estadístico". Hay muchos estadísticos de buena reputación disponibles a través del sitio web de la Asociación Americana de Estadística y muchos se pueden encontrar en las universidades locales.
StatsStudent

Respuestas:

2

Parece que necesita usar métodos de series temporales, como ARMA o ARIMA, que le permiten calcular una regresión usando el tiempo como una variable independiente sin violar el supuesto de observaciones independientes de OLS.

Es posible que desee probar un análisis de dos pasos: - primero use el tiempo como una variable predictiva única y use un método de serie de tiempo adecuado - dos vean si hay alguna diferencia significativa en los residuos entre los dos proveedores. (Una simple prueba t podría ser suficiente).

Ezra Boyd
fuente
0

Hay varias formas Una opción es convertir las fechas en días posteriores al primer día. Además, podría tener variables adicionales de días de la semana (tendencias durante la semana) y el mes (para ver las tendencias en ciertas épocas del año). Al hacerlo, puede usar la regresión múltiple.

Para obtener la variable "# de días después del primer día", creo (tanto Excel como R) simplemente puede restar los datos anteriores de la última fecha y obtener la diferencia del día. Así que quizás intente restar 1/1/2010 de todas sus fechas. También debe decirle a R que el nuevo valor es numérico usando as.numeric ()

EDITAR: R parece leer primero en el año, por lo que puede que tenga que cambiar un poco las fechas. mira esto: /programming/2254986/how-to-subtract-days-in-r

El análisis de series de tiempo es otro enfoque, pero no estoy muy familiarizado con él.

Hotaka
fuente
0

Puedo aconsejarle que use una función no lineal para la variable de tiempo porque la caída de los precios es menor con cada unidad de tiempo adicional. De lo contrario, el precio finalmente caería por debajo de cero. Además, puede haber períodos en que la tendencia haya cambiado. Por lo tanto, recomiendo usar splines cúbicas para la variable de tiempo.

La experiencia me susurra que comprobaría el siguiente modelo:
Y = parámetro_país * precio (t) * e

donde el precio (t) es una función, preferiblemente spline cúbico, pero también puede ser lo que sea, incluso una tendencia lineal. Tenga en cuenta que hay signos de multiplicación, no sumas, en el modelo.

Przemyslaw Remin
fuente
-1

Elija una fecha de referencia, digamos 1/1/2010, y cree una nueva variable timeque sea la diferencia entre la fecha y la fecha de referencia, donde la diferencia se calcula en, digamos, días.

Ahora ejecute una regresión lineal (o algo similar) con timey suppliercomo las dos variables predictoras y pricecomo la variable de respuesta.

Esto es sólo un punto de partida.

zkurtz
fuente
44
Hola, hice esto, pero ¿viola uno de los supuestos de regresión? es decir, los puntos son observaciones independientes? la trama residual se ve bien.
Tom
2
Buen punto. Siempre es bueno sospechar de la salida de regresión lineal, ya que los supuestos nunca se cumplen al 100%. En particular, el error estándar podría subestimarse enormemente si los residuos están correlacionados, como sugiere. Para verificar la independencia, la opción es usar la prueba de Durban Watson, como esta: tc.umn.edu/~ryoox001/images/DurbinWatson_test.pdf
zkurtz
Grandes puntos! Esperaría alguna correlación entre múltiples puntos de datos dentro del mismo país (los precios pueden ser un poco rígidos). Además, realicé la prueba durban-watson y descubrí que los residuos están autocorrelacionados. Parece que este puede estar más allá de mí. @zkurtz Podría ser hora de llamar a un verdadero estadístico.
Tom
1
Es una idea errónea que las observaciones de regresión deben ser iid. Los errores solo necesitan estar sin correlación y con una variación constante. En todo caso, agregar un efecto fijo por tiempo podría ayudar a garantizar que se cumpla esta condición. Lo único que puede salir mal aquí es el sobreajuste y / o una pérdida de precisión debido a tener demasiados parámetros para los datos. Probablemente valga la pena señalar que las ecuaciones para ajustar modelos ARMA estacionarios (V) se reducen a OLS.
shadowtalker
Para manejar la correlación en serie, es probable que desee utilizar un enfoque de análisis de series temporales o, como mínimo, un modelo GEE o de efectos mixtos capaz de manejar la naturaleza correlacionada de sus datos.
EstadísticasEstudiante