Tengo un conjunto de datos que contiene unos cientos de transacciones de tres proveedores que operan en más de 100 países durante un período de tres años.
Hemos descubierto que el país de ventas no es un factor significativo en los precios alcanzados (los productos son más o menos productos globales). Todos los precios han disminuido significativamente con el tiempo. Cualquier día puede tener múltiples transacciones a diferentes precios del mismo proveedor (es decir, en diferentes países).
Me gustaría probar si existe una diferencia estadísticamente significativa en los precios cobrados por los diferentes proveedores.
Los datos se parecen a esto:
Country X 1/1/2010 $200 Supplier A
Country Y 1/1/2010 $209 Supplier A
Country Z 1/1/2010 $187 Supplier A
Country A 1/1/2010 $200 Supplier B
Country X 1/2/2010 $188 Supplier B
¿Alguna idea sobre cómo hacer esto?.....
Respuestas:
Parece que necesita usar métodos de series temporales, como ARMA o ARIMA, que le permiten calcular una regresión usando el tiempo como una variable independiente sin violar el supuesto de observaciones independientes de OLS.
Es posible que desee probar un análisis de dos pasos: - primero use el tiempo como una variable predictiva única y use un método de serie de tiempo adecuado - dos vean si hay alguna diferencia significativa en los residuos entre los dos proveedores. (Una simple prueba t podría ser suficiente).
fuente
Hay varias formas Una opción es convertir las fechas en días posteriores al primer día. Además, podría tener variables adicionales de días de la semana (tendencias durante la semana) y el mes (para ver las tendencias en ciertas épocas del año). Al hacerlo, puede usar la regresión múltiple.
Para obtener la variable "# de días después del primer día", creo (tanto Excel como R) simplemente puede restar los datos anteriores de la última fecha y obtener la diferencia del día. Así que quizás intente restar 1/1/2010 de todas sus fechas. También debe decirle a R que el nuevo valor es numérico usando as.numeric ()
EDITAR: R parece leer primero en el año, por lo que puede que tenga que cambiar un poco las fechas. mira esto: /programming/2254986/how-to-subtract-days-in-r
El análisis de series de tiempo es otro enfoque, pero no estoy muy familiarizado con él.
fuente
Puedo aconsejarle que use una función no lineal para la variable de tiempo porque la caída de los precios es menor con cada unidad de tiempo adicional. De lo contrario, el precio finalmente caería por debajo de cero. Además, puede haber períodos en que la tendencia haya cambiado. Por lo tanto, recomiendo usar splines cúbicas para la variable de tiempo.
La experiencia me susurra que comprobaría el siguiente modelo:
Y = parámetro_país * precio (t) * e
donde el precio (t) es una función, preferiblemente spline cúbico, pero también puede ser lo que sea, incluso una tendencia lineal. Tenga en cuenta que hay signos de multiplicación, no sumas, en el modelo.
fuente
Elija una fecha de referencia, digamos 1/1/2010, y cree una nueva variable
time
que sea la diferencia entre la fecha y la fecha de referencia, donde la diferencia se calcula en, digamos, días.Ahora ejecute una regresión lineal (o algo similar) con
time
ysupplier
como las dos variables predictoras yprice
como la variable de respuesta.Esto es sólo un punto de partida.
fuente