Hice esta pregunta en el sitio matemathics stackexchange y me recomendó preguntar aquí.
Estoy trabajando en un proyecto de hobby y necesitaría ayuda con el siguiente problema.
Un poco de contexto
Digamos que hay una colección de artículos con una descripción de características y un precio. Imagine una lista de autos y precios. Todos los automóviles tienen una lista de características, por ejemplo, tamaño del motor, color, potencia, modelo, año, etc. Para cada marca, algo como esto:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
Yendo aún más lejos, la lista de automóviles con precios se publica con un intervalo de tiempo, lo que significa que tenemos acceso a datos históricos de precios. Puede que no siempre incluya exactamente los mismos autos.
Problema
Me gustaría entender cómo modelar los precios de cualquier automóvil con base en esta información básica, lo más importante es que los autos no están en la lista inicial.
Ford, v6, red, automatic, 130hp, 2009
Para el auto anterior, es casi igual a uno en la lista, solo que ligeramente diferente en potencia y año. Para valorar esto, ¿qué se necesita?
Lo que estoy buscando es algo práctico y simple, pero también me gustaría escuchar acerca de enfoques más complejos sobre cómo modelar algo como esto.
Lo que he intentado
Esto es lo que he estado experimentando hasta ahora:
1) uso de datos históricos para buscar el automóvil X. Si no se encuentra, no hay precio. Por supuesto, esto es muy limitado y solo se puede usar esto en combinación con cierta disminución del tiempo para alterar los precios de los automóviles conocidos con el tiempo.
2) usar un esquema de ponderación de características del automóvil junto con un automóvil de muestra con precio. Básicamente, hay un precio base y las características solo lo alteran con algún factor. En base a esto, se deriva el precio de cualquier automóvil.
El primero resultó ser insuficiente y el segundo no siempre fue correcto y es posible que no haya tenido el mejor enfoque para usar las pesas. Esto también parece ser un poco pesado para mantener los pesos, por eso pensé que tal vez haya alguna forma de usar los datos históricos como estadísticas de alguna manera para obtener pesos u otra cosa. Simplemente no sé por dónde empezar.
Otros aspectos importantes.
- integrar en algún proyecto de software que tengo. Ya sea usando bibliotecas existentes o escribiendo algoritmos yo mismo.
- recálculo rápido cuando entran nuevos datos históricos.
¿Alguna sugerencia de cómo podría abordarse un problema como este? Todas las ideas son más que bienvenidas.
¡Muchas gracias de antemano y espero leer sus sugerencias!
fuente
Estoy de acuerdo con @whuber, que la regresión lineal es un camino a seguir, pero se debe tener cuidado al interpretar los resultados. El problema es que en economía el precio siempre está relacionado con la demanda. Si la demanda sube, los precios suben, si la demanda baja, los precios bajan. Entonces, el precio está determinado por la demanda y, a cambio, la demanda está determinada por el precio. Entonces, si modelamos el precio como una regresión de algunos atributos sin la demanda, existe un peligro real de que las estimaciones de regresión sean incorrectas debido al sesgo de variable omitida .
fuente
Después de algún tipo de discusión, aquí está mi visión completa de las cosas
El problema
Objetivo: comprender cómo fijar el precio de los automóviles de una mejor manera.
Contexto: en su proceso de decisión, las personas resuelven varias preguntas: si necesito un automóvil, si lo hago, qué atributos prefiero (incluido el precio, porque, siendo racional, me gustaría tener un automóvil con la mejor relación calidad / precio) , compare el número de atributos entre diferentes automóviles y elija valorarlos conjuntamente .
Desde la posición del vendedor, me gustaría establecer el precio lo más alto posible y vender el automóvil lo más rápido posible. Entonces, si establezco el precio demasiado alto y espero durante meses, podría considerarse como no exigido en el mercado y marcado con 0 en comparación con los conjuntos de atributos muy demandados.
Observaciones: ofertas reales que relacionan los atributos de un automóvil en particular con el precio establecido dentro del proceso de negociación (con respecto a la observación anterior, es importante saber cuánto tiempo se tarda en establecer la oferta).
Pros: observa las cosas que realmente se compraron en el mercado, por lo que no está adivinando si existe una persona con un precio de reserva lo suficientemente alto que quiera comprar un automóvil en particular
Contras:
Métodos de solución
El primero, como lo sugiere whuber, es el modelo clásico de regresión de mínimos cuadrados
Pros:
Contras:
En caso de regresión clásica, ya que no está limitado en los grados de libertad, pruebe también diferentes términos de interacción.
Por lo tanto, la solución más complicada sería el modelo tobit o Heckman , es posible que desee consultar AC Cameron y PK Trivedi Microeconometrics: métodos y aplicaciones para obtener más detalles sobre los métodos principales.
Pros:
Contras:
Y, finalmente, si simplemente está interesado en cómo el precio influye en la probabilidad de compra, puede trabajar con algún tipo de modelo logit .
Acordamos que el análisis conjunto no es adecuado aquí, porque usted tiene diferentes contextos y observaciones.
Buena suerte.
fuente
A mí también me parece un problema de regresión lineal, pero ¿qué pasa con K vecinos más cercanos KNN ? Puede llegar a una fórmula de distancia entre cada automóvil y calcular el precio como el promedio entre la K (digamos 3) más cercana. Una fórmula de distancia puede ser euclidiana, como la diferencia en cilindros más la diferencia en puertas, más la diferencia en caballos de fuerza, etc.
Si va con regresión lineal, sugeriría un par de cosas:
Otra idea es hacer un híbrido entre modelos. Use la regresión y KNN como puntos de datos y cree el precio final como el promedio ponderado o algo así.
fuente
Además de lo que se ha dicho, y no muy diferente de algunas de las sugerencias ya hechas, es posible que desee echar un vistazo a la vasta literatura sobre modelos de precios hedónicos . Todo se reduce a un modelo de regresión que intenta explicar el precio de un bien compuesto en función de sus atributos.
Esto le permitiría fijar el precio de un automóvil conociendo sus atributos (potencia, tamaño, marca, etc.), incluso si no hay una mezcla de atributos exactamente similar en su muestra. Es un enfoque muy popular para la valoración de activos esencialmente no replicables, como las propiedades inmobiliarias. Si busca "modelos hedónicos" en Google, encontrará muchas referencias y ejemplos.
fuente