¿Cómo modelar precios?

15

Hice esta pregunta en el sitio matemathics stackexchange y me recomendó preguntar aquí.

Estoy trabajando en un proyecto de hobby y necesitaría ayuda con el siguiente problema.

Un poco de contexto

Digamos que hay una colección de artículos con una descripción de características y un precio. Imagine una lista de autos y precios. Todos los automóviles tienen una lista de características, por ejemplo, tamaño del motor, color, potencia, modelo, año, etc. Para cada marca, algo como esto:

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

Yendo aún más lejos, la lista de automóviles con precios se publica con un intervalo de tiempo, lo que significa que tenemos acceso a datos históricos de precios. Puede que no siempre incluya exactamente los mismos autos.

Problema

Me gustaría entender cómo modelar los precios de cualquier automóvil con base en esta información básica, lo más importante es que los autos no están en la lista inicial.

Ford, v6, red, automatic, 130hp, 2009

Para el auto anterior, es casi igual a uno en la lista, solo que ligeramente diferente en potencia y año. Para valorar esto, ¿qué se necesita?

Lo que estoy buscando es algo práctico y simple, pero también me gustaría escuchar acerca de enfoques más complejos sobre cómo modelar algo como esto.

Lo que he intentado

Esto es lo que he estado experimentando hasta ahora:

1) uso de datos históricos para buscar el automóvil X. Si no se encuentra, no hay precio. Por supuesto, esto es muy limitado y solo se puede usar esto en combinación con cierta disminución del tiempo para alterar los precios de los automóviles conocidos con el tiempo.

2) usar un esquema de ponderación de características del automóvil junto con un automóvil de muestra con precio. Básicamente, hay un precio base y las características solo lo alteran con algún factor. En base a esto, se deriva el precio de cualquier automóvil.

El primero resultó ser insuficiente y el segundo no siempre fue correcto y es posible que no haya tenido el mejor enfoque para usar las pesas. Esto también parece ser un poco pesado para mantener los pesos, por eso pensé que tal vez haya alguna forma de usar los datos históricos como estadísticas de alguna manera para obtener pesos u otra cosa. Simplemente no sé por dónde empezar.

Otros aspectos importantes.

  • integrar en algún proyecto de software que tengo. Ya sea usando bibliotecas existentes o escribiendo algoritmos yo mismo.
  • recálculo rápido cuando entran nuevos datos históricos.

¿Alguna sugerencia de cómo podría abordarse un problema como este? Todas las ideas son más que bienvenidas.

¡Muchas gracias de antemano y espero leer sus sugerencias!

Murrekatt
fuente

Respuestas:

11

"Práctico" y "simple" sugieren regresión de mínimos cuadrados . Es fácil de configurar, fácil de hacer con un montón de software (R, Excel, Mathematica, cualquier paquete de estadísticas), fácil de interpretar y puede ampliarse de muchas maneras dependiendo de qué tan preciso desee ser y qué tan difícil sea con ganas de trabajar.

Este enfoque es esencialmente su "esquema de ponderación" (2), pero encuentra los pesos fácilmente, garantiza la mayor precisión posible y es fácil y rápido de actualizar. Hay muchas bibliotecas para realizar cálculos de mínimos cuadrados.

Ayudará a incluir no solo las variables que enumeró (tipo de motor, potencia, etc.) sino también la edad del automóvil. Además, asegúrese de ajustar los precios por inflación.

whuber
fuente
¡Vendido! ¡Eso suena exactamente lo que estoy buscando! Como soy nuevo en esto, tengo problemas para comparar sugerencias, así que me pregunto cómo se compararía la regresión de mínimos cuadrados con la regresión múltiple y el "precio hedónico". Estas son sugerencias que obtuve en el sitio de matemáticas donde publiqué inicialmente. ¿Qué estoy arreglando cuando uso la regresión de mínimos cuadrados, por ejemplo? Básicamente, ¿hay algo que deba tener en cuenta al usar este enfoque?
murrekatt
También gracias por esta sugerencia. Parece muy bueno Tendré que leer más para tener una idea de cómo puedo comenzar a ver cómo usarlo.
murrekatt
33
Quiero reconocer y expresar mi acuerdo con las advertencias publicadas por @mpiktas y @dimitrij celov. Los análisis de precios pueden ser, y en muchos casos deberían ser, tan complejos como los sistemas económicos de los que forman parte. Sin embargo, debido a la aplicación prevista (un pasatiempo) y las limitaciones claramente señaladas en las capacidades del OP para el modelado estadístico, debemos dar un gran valor a la simplicidad, facilidad de uso e interpretabilidad. Obviamente, alguien que aún no esté familiarizado con los mínimos cuadrados no va a saltar directamente y comenzar a crear modelos econométricos completos.
whuber
5

Estoy de acuerdo con @whuber, que la regresión lineal es un camino a seguir, pero se debe tener cuidado al interpretar los resultados. El problema es que en economía el precio siempre está relacionado con la demanda. Si la demanda sube, los precios suben, si la demanda baja, los precios bajan. Entonces, el precio está determinado por la demanda y, a cambio, la demanda está determinada por el precio. Entonces, si modelamos el precio como una regresión de algunos atributos sin la demanda, existe un peligro real de que las estimaciones de regresión sean incorrectas debido al sesgo de variable omitida .

mpiktas
fuente
@mpiktas: gracias. Entiendo lo que dices. Esto era algo en lo que estaba pensando, pero no sabía exactamente cómo preguntar o agregar a la pregunta. ¿Cómo lidiar con lo que explicas? ¿Es este un problema que está separado y, a medida que escribe, debe tenerse en cuenta al interpretar los resultados, o está integrado en otros enfoques y no forma parte de la regresión de mínimos cuadrados? No estoy seguro de cómo formularme, pero lo que quiero decir es que ¿hay enfoques que tengan esto en cuenta y otros que no? ¿Qué significa que para el "no" debemos interpretar los resultados?
murrekatt
33
@murekatt, si no tiene datos adicionales bajo demanda, pero necesita el modelo para conocer el precio, debe lidiar con esto con especial cuidado. Esto significa menos atención a la significación estadística de los coeficientes, pero más atención al pronóstico de desempeño. Esencialmente, esto significa tratar la regresión como un recuadro negro y utilizar el rendimiento del pronóstico del modelo como medida de validez del modelo. Esto significa usar validación cruzada, división de datos para entrenar y probar muestras, etc.
mpiktas
@mpiktas: ¿qué quieres decir con "datos adicionales"? ¿Podría dar un ejemplo de esto en el contexto del automóvil?
murrekatt
1
@murrekatt, mira el final de la respuesta actualizada de Dmitrij. Los datos de demanda son importantes, por lo que si tiene cuántos autos se vendieron con un precio determinado, esto sería de gran ayuda. Además, si tiene datos sobre cómo cambian los precios de un automóvil determinado con atributos fijos, esto también debería reflejarse en su modelo
mpiktas
1
@murekatt, en principio sí. Creo que debe comenzar con poco y agregar funciones adicionales más adelante. Los resultados iniciales le dirán qué dirección tomar más adelante.
mpiktas
4

Lo que estoy buscando es algo práctico y simple, pero también me gustaría escuchar acerca de enfoques más complejos sobre cómo modelar algo como esto.

Después de algún tipo de discusión, aquí está mi visión completa de las cosas

El problema

Objetivo: comprender cómo fijar el precio de los automóviles de una mejor manera.

Contexto: en su proceso de decisión, las personas resuelven varias preguntas: si necesito un automóvil, si lo hago, qué atributos prefiero (incluido el precio, porque, siendo racional, me gustaría tener un automóvil con la mejor relación calidad / precio) , compare el número de atributos entre diferentes automóviles y elija valorarlos conjuntamente .

Desde la posición del vendedor, me gustaría establecer el precio lo más alto posible y vender el automóvil lo más rápido posible. Entonces, si establezco el precio demasiado alto y espero durante meses, podría considerarse como no exigido en el mercado y marcado con 0 en comparación con los conjuntos de atributos muy demandados.

Observaciones: ofertas reales que relacionan los atributos de un automóvil en particular con el precio establecido dentro del proceso de negociación (con respecto a la observación anterior, es importante saber cuánto tiempo se tarda en establecer la oferta).

Pros: observa las cosas que realmente se compraron en el mercado, por lo que no está adivinando si existe una persona con un precio de reserva lo suficientemente alto que quiera comprar un automóvil en particular

Contras:

  1. su suposición es que el mercado es eficiente, lo que significa que los precios que observa están cerca del equilibrio
  2. ignora las variantes de los atributos del automóvil que no se compraron o tomaron demasiado tiempo para establecer el acuerdo, lo que significa que sus ideas son parciales , por lo que realmente trabaja con modelos variables latentes
  3. Al observar los datos durante mucho tiempo, debe desinflarlos, aunque la inclusión de la edad del automóvil compensa en parte esto.

Métodos de solución

El primero, como lo sugiere whuber, es el modelo clásico de regresión de mínimos cuadrados

Pros:

  1. de hecho, la solución más simple, ya que es el caballo de batalla de la econometría

Contras:

  1. ignora que observas las cosas de manera incompleta ( variables latentes )
  2. actúa como los regresores son independientes entre sí, por lo que el modelo básico ignora el hecho de que puede que te guste el Ford azul de manera diferente al Mercedes azul , pero no es la suma de la influencia marginal que proviene del azul y Ford

En caso de regresión clásica, ya que no está limitado en los grados de libertad, pruebe también diferentes términos de interacción.

Por lo tanto, la solución más complicada sería el modelo tobit o Heckman , es posible que desee consultar AC Cameron y PK Trivedi Microeconometrics: métodos y aplicaciones para obtener más detalles sobre los métodos principales.

Pros:

  1. haces separar el hecho de que las personas pueden no como algunos conjuntos de atributos en absoluto, o algún conjunto de atributos tiene una pequeña probabilidad de ser comprado desde del precio real
  2. sus resultados no están sesgados (o al menos menos que en el primer caso)
  3. en el caso de Heckman, separa las razones que motivan la compra de un automóvil en particular de la decisión de precio de cuánto me gustaría pagar por este automóvil: el primero está influenciado por las preferencias individuales, el segundo por la restricción presupuestaria

Contras:

  1. Ambos modelos son más codiciosos de datos , es decir, debemos observar el tiempo transcurrido entre la solicitud y la oferta para igualar (si es bastante corto, poner 1, de lo contrario 0), o observar los conjuntos que fueron ignorados por el mercado

Y, finalmente, si simplemente está interesado en cómo el precio influye en la probabilidad de compra, puede trabajar con algún tipo de modelo logit .

Acordamos que el análisis conjunto no es adecuado aquí, porque usted tiene diferentes contextos y observaciones.

Buena suerte.

Dmitrij Celov
fuente
Exactamente, ¿cómo aplicaría un modelo logit multinomial, cuya variable dependiente es categórica, a los precios, que no son categóricos?
whuber
@Dmitrij Celov: Gracias por su sugerencia. Trataré de responder tus preguntas. 1) No hay precio disponible, esto es lo desconocido que me gustaría responder mirando autos similares. 2) No sé qué variable pesa más, esto esperaba obtener. 3) Me gustaría basarme en una lista de automóviles con características y precios para poder fijar el precio de cualquier automóvil con cualquier característica.
murrekatt
Kj1j10P(yi=1|yj=0)=11+eβ(XiXj)yiyj
@murrekatt: 1) ¿Entonces buscas los atributos más "valiosos"? 2) Los parámetros estimados de Logit se interpretan muy bien como probabilidades y cocientes de probabilidades, pero el logit multinomial tiene una característica débil conocida como independencia de alternativas irrelevantes 3) ¿Puede estar seguro de que los precios indicados son relevantes, es decir, que los automóviles fueron realmente comprados? @whuber: la regresión simple funciona bien aquí, si el dependiente es el precio, pero de nuevo, ¿qué precio? publicado donde? o es la transacción actual?
Dmitrij Celov
2
@Dimitrij Price no es una variable independiente: es la variable dependiente : "Me gustaría entender cómo modelar los precios de cualquier automóvil en función de esta información básica". Me temo que con este malentendido puede llevar a @murrekatt muy lejos.
whuber
4

A mí también me parece un problema de regresión lineal, pero ¿qué pasa con K vecinos más cercanos KNN ? Puede llegar a una fórmula de distancia entre cada automóvil y calcular el precio como el promedio entre la K (digamos 3) más cercana. Una fórmula de distancia puede ser euclidiana, como la diferencia en cilindros más la diferencia en puertas, más la diferencia en caballos de fuerza, etc.

Si va con regresión lineal, sugeriría un par de cosas:

  • Escale el valor en dólares hasta la actualidad para tener en cuenta la inflación.
  • Divide tus datos en épocas. Apuesto a que encontrarás que necesitarás un modelo para pre ww2 y post ww2, por ejemplo. Sin embargo, esto es solo una corazonada.
  • Valide en cruz su modelo para evitar un ajuste excesivo. Divide tus datos en 5 partes. Entrena en 4 y urna a la modelo en la quinta parte. Resuma los errores, enjuague, repita para los otros trozos.

Otra idea es hacer un híbrido entre modelos. Use la regresión y KNN como puntos de datos y cree el precio final como el promedio ponderado o algo así.

dwatson
fuente
3

Además de lo que se ha dicho, y no muy diferente de algunas de las sugerencias ya hechas, es posible que desee echar un vistazo a la vasta literatura sobre modelos de precios hedónicos . Todo se reduce a un modelo de regresión que intenta explicar el precio de un bien compuesto en función de sus atributos.

Esto le permitiría fijar el precio de un automóvil conociendo sus atributos (potencia, tamaño, marca, etc.), incluso si no hay una mezcla de atributos exactamente similar en su muestra. Es un enfoque muy popular para la valoración de activos esencialmente no replicables, como las propiedades inmobiliarias. Si busca "modelos hedónicos" en Google, encontrará muchas referencias y ejemplos.

F. Tusell
fuente
@F. Tusell: esa fue una buena descripción. Ya confundí esto en otras publicaciones, pero esto resumió bien las cosas para un principiante como yo.
murrekatt