Estimación del modelo exponencial.

10

Un modelo exponencial es un modelo descrito por la siguiente ecuación:

\hat{y_{i}} = β_{0} \cdot e^{β_{1} x_{1 i} + \dots + β_{k} x_{k i}}

$\hat{y_{i}}=\beta_{0}\cdot e^{\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}}$

El enfoque más común utilizado para estimar dicho modelo es la linealización, que se puede hacer fácilmente calculando logaritmos de ambos lados. ¿Cuáles son los otros enfoques? Estoy especialmente interesado en aquellos que pueden manejar en algunas observaciones. $y_{i}=0$

Actualización 31.01.2011
Soy consciente del hecho de que este modelo no puede producir cero. Explicaré un poco lo que estoy modelando y por qué elijo este modelo. Digamos que queremos predecir cuánto dinero gasta un cliente en una tienda. Por supuesto, muchos clientes solo buscan y no compran nada, por eso hay 0. No quería usar el modelo lineal porque produce muchos valores negativos, lo que no tiene ningún sentido. La otra razón es que este modelo funciona realmente bien, mucho mejor que el lineal. He usado algoritmos genéticos para estimar esos parámetros, por lo que no fue un enfoque 'científico'. Ahora me gustaría saber cómo lidiar con los problemas utilizando métodos más científicos. También se puede suponer que la mayoría, o incluso todas, las variables son variables binarias.

estimation nonlinear-regression Tomek Tarczynski
fuente

1

Si hay ceros en sus datos, la regresión exponencial podría no ser apropiada, ya que el modelo, como usted dijo, no puede permitir que se observen valores cero.

mpiktas

11

Hay varios problemas aqui.

(1) El modelo debe ser explícitamente probabilístico . En casi todos los casos, no habrá un conjunto de parámetros para los cuales el lhs coincida con el rhs para todos sus datos: habrá residuales. Debe hacer suposiciones sobre esos residuos. ¿Esperas que sean cero en promedio? ¿Para ser distribuido simétricamente? ¿Estar aproximadamente distribuido normalmente?

Aquí hay dos modelos que están de acuerdo con el especificado pero que permiten un comportamiento residual drásticamente diferente (y, por lo tanto, generalmente darán lugar a estimaciones de parámetros diferentes). Puede variar estos modelos variando los supuestos sobre la distribución conjunta de : $\epsilon_{i}$

A: y_{i} = β_{0} \exp (β_{1} x_{1 i} + \dots + β_{k} x_{k i} + ϵ_{i})

$\text{A:}\ y_{i} =\beta_{0} \exp{\left(\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki} + \epsilon_{i}\right)}$

B: y_{i} = β_{0} \exp (β_{1} x_{1 i} + \dots + β_{k} x_{k i}) + ϵ_{i} .

$\text{B:}\ y_{i} =\beta_{0} \exp{\left(\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}\right)} + \epsilon_{i}.$

(Tenga en cuenta que estos son modelos para la información ; por lo general no hay tal cosa como un estimado valor de datos ). $y_i$ $\hat{y_i}$

(2) La necesidad de manejar valores cero para las y implica que el modelo (A) indicado es incorrecto e inadecuado , porque no puede producir un valor cero sin importar el error aleatorio. El segundo modelo anterior (B) permite valores cero (o incluso negativos) de y. Sin embargo, uno no debería elegir un modelo únicamente sobre esa base. Para reiterar # 1: es importante modelar los errores razonablemente bien.

(3) La linealización cambia el modelo . Por lo general, da como resultado modelos como (A) pero no como (B). Es utilizado por personas que han analizado sus datos lo suficiente como para saber que este cambio no afectará apreciablemente las estimaciones de los parámetros y por personas que ignoran lo que está sucediendo. (Es difícil, muchas veces, notar la diferencia).

(4) Una forma común de manejar la posibilidad de un valor cero es proponer que (o alguna reexpresión del mismo, como la raíz cuadrada) tiene una probabilidad estrictamente positiva de igual a cero. Matemáticamente, estamos mezclando una masa puntual (una "función delta") con alguna otra distribución. Estos modelos se ven así: $y$

\begin{aligned} f (y_{i}) & \sim F (θ); \\ θ_{j} & = β_{j 0} + β_{j 1} x_{1 i} + \dots + β_{j k} x_{k i} \end{aligned}

$\eqalign{ f(y_i) &\sim F(\mathbf{\theta}); \cr \theta_j &= \beta_{j0} + \beta_{j1} x_{1i} + \cdots + \beta_{jk} x_{ki} }$

donde es uno de los parámetros implícitos en el vector , es una familia de distribuciones parametrizadas por , es la reexpresión de las 's (la función "enlace" de un modelo lineal generalizado: ver la respuesta de onestop). (Por supuesto, entonces, = cuando ) Ejemplos son los Modelos de Poisson y binomio negativo inflados a cero . $\Pr_{F_\theta}[f(Y) = 0] = \theta_{j+1} \gt 0$ $\mathbf{\theta}$ $F$ $\theta_1, \ldots, \theta_j$ $f$ $y$ $\Pr_{F_\theta}[f(Y) \le t]$ $(1 - \theta_{j+1})F_\theta(t)$ $t \ne 0$

(5) Los problemas de construir un modelo y ajustarlo están relacionados pero son diferentes . Como un ejemplo simple, incluso un modelo de regresión ordinario puede ajustarse de muchas maneras por medio de mínimos cuadrados (que proporciona las mismas estimaciones de parámetros que Máxima verosimilitud y casi los mismos errores estándar), mínimos cuadrados repesados de forma iterativa , varias otras formas de " mínimos cuadrados robustos " , etc. La elección del ajuste a menudo se basa en la conveniencia, la conveniencia ( por ejemplo , disponibilidad de software), la familiaridad, el hábito o la convención, pero al menos se debe pensar dado a lo que es apropiado para la distribución supuesta de los términos de error , a lo que $Y = \beta_0 + \beta_1 X + \epsilon$ $\epsilon_i$ la función de pérdida para el problema podría ser razonable, y ante la posibilidad de explotar información adicional (como una distribución previa de los parámetros).

whuber
fuente

10

Este es un modelo lineal generalizado (GLM) con una función de enlace de registro .

Cualquier distribución de probabilidad en con densidad distinta de cero en cero manejará en algunas observaciones; la más común sería la distribución de Poisson, que da como resultado una regresión de Poisson , también conocida como modelado log-lineal. Otra opción sería una distribución binomial negativa . $[0,\infty)$ $y_i=0$

Si no tiene datos de recuento, o si toma valores no enteros, aún puede usar el marco de modelos lineales generalizados sin especificar completamente una distribución para pero en su lugar solo especificando la relación entre su media y varianza usando cuasi-verosimilitud . $y_i$ $\operatorname{P}(y_i|\bf{x})$

una parada
fuente

Es una pena que no me hayan enseñado al respecto en la universidad: / Parece que será útil en este caso, pero necesito algo de tiempo para profundizar en los detalles. ¡Gracias!

Tomek Tarczynski

Tenga en cuenta que siempre se puede reescalar a valores enteros cuando sea racional, por ejemplo, medir peniques / centavos en lugar de libras / dólares. Aunque es posible que desee redondear a la libra / dólar más cercana de todos modos ya que la distribución de la parte de los centavos / centavos del precio de los bienes probablemente sea muy desigual (es decir, principalmente 99).

y_{i}

$y_i$

James

3

Siempre puedes usar mínimos cuadrados no lineales . Entonces tu modelo será:

y_{yo} = β_{0 0} Exp (β_{1} X_{1 yo} + . . . + β_{k} X_{k yo}) + ε_{yo}

$y_i=\beta_0\exp(\beta_1x_{1i}+...+\beta_kx_{ki})+\varepsilon_i$

Los ceros en serán tratados como desviaciones de la tendencia no lineal. $y_i$

mpiktas
fuente

¿Qué pasa con los valores iniciales de los parámetros? ¿Cuál es una buena forma de elegirlos? Como dije en una actualización, se puede suponer que no hay variables continuas.

Tomek Tarczynski

@Tomek, creo que no hay una buena manera de elegirlos. Por lo general, depende de los datos. Sugiero la media para la intersección y cero para otros coeficientes.

mpiktas

Estimación del modelo exponencial.

Respuestas: