Jeffrey Wooldridge en su Análisis econométrico de la sección transversal y los datos del panel (página 357) dice que el hessiano empírico "no garantiza que sea definitivo positivo, o incluso semidefinido positivo, para la muestra particular con la que estamos trabajando".
Esto me parece incorrecto ya que (aparte de los problemas numéricos) el hessiano debe ser semidefinido positivo como resultado de la definición del estimador M como el valor del parámetro que minimiza la función objetivo para la muestra dada y el hecho bien conocido de que como mínimo (local) el hessiano es semidefinido positivo.
¿Es correcto mi argumento?
[EDITAR: La declaración se ha eliminado en la 2ª ed. del libro. Ver comentario.]
Antecedentes Supongamos que θ N es un estimador obtenido minimizando 1
Denotemos el Hessian de por ,
La covarianza asintótica de θ n implica E [ H ( q , θ 0 ) ] , donde es el verdadero valor del parámetro. Una forma de estimarlo es usar el Hesssian empírico
Es la precisión de H que está en cuestión.
fuente
Respuestas:
Creo que tienes razón. Destilemos su argumento a su esencia:
minimiza la funciónQse define comoQ(θ)=1θˆN Q Q(θ)=1N∑Ni=1q(wi,θ).
Sea el hessiano de Q , de donde H ( θ ) = ∂ 2 QH Q por definición y esto a su vez, por linealidad de diferenciación, es igual a1H(θ)=∂2Q∂θi∂θj 1N∑Ni=1H(wi,θn) .
AssumingθˆN lies in the interior of the domain of Q , then H(θˆN) must be positive semi-definite.
This is merely a statement about the functionQ : how it is defined is merely a distraction, except insofar as the assumed second order differentiability of q with respect to its second argument (θ ) assures the second order differentiability of Q .
Encontrar estimadores M puede ser complicado. Considere estos datos proporcionados por @mpiktas:
El procedimiento R para encontrar el estimador M con produjo la solución ( c 1 , c 2 ) = ( - 114.91316 , - 32.54386 ) . El valor de la función objetivo (el promedio de las q 's) en este punto es igual a 62.3542. Aquí hay una trama del ajuste:q((x,y),θ)=(y−c1xc2)4 (c1,c2) (−114.91316,−32.54386) q
Aquí hay una gráfica de la función objetivo (log) en un vecindario de este ajuste:
Aquí hay algo sospechoso: los parámetros del ajuste están muy lejos de los parámetros utilizados para simular los datos (cerca de ) y no parecemos estar al mínimo: estamos en un valle extremadamente poco profundo que está inclinado hacia valores mayores de ambos parámetros:(0.3,0.2)
¡El determinante negativo del hessiano en este punto confirma que este no es un mínimo local! Sin embargo, cuando observa las etiquetas del eje z, puede ver que esta función es plana con una precisión de cinco dígitos dentro de toda la región, porque equivale a una constante de 4.1329 (el logaritmo de 62.354). Esto probablemente llevó al minimizador de la función R (con sus tolerancias predeterminadas) a concluir que estaba cerca de un mínimo.
De hecho, la solución está lejos de este punto. Para estar seguro de encontrarlo, utilicé el método " Eje principal " computacionalmente costoso pero altamente efectivo en Mathematica , usando una precisión de 50 dígitos (base 10) para evitar posibles problemas numéricos. Encuentra un mínimo cercano a donde la función objetivo tiene el valor 58.292655: aproximadamente un 6% más pequeño que el "mínimo" encontrado por R. Este mínimo ocurre en una sección de aspecto extremadamente plano , pero puedo hacer que se vea (apenas) como un mínimo verdadero, con contornos elípticos, exagerando el c(c1,c2)=(0.02506,7.55973) c2 dirección en la trama:
Los contornos van desde 58.29266 en el medio hasta 58.29284 en las esquinas (!). Aquí está la vista 3D (nuevamente del objetivo de registro):
Aquí el hessiano es positivo-definido: sus valores propios son 55062.02 y 0.430978. Por lo tanto, este punto es un mínimo local (y probablemente un mínimo global). Aquí está el ajuste al que corresponde:
Creo que es mejor que el otro. Los valores de los parámetros son ciertamente más realistas y está claro que no podremos hacerlo mucho mejor con esta familia de curvas.
Hay lecciones útiles que podemos extraer de este ejemplo:
fuente
If the solutionθ^N is interior point of Θ , objective function is twice differentiable and gradient of the objective function is zero, then Hessian of the objective function (which is H^ ) is positive semi-definite.
Now what Wooldridge is saying that for given sample the empirical Hessian is not guaranteed to be positive definite or even positive semidefinite. This is true, since Wooldridge does not require that objective functionN−1∑Ni=1q(wi,θ) has nice properties, he requires that there exists a unique solution θ0 for
So for given sample objective functionN−1∑Ni=1q(wi,θ) may be minimized on the boundary point of Θ in which Hessian of objective function needs not to be positive definite.
Further in his book Wooldridge gives an examples of estimates of Hessian which are guaranteed to be numerically positive definite. In practice non-positive definiteness of Hessian should indicate that solution is either on the boundary point or the algorithm failed to find the solution. Which usually is a further indication that the model fitted may be inappropriate for a given data.
Here is the numerical example. I generate non-linear least squares problem:
I takeX uniformly distributed in interval [1,2] and ε normal with zero mean and variance σ2 . I generated a sample of size 10, in R 2.11.1 using xi and yi .
set.seed(3)
. Here is the link to the values ofI chose the objective function square of usual non-linear least squares objective function:
Here is the code in R for optimising function, its gradient and hessian.
First test that gradient and hessian works as advertised.
The hessian is zero, so it is positive semi-definite. Now for the values ofx and y given in the link we get
Gradient is zero, but the hessian is non positive.
Note: This is my third attempt to give an answer. I hope I finally managed to give precise mathematical statements, which eluded me in the previous versions.
fuente
The hessian is indefinite at a saddle point. It’s possible that this may be the only stationary point in the interior of the parameter space.
Update: Let me elaborate. First, let’s assume that the empirical Hessian exists everywhere.
Ifθ^n is a local (or even global) minimum of ∑iq(wi,⋅) and in the interior of the parameter space (assumed to be an open set) then necessarily the Hessian (1/N)∑iH(wi,θ^n) is positive semidefinite. If not, then θ^n is not a local minimum. This follows from second order optimality conditions — locally ∑iq(wi,⋅) must not decrease in any directions away from θ^n .
One source of the confusion might the "working" definition of an M-estimator. Although in principle an M-estimator should be defined asargminθ∑iq(wi,θ) , it might also be defined as a solution to the equation
Practically speaking, even a positive definite Hessian that is nearly singular or ill-conditioned would suggest that the estimator is poor and you have more to worry about than estimating its variance.
fuente
There's been a lot of beating around the bush in this thread regarding whether the Hessian has to be positive (semi)definite at a local minimum. So I will make a clear statement on that.
Presuming the objective function and all constraint functions are twice continuously differentiable, then at any local minimum, the Hessian of the Lagrangian projected into the null space of the Jacobian of active constraints must be positive semidefinite. I.e., ifZ is a basis for the null space of the Jacobian of active constraints, then ZT∗(Hessian of Lagrangian)∗Z must be positive semidefinite. This must be positive definite for a strict local minimum.
So the Hessian of the objective function in a constrained problem having active constraint(s) need not be positive semidefinite if there are active constraints.
Notes:
1) Active constraints consist of all equality constraints, plus inequality constraints which are satisfied with equality.
2) See the definition of the Lagrangian at https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .
3) If all constraints are linear, then the Hessian of the Lagrangian = Hessian of the objective function because the 2nd derivatives of linear functions are zero. But you still need to do the projection jazz if any of these constraints are active. Note that lower or upper bound constraints are particular cases of linear inequality constraints. If the only constraints which are active are bound constraints, the projection of the Hessian into the null space of the Jacobian of active constraints amounts to eliminating the rows and columns of the Hessian corresponding to those components on their bounds.
4) Because Lagrange multipliers of inactive constraints are zero, if there are no active constraints, the Hessian of the Lagrangian = the Hessian of the objective function, and the Identity matrix is a basis for the null space of the Jacobian of active constraints, which results in the simplification of the criterion being the familiar condition that the Hessian of the objective function be positive semidefinite at a local minimum (positive definite if a strict local minimum).
fuente
Las respuestas positivas anteriores son ciertas, pero omiten la suposición de identificación crucial : si su modelo no está identificado (o si solo está identificado), es posible que, como Wooldridge indicó correctamente, se encuentre con un Hessian empírico no PSD. Simplemente ejecute un modelo psicométrico / econométrico que no sea de juguete y compruébelo usted mismo.
fuente