¿Puede la arpillera empírica de un estimador M ser indefinida?

15

Jeffrey Wooldridge en su Análisis econométrico de la sección transversal y los datos del panel (página 357) dice que el hessiano empírico "no garantiza que sea definitivo positivo, o incluso semidefinido positivo, para la muestra particular con la que estamos trabajando".

Esto me parece incorrecto ya que (aparte de los problemas numéricos) el hessiano debe ser semidefinido positivo como resultado de la definición del estimador M como el valor del parámetro que minimiza la función objetivo para la muestra dada y el hecho bien conocido de que como mínimo (local) el hessiano es semidefinido positivo.

¿Es correcto mi argumento?

[EDITAR: La declaración se ha eliminado en la 2ª ed. del libro. Ver comentario.]

Antecedentes Supongamos que θ N es un estimador obtenido minimizando 1θ^N

1Ni=1Nq(wi,θ),
dondewidenota lai-ésima observación.

Denotemos el Hessian de q por H ,

H(q,θ)ij=2qθiθj

La covarianza asintótica de θ n implica E [ H ( q , θ 0 ) ] , dondeθ^nE[H(q,θ0)]θ0 es el verdadero valor del parámetro. Una forma de estimarlo es usar el Hesssian empírico

H^=1Ni=1NH(wi,θ^n)

Es la precisión de H que está en cuestión.H^

Jyotirmoy Bhattacharya
fuente
1
@Jyotirmoy, ¿qué pasa si el mínimo ocurre en el límite de su espacio de parámetros?
cardenal
@cardenal. Tienes razón, mi argumento no funcionará en ese caso. Pero Wooldridge está considerando el caso donde el mínimo está en el interior. ¿No está equivocado en ese caso?
Jyotirmoy Bhattacharya
@Jyotirmoy, ciertamente puede ser solo semidefinido positivo. Piense en funciones lineales o una función donde el conjunto de puntos mínimos forma un politopo convexo. Para un ejemplo más simple, considere cualquier polinomio en x = 0 . f(x)=x2nx=0
cardenal
1
@cardenal. Cierto. Lo que me preocupa es la frase "incluso semidefinido positivo" en la declaración citada.
Jyotirmoy Bhattacharya
@Jyotirmoy, ¿hay una forma específica del estimador M que se proporciona en el libro que podría proporcionar? También dé el espacio del parámetro bajo consideración. Tal vez entonces podamos descubrir lo que el autor tenía en mente. En general, creo que ya hemos establecido que la afirmación del autor es correcta. Poner más restricciones en la forma de o el espacio del parámetro que se está considerando podría alterar eso. q
cardenal

Respuestas:

16

Creo que tienes razón. Destilemos su argumento a su esencia:

  1. minimiza la funciónQse define comoQ(θ)=1θ^NQQ(θ)=1Ni=1Nq(wi,θ).

  2. Sea el hessiano de Q , de donde H ( θ ) = 2 QHQ por definición y esto a su vez, por linealidad de diferenciación, es igual a1H(θ)=2Qθiθj1Ni=1NH(wi,θn).

  3. Assuming θ^N lies in the interior of the domain of Q, then H(θ^N) must be positive semi-definite.

This is merely a statement about the function Q: how it is defined is merely a distraction, except insofar as the assumed second order differentiability of q with respect to its second argument (θ) assures the second order differentiability of Q.


Encontrar estimadores M puede ser complicado. Considere estos datos proporcionados por @mpiktas:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

El procedimiento R para encontrar el estimador M con produjo la solución ( c 1 , c 2 ) = ( - 114.91316 , - 32.54386 ) . El valor de la función objetivo (el promedio de las q 's) en este punto es igual a 62.3542. Aquí hay una trama del ajuste:q((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386)q

Ajuste 1

Aquí hay una gráfica de la función objetivo (log) en un vecindario de este ajuste:

Objetivo 1

Aquí hay algo sospechoso: los parámetros del ajuste están muy lejos de los parámetros utilizados para simular los datos (cerca de ) y no parecemos estar al mínimo: estamos en un valle extremadamente poco profundo que está inclinado hacia valores mayores de ambos parámetros:(0.3,0.2)

Objetivo 1, vista 3D

¡El determinante negativo del hessiano en este punto confirma que este no es un mínimo local! Sin embargo, cuando observa las etiquetas del eje z, puede ver que esta función es plana con una precisión de cinco dígitos dentro de toda la región, porque equivale a una constante de 4.1329 (el logaritmo de 62.354). Esto probablemente llevó al minimizador de la función R (con sus tolerancias predeterminadas) a concluir que estaba cerca de un mínimo.

De hecho, la solución está lejos de este punto. Para estar seguro de encontrarlo, utilicé el método " Eje principal " computacionalmente costoso pero altamente efectivo en Mathematica , usando una precisión de 50 dígitos (base 10) para evitar posibles problemas numéricos. Encuentra un mínimo cercano a donde la función objetivo tiene el valor 58.292655: aproximadamente un 6% más pequeño que el "mínimo" encontrado por R. Este mínimo ocurre en una sección de aspecto extremadamente plano , pero puedo hacer que se vea (apenas) como un mínimo verdadero, con contornos elípticos, exagerando el c(c1,c2)=(0.02506,7.55973)c2 dirección en la trama:

Objetivo 2

Los contornos van desde 58.29266 en el medio hasta 58.29284 en las esquinas (!). Aquí está la vista 3D (nuevamente del objetivo de registro):

Objetivo 2, vista 3D

Aquí el hessiano es positivo-definido: sus valores propios son 55062.02 y 0.430978. Por lo tanto, este punto es un mínimo local (y probablemente un mínimo global). Aquí está el ajuste al que corresponde:

Ajuste 2

Creo que es mejor que el otro. Los valores de los parámetros son ciertamente más realistas y está claro que no podremos hacerlo mucho mejor con esta familia de curvas.

Hay lecciones útiles que podemos extraer de este ejemplo:

  1. La optimización numérica puede ser difícil, especialmente con el ajuste no lineal y las funciones de pérdida no cuadrática. Por lo tanto:
  2. Vuelva a verificar los resultados de tantas maneras como sea posible, incluyendo:
  3. Grafica la función objetivo siempre que puedas.
  4. Cuando los resultados numéricos parecen violar los teoremas matemáticos, sea extremadamente sospechoso.
  5. Cuando los resultados estadísticos sean sorprendentes, como los sorprendentes valores de los parámetros devueltos por el código R, sea más sospechoso.
whuber
fuente
+1, buen análisis. Creo que es por eso que Wooldridge incluyó el comentario. Sigo pensando que es posible pensar en algún ejemplo en el que la arpillera sea indefinida. Restricción artificial del espacio de parámetros, por ejemplo. En este ejemplo, el espacio de parámetros es plano completo, es por eso que el mínimo local dará arpillera semi-positiva. Creo que ha llegado el momento de escribir un buen correo electrónico a Wooldridge para conocer su opinión :)
mpiktas
@mpiktas Sí, estoy seguro de que existen problemas en los que un mínimo global interior tiene un Hessian indefinido, pero donde todos los parámetros son identificables. Pero simplemente no es posible que el Hessian en un mínimo global interior suficientemente suave sea indefinido. Este tipo de cosas se ha demostrado una y otra vez, como en la Topología de Milnor desde un punto de vista diferenciable . Sospecho que Wooldridge puede haber sido engañado por "soluciones" numéricas errantes. (Los errores tipográficos en la página citada sugieren que se escribió rápidamente, por cierto.)
whuber
incluso en el límite, hessian será positivo? Revisaré el libro, veo que realmente me falta un amplio conocimiento en esta área. Los teoremas clásicos son muy simples, por lo que supuse que no debería haber otra cosa muy complicada. Esa quizás sea una de las razones por las que tuve tantas dificultades para responder la pregunta.
mpiktas
@mpiktas En el límite, el hessiano ni siquiera se definirá necesariamente . La idea es la siguiente: si la matriz derivada jacobiana / hessiana / segunda se define en un punto crítico, entonces en una vecindad la función actúa como la forma cuadrática determinada por esta matriz. Si la matriz tiene valores propios positivos y negativos, la función debe aumentar en algunas direcciones y disminuir en otras: no puede ser un extremo local. Esto es lo que preocupa a @Jyotirmoy sobre la cita, que parece contradecir esta propiedad básica.
Whuber
Gracias a ti y a @mpiktas por el muy buen análisis. Tendería a estar de acuerdo con usted en que Wooldridge confunde las dificultades numéricas con las propiedades teóricas del estimador. Veamos si hay otras respuestas.
Jyotirmoy Bhattacharya
7

θ^N

minθΘN1i=1Nq(wi,θ)

If the solution θ^N is interior point of Θ, objective function is twice differentiable and gradient of the objective function is zero, then Hessian of the objective function (which is H^) is positive semi-definite.

Now what Wooldridge is saying that for given sample the empirical Hessian is not guaranteed to be positive definite or even positive semidefinite. This is true, since Wooldridge does not require that objective function N1i=1Nq(wi,θ) has nice properties, he requires that there exists a unique solution θ0 for

minθΘEq(w,θ).

So for given sample objective function N1i=1Nq(wi,θ) may be minimized on the boundary point of Θ in which Hessian of objective function needs not to be positive definite.

Further in his book Wooldridge gives an examples of estimates of Hessian which are guaranteed to be numerically positive definite. In practice non-positive definiteness of Hessian should indicate that solution is either on the boundary point or the algorithm failed to find the solution. Which usually is a further indication that the model fitted may be inappropriate for a given data.

Here is the numerical example. I generate non-linear least squares problem:

yi=c1xic2+εi

I take X uniformly distributed in interval [1,2] and ε normal with zero mean and variance σ2. I generated a sample of size 10, in R 2.11.1 using set.seed(3). Here is the link to the values of xi and yi.

I chose the objective function square of usual non-linear least squares objective function:

q(w,θ)=(yc1xic2)4

Here is the code in R for optimising function, its gradient and hessian.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

First test that gradient and hessian works as advertised.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

The hessian is zero, so it is positive semi-definite. Now for the values of x and y given in the link we get

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Gradient is zero, but the hessian is non positive.

Note: This is my third attempt to give an answer. I hope I finally managed to give precise mathematical statements, which eluded me in the previous versions.

mpiktas
fuente
@mpiktas, That's some interesting notation there (I know it's not yours). A w on the left-hand side and y and x on the right-hand side. I'm guessing w=(x,y) or something like that. Also, I'm assuming the squaring should be happening to ym(x,θ) and not just to m(x,θ). No?
cardinal
@mpiktas, I'm not quite sure how to interpret your first sentence due to the wording. I can see two ways, one that I'd call correct and the other I wouldn't. Also, strictly speaking, I don't agree with the second sentence in your first paragraph. As I've shown above, it is possible to be at a local minimum in the interior of the parameter space without the Hessian being positive definite.
cardinal
@cardinal, yes you are right. Wooldridge uses w for consistency reasons, y and x is reserved for response and predictors throughout the book. In this example w=(x,y).
mpiktas
@cardinal, I fixed my wording. Now it should be ok. Thanks for pointing out the problem.
mpiktas
@mptikas. Neither Wooldridge nor I are claiming that the Hessian has to be positive definite everywhere. My claim is that for an interior maximum the empirical Hessian has to be positive semidefinite as a necessary condition of a smooth function reaching its maximum. Wooldridge seems to be saying something different.
Jyotirmoy Bhattacharya
3

The hessian is indefinite at a saddle point. It’s possible that this may be the only stationary point in the interior of the parameter space.

Update: Let me elaborate. First, let’s assume that the empirical Hessian exists everywhere.

If θ^n is a local (or even global) minimum of iq(wi,) and in the interior of the parameter space (assumed to be an open set) then necessarily the Hessian (1/N)iH(wi,θ^n) is positive semidefinite. If not, then θ^n is not a local minimum. This follows from second order optimality conditions — locally iq(wi,) must not decrease in any directions away from θ^n.

One source of the confusion might the "working" definition of an M-estimator. Although in principle an M-estimator should be defined as argminθiq(wi,θ), it might also be defined as a solution to the equation

0=iq˙(wi,θ),
where q˙ is the gradient of q(w,θ) with respect to θ. This is sometimes called the Ψ-type. In the latter case a solution of that equation need not be a local minimum. It can be a saddle point and in this case the Hessian would be indefinite.

Practically speaking, even a positive definite Hessian that is nearly singular or ill-conditioned would suggest that the estimator is poor and you have more to worry about than estimating its variance.

vqv
fuente
could you adapt your answer so that it matches the notation of the question? To what is x2y2 referring? Where does this get inserted into the equations given in the question?
probabilityislogic
+1 Good points in the update, especially the last paragraph. When the Hessian is available--as is implicitly assumed throughout this discussion--one would automatically use its positive-definiteness as one of the criteria for testing any critical point and therefore this issue simply could not arise. This leads me to believe the Wooldridge quotation must concern the Hessian at a putative global minimum, not at a mere critical point.
whuber
1

There's been a lot of beating around the bush in this thread regarding whether the Hessian has to be positive (semi)definite at a local minimum. So I will make a clear statement on that.

Presuming the objective function and all constraint functions are twice continuously differentiable, then at any local minimum, the Hessian of the Lagrangian projected into the null space of the Jacobian of active constraints must be positive semidefinite. I.e., if Z is a basis for the null space of the Jacobian of active constraints, then ZT(Hessian of Lagrangian)Z must be positive semidefinite. This must be positive definite for a strict local minimum.

So the Hessian of the objective function in a constrained problem having active constraint(s) need not be positive semidefinite if there are active constraints.

Notes:

1) Active constraints consist of all equality constraints, plus inequality constraints which are satisfied with equality.

2) See the definition of the Lagrangian at https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) If all constraints are linear, then the Hessian of the Lagrangian = Hessian of the objective function because the 2nd derivatives of linear functions are zero. But you still need to do the projection jazz if any of these constraints are active. Note that lower or upper bound constraints are particular cases of linear inequality constraints. If the only constraints which are active are bound constraints, the projection of the Hessian into the null space of the Jacobian of active constraints amounts to eliminating the rows and columns of the Hessian corresponding to those components on their bounds.

4) Because Lagrange multipliers of inactive constraints are zero, if there are no active constraints, the Hessian of the Lagrangian = the Hessian of the objective function, and the Identity matrix is a basis for the null space of the Jacobian of active constraints, which results in the simplification of the criterion being the familiar condition that the Hessian of the objective function be positive semidefinite at a local minimum (positive definite if a strict local minimum).

Mark L. Stone
fuente
0

Las respuestas positivas anteriores son ciertas, pero omiten la suposición de identificación crucial : si su modelo no está identificado (o si solo está identificado), es posible que, como Wooldridge indicó correctamente, se encuentre con un Hessian empírico no PSD. Simplemente ejecute un modelo psicométrico / econométrico que no sea de juguete y compruébelo usted mismo.

vlad
fuente
Because this does not seem mathematically possible, could you offer a simple, clear example to demonstrate how the Hessian of a continuously twice-differentiable objective function could possibly fail to be PSD at a global minimum?
whuber