He estado usando mínimos cuadrados iterativamente ponderados (IRLS) para minimizar las funciones de la siguiente forma,
donde es el número de instancias de , es la estimación sólida que quiero, y es una función de penalización robusta adecuada. Digamos que es convexo (aunque no necesariamente estrictamente) y diferenciable por ahora. Un buen ejemplo de tal es la función de pérdida de Huber .
Lo que he estado haciendo es diferenciar con respecto a (y manipular) para obtener,
y resolviendo esto iterativamente poniéndolo igual a 0 y fijando pesos en la iteración a (tenga en cuenta que la singularidad percibida enes realmente una singularidad removible en todos losme interesan). Entonces obtengo,
y resuelvo obtener, .
Repito este algoritmo de punto fijo hasta la "convergencia". Notaré que si llegas a un punto fijo, eres óptimo, ya que tu derivada es 0 y es una función convexa.
Tengo dos preguntas sobre este procedimiento:
- ¿Es este el algoritmo IRLS estándar? Después de leer varios documentos sobre el tema (y estaban muy dispersos y vagos sobre lo que es IRLS), esta es la definición más coherente del algoritmo que puedo encontrar. Puedo publicar los documentos si la gente quiere, pero en realidad no quería sesgar a nadie aquí. Por supuesto, puede generalizar esta técnica básica a muchos otros tipos de problemas que involucran vectores 'sy argumentos distintos de , siempre que el argumento sea una norma de una función afín de sus parámetros. Cualquier ayuda o idea sería genial en esto.
- La convergencia parece funcionar en la práctica, pero tengo algunas preocupaciones al respecto. Todavía tengo que ver una prueba de ello. Después de algunas simulaciones simples de Matlab, veo que una iteración de esto no es un mapeo de contracción (generé dos instancias aleatorias de calculando y vi que esto es ocasionalmente mayor que 1). Además, el mapeo definido por varias iteraciones consecutivas no es estrictamente un mapeo de contracción, pero la probabilidad de que la constante de Lipschitz esté por encima de 1 es muy baja. Entonces, ¿existe la noción de unmapeo de contracción en la probabilidad? ¿Cuál es la maquinaria que usaría para demostrar que esto converge? ¿Incluso converge?
Cualquier orientación es útil.
Editar: Me gusta el artículo sobre IRLS para recuperación dispersa / detección de compresión por Daubechies et al. 2008 "Minimización de mínimos cuadrados ponderada iterativamente para una recuperación dispersa" en el arXiv. Pero parece centrarse principalmente en los pesos para problemas no convexos. Mi caso es considerablemente más simple.
fuente
Respuestas:
En cuanto a su primera pregunta, uno debe definir "estándar" o reconocer que se ha establecido gradualmente un "modelo canónico". Como lo indica un comentario, parece que al menos la forma en que usa IRWLS es bastante estándar.
En cuanto a su segunda pregunta, el "mapeo de contracción en probabilidad" podría estar vinculado (aunque sea de manera informal) a la convergencia de "algoritmos estocásticos recursivos". Por lo que leí, hay una gran literatura sobre el tema, principalmente en ingeniería. En economía, utilizamos un poco, especialmente los trabajos seminales de Lennart Ljung, el primer artículo fue Ljung (1977) , que mostró que la convergencia (o no) de un algoritmo estocástico recursivo puede determinarse por la estabilidad (o no) de una ecuación diferencial ordinaria relacionada.
(lo que sigue ha sido reelaborado después de una fructífera discusión con el OP en los comentarios)
Usaré como referencia Sabre Elaydi "Introducción a las ecuaciones de diferencia", 2005, 3d ed. El análisis está condicionado a alguna muestra de datos dada, por lo que las se tratan como fijas.x′s
La condición de primer orden para la minimización de la función objetivo, vista como una función recursiva en , m ( k + 1 ) = N ∑ i = 1 v i [ m ( k ) ] x i ,m
tiene un punto fijo (el argmin de la función objetivo). Según el teorema 1.13 pp 27-28 de Elaydi, si la primera derivada con respecto a de la RHS de [ 1 ] , evaluada en el punto fijo m ∗ , se denota como A ′ ( m ∗ ) , es menor que la unidad en valor absoluto , entonces m ∗ es asintóticamente estable (AS). Más sobre el Teorema 4.3 p.179 tenemos que esto también implica que el punto fijo es uniformemente AS (UAS). "Asintóticamente estable" significa que para algún rango de valores alrededor del punto fijo, una vecindad ( m ∗m [1] m∗ A′(m∗) m∗ (m∗±γ) , por lo que si el algoritmo proporciona valores en este entorno, convergerá. La propiedad "uniforme" significa que el límite de este vecindario y, por lo tanto, su tamaño, es independiente del valor inicial del algoritmo. El punto fijo se convierte globalmente en UAS, si .
Entonces, en nuestro caso, si demostramos queγ=∞
, no necesariamente de tamaño pequeño, el punto fijo esatractivo
Hemos probado la propiedad UAS, pero sin convergencia global. Luego, podemos intentar establecer que el vecindario de atracción es, de hecho, los números reales extendidos completos, o que el valor inicial específico que utiliza el OP como se menciona en los comentarios (y es estándar en la metodología IRLS), es decir, la media muestral de las , ˉ x , siempre pertenece al vecindario de atracción del punto fijo.x x¯
Calculamos la derivada
and
we have
Inserting this into[3] we have
This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition[4] is equivalent to
Ifρ(|xi−m|) is Hubert's loss function, then we have a quadratic (q ) and a linear (l ) branch,
and
Since we do not know how many of the|xi−m∗| 's place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N )
which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of thex 's. We note that the first derivative is smaller than unity in absolute value for any m , not just the fixed point.
What we should do now is either prove that the UAS property is also global, or that, ifm(0)=x¯ then m(0) belongs to the neighborhood of attraction of m∗ .
fuente