Cobertura de intervalos de confianza con estimaciones regulares

21

Supongamos que estoy tratando de estimar una gran cantidad de parámetros a partir de algunos datos de alta dimensión, utilizando algún tipo de estimaciones regularizadas. El regularizador introduce cierto sesgo en las estimaciones, pero aún puede ser una buena compensación porque la reducción en la variación debería compensarlo con creces.

El problema surge cuando quiero estimar los intervalos de confianza (p. Ej., Usando la aproximación de Laplace o bootstrapping). Específicamente, el sesgo en mis estimaciones conduce a una mala cobertura en mis intervalos de confianza, lo que dificulta determinar las propiedades frecuentistas de mi estimador.

Encontré algunos documentos que discutían este problema (por ejemplo, "Intervalos de confianza asintóticos en la regresión de cresta basada en la expansión de Edgeworth" ), pero la matemática está mayormente por encima de mi cabeza. En el documento vinculado, las ecuaciones 92-93 parecen proporcionar un factor de corrección para las estimaciones que se regularizaron por regresión de cresta, pero me preguntaba si había buenos procedimientos que funcionarían con una variedad de regularizadores diferentes.

Incluso una corrección de primer orden sería extremadamente útil.

David J. Harris
fuente
44
+1 pregunta oportuna e importante, aunque no estoy seguro de que alguien pueda responder esto afirmativamente (supongo que simplemente no sabemos cómo hacerlo correctamente y, si lo supiera, tendría un par de Anales de Documentos estadísticos alineados). Pregunta relacionada: stats.stackexchange.com/questions/91462/… Sabemos que el bootstrapping funciona exclusivamente en tales situaciones, pero eso no ayudará.
Momo
Gracias por el enlace. ¿Podría aclarar lo que quiso decir con respecto al arranque?
David J. Harris
Además, todavía mantengo la esperanza de que alguien pueda tener métodos que funcionen bien para los regularizadores no dispersos. Me imagino que la penalización L1 hace las cosas especialmente difíciles debido a todas las estimaciones acumuladas en cero. Gracias de nuevo.
David J. Harris
1
dore
1
El artículo de Ruben Dezeure, Peter Bühlmann, Lukas Meier y Nicolai Meinshausen es, según mi leal saber y entender, el relato más reciente y completo sobre inferencia en un entorno de alta dimensión.
NRH

Respuestas:

4

Hay un documento reciente que aborda con precisión su pregunta (si desea realizar una regresión en sus datos, según tengo entendido) y, por suerte, proporciona expresiones que son fáciles de calcular (Intervalos de confianza y Pruebas de hipótesis para la regresión de alta dimensión).

Además, puede interesarle el trabajo reciente de Peter Bühlmann sobre ese mismo tema. Pero creo que el primer artículo le proporciona lo que está buscando y los contenidos son más fáciles de digerir (tampoco soy estadístico).

jpmuc
fuente
+1 Interesante papel. Entonces, parece que hay al menos tres ideas competitivas sobre cómo abordar estos problemas y, por lo que puedo ver, no están estrechamente relacionados. Luego también está el teorema de imposibilidad de journals.cambridge.org/action/… Será interesante ver cómo se desarrolla esto y qué surge como canónico.
Momo
Gracias. Puede que esto no sea algo que pueda implementar, pero parece que las matemáticas funcionan para una variedad de estimaciones regulares.
David J. Harris
1

http://cran.r-project.org/web/packages/hdi/index.html

¿Es esto lo que estás buscando?

Description
Computes confidence intervals for the l1-norm of groups of regression parameters in a hierarchical
clustering tree.
Tagar
fuente
Esperaba algo que funcionara para una variedad de regularizadores (en su mayoría no dispersos). Gracias sin embargo.
David J. Harris