Estoy tratando de leer sobre la investigación en el área de regresión de alta dimensión; cuando es mayor que , es decir, . Parece que el término aparece a menudo en términos de tasa de convergencia para estimadores de regresión.
Por ejemplo, aquí , la ecuación (17) dice que el ajuste satisface
Por lo general, esto también implica que debería ser menor que .
- ¿Hay alguna intuición de por qué esta relación de es tan prominente?
- Además, parece que en la literatura el problema de regresión de alta dimensión se complica cuando . ¿Por que es esto entonces?
- ¿Existe una buena referencia que discuta los problemas con qué tan rápido deberían crecer y comparación entre sí?
regression
lasso
convergence
high-dimensional
Greenparker
fuente
fuente
Respuestas:
(Movido de comentarios a una respuesta solicitada por @Greenparker)
Parte 1)
El término log p proviene de la concentración de medida (gaussiana). En particular, si tienepIID Gaussian variables aleatorias [F1], su máximo está en el orden deσ √logp−−−−√ p con alta probabilidad.σlogp−−−−√
El factor simplemente viene del hecho de que está mirando el error de predicción promedio, es decir, coincide con el n - 1 en el otro lado, si observa el error total, no estaría allí.n−1 n−1
Parte 2)
Esencialmente, tienes dos fuerzas que necesitas controlar:
En la estadística clásica, por lo general arreglar y dejamos que n ir hasta el infinito: este régimen no es muy útil para la teoría de alta dimensión, ya que es (asintótica) en el régimen de bajas dimensiones de la construcción .p n
Alternativamente, podríamos dejar que vaya al infinito yn permanezca fijo, pero luego nuestro error simplemente explota a medida que el problema se vuelve esencialmente imposible. Dependiendo del problema, el error puede llegar al infinito o detenerse en algún límite superior natural ( por ejemplo , error de clasificación errónea del 100%).p n
Dado que ambos casos son un poco inútiles, consideramos que van al infinito, por lo que nuestra teoría es relevante (se mantiene en alta dimensión) sin ser apocalíptica (características infinitas, datos finitos).n,p
Tener dos "botones" es generalmente más difícil de lo que tiene un solo mando, por lo que fijamos para algunos fija f y dejamos que n vamos a infinito (y por lo tanto p tiende a infinito indirectamente). [F2] La elección de f determina el comportamiento del problema. Por razones en mi respuesta a la parte 1, resulta que la "maldad" de las características adicionales solo crece como log p, mientras que la "bondad" de los datos adicionales crece como n .p=f(n) f n p f logp n
Este último régimen a veces se llama "ultradimensional" en la literatura. El término "ultradimensional" no tiene una definición rigurosa hasta donde yo sé, pero es informalmente solo "el régimen que rompe el lazo y estimadores similares".
Podemos demostrar esto con un pequeño estudio de simulación en condiciones bastante idealizadas. Aquí tomamos orientación teórica sobre la elección óptima de de [BRT09] y seleccionamos λ = 3 √λ .λ=3log(p)/n−−−−−−−√
Código para reproducir:
Aquí vemos que el error de predicción (usando el mismo diseño que el anterior) se nivela en lugar de continuar a cero.
(Usé un poco aleatorioX para la velocidad, así que no intentes comparar los números con los otros gráficos directamente) Es difícil ver algún repunte en este gráfico, tal vez porque evitamos que el crecimiento de UHD sea demasiado "ultra" en nombre del tiempo computacional. Usando un exponente más grande (comominorte1.5 ) haría el crecimiento asintótico un poco más claro.
A pesar de lo que dije anteriormente y de cómo puede parecer, el régimen de dimensiones ultraaltas en realidad no es completamente inútil (aunque está cerca), pero requiere técnicas mucho más sofisticadas que un simple máximo de variables aleatorias gaussianas para controlar el error. La necesidad de utilizar estas técnicas complejas es la fuente principal de la complejidad que observa.
No hay una razón particular para pensar quep , n debería crecer "juntos" de cualquier manera ( es decir , no hay una razón obvia "del mundo real" para arreglarp = f( n ) ), pero las matemáticas generalmente carecen de lenguaje y herramientas para discutir los límites con dos "grados de libertad", por lo que es lo mejor que podemos hacer (¡por ahora!).
Parte 3)
Me temo que no conozco ningún libro en la literatura estadística que realmente se centre en el crecimiento deIniciar sesiónpag vs norte explícitamente. (Puede haber algo en la literatura de detección de compresión)
Mi referencia favorita actual para este tipo de teoría son los Capítulos 10 y 11 de Aprendizaje estadístico con dispersión [F3], pero generalmente toma el enfoque de considerarn , p fijo y dando propiedades de muestra finita (no asintótica) para obtener un "buen" resultado. Este es realmente un enfoque más poderoso, una vez que tiene el resultado para cualquiern , p , es fácil considerar los asintóticos, pero estos resultados son generalmente más difíciles de obtener, por lo que hasta ahora solo los tengo para estimadores de tipo lazo.
Si se siente cómodo y dispuesto a profundizar en la literatura de investigación, miraría los trabajos de Jianqing Fan y Jinchi Lv, que han realizado la mayor parte del trabajo fundamental sobre problemas de dimensiones ultraaltas. ("Detección" es un buen término para buscar)
[F1] En realidad, cualquier variable aleatoria subgaussiana , pero esto no agrega mucho a esta discusión.
[F2] También podríamos establecer la escasez "verdadera"s depender de norte (s = g( n ) ) pero eso no cambia demasiado las cosas.
[F3] T. Hastie, R. Tibshirani y M. Wainwright. Aprendizaje estadístico con escasez. Monografías sobre estadísticas y probabilidad aplicada 143. CRC Press, 2015. Disponible para descarga gratuita en https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf
[BRT] Peter J. Bickel, Ya'acov Ritov y Alexandre B. Tsybakov. "Análisis simultáneo de Lasso y Dantzig Selector". Anales de Estadísticas 37 (4), p. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620
fuente