Esta pregunta se hizo en CV hace algunos años, parece que vale la pena volver a publicar a la luz de 1) orden de magnitud mejor tecnología informática (por ejemplo, computación paralela, HPC, etc.) y 2) técnicas más nuevas, por ejemplo [3].
Primero, un poco de contexto. Supongamos que el objetivo no es la prueba de hipótesis, no la estimación del efecto, sino la predicción en un conjunto de pruebas no visto. Por lo tanto, no se otorga peso a ningún beneficio interpretable. Segundo, digamos que no puede descartar la relevancia de ningún predictor en la consideración del tema, es decir. todos parecen plausibles individualmente o en combinación con otros predictores. Tercero, te enfrentas a (cientos de) millones de predictores. En cuarto lugar, supongamos que tiene acceso a AWS con un presupuesto ilimitado, por lo que la potencia informática no es una limitación.
Las razones habituales para la selección de variables son 1) eficiencia; más rápido para adaptarse a un modelo más pequeño y más barato para recopilar menos predictores, 2) interpretación; conocer las variables "importantes" da una idea del proceso subyacente [1].
Ahora se sabe ampliamente que muchos métodos de selección de variables son ineficaces y, a menudo, absolutamente peligrosos (por ejemplo, la regresión progresiva hacia adelante) [2].
En segundo lugar, si el modelo seleccionado es bueno, no debería ser necesario reducir la lista de predictores. El modelo debería hacerlo por ti. Un buen ejemplo es el lazo, que asigna un coeficiente cero a todas las variables irrelevantes.
Soy consciente de que algunas personas abogan por el uso de un modelo de "elefante", es decir. arroje todos los predictores imaginables al ajuste y corra con él [2].
¿Hay alguna razón fundamental para hacer una selección variable si el objetivo es la precisión predictiva?
[1] Reunanen, J. (2003). Sobreajuste al hacer comparaciones entre los métodos de selección de variables. The Journal of Machine Learning Research, 3, 1371-1382.
[2] Harrell, F. (2015). Estrategias de modelado de regresión: con aplicaciones a modelos lineales, regresión logística y ordinal, y análisis de supervivencia. Saltador.
[3] Taylor, J. y Tibshirani, RJ (2015). Aprendizaje estadístico e inferencia selectiva. Actas de la Academia Nacional de Ciencias, 112 (25), 7629-7634.
[4] Zhou, J., Foster, D., Stine, R. y Ungar, L. (agosto de 2005). Selección de funciones de transmisión mediante inversión alfa. En Actas de la undécima conferencia internacional de ACM SIGKDD sobre descubrimiento de conocimiento en minería de datos (pp. 384-393). ACM
Respuestas:
Ha habido rumores durante años de que Google usa todas las funciones disponibles para construir sus algoritmos predictivos. Sin embargo, hasta la fecha, no han surgido descargos de responsabilidad, explicaciones o libros blancos que aclaren y / o discutan este rumor. Ni siquiera sus patentes publicadas ayudan en la comprensión. Como resultado, nadie externo a Google sabe lo que está haciendo, que yo sepa.
/ * Actualización en septiembre de 2019, un evangelista de Google Tensorflow fue registrado en una presentación al afirmar que los ingenieros de Google evalúan regularmente más de 5 mil millones de parámetros para la versión actual de PageRank . * /
Como señala el OP, uno de los mayores problemas en el modelado predictivo es la combinación entre la prueba de hipótesis clásica y la especificación cuidadosa del modelo frente a la minería de datos pura. Las personas con formación clásica pueden volverse bastante dogmáticas sobre la necesidad de "rigor" en el diseño y desarrollo de modelos. El hecho es que cuando se enfrenta con un gran número de predictores candidatos y múltiples objetivos posibles o variables dependientes, el marco clásico no funciona, se mantiene ni proporciona una guía útil. Numerosos artículos recientes delinean este dilema del brillante papel de Chattopadhyay y Lipson Data Smashing: Uncovering Lurking Order in Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Para el artículo de AER del año pasado sobre problemas de política de predicción por Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, que justifica la minería de datos y la predicción como herramientas útiles en la formulación de políticas económicas, citando casos en los que "la inferencia causal no es central, o incluso necesaria. "
El hecho es que la pregunta más grande de $ 64,000 es el amplio cambio en el pensamiento y los desafíos al marco clásico de prueba de hipótesis implícito en, por ejemplo, este simposio de Edge.org sobre pensamiento científico "obsoleto" https://www.edge.org/ respuestas / qué-idea-científica-está-lista para la jubilación , así como este reciente artículo de Eric Beinhocker sobre la "nueva economía" que presenta algunas propuestas radicales para integrar disciplinas muy diferentes como la economía del comportamiento, la teoría de la complejidad, el modelo predictivo desarrollo, teoría de redes y carteras como plataforma para la implementación y adopción de políticas https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Huelga decir que estos problemas van mucho más allá de las meras preocupaciones económicas y sugieren que estamos experimentando un cambio fundamental en los paradigmas científicos. Las opiniones cambiantes son tan fundamentales como las distinciones entre reduccionista, la Navaja de Occam como la construcción de modelos versus el Principio de plenitud expansivo de Epicuro o las explicaciones múltiples que indican aproximadamente que si varios hallazgos explican algo, consérvelos a todos ... https: // es. wikipedia.org/wiki/Principle_of_plenitude
Por supuesto, muchachos como Beinhocker están totalmente libres de problemas prácticos en las trincheras con respecto a soluciones estadísticas aplicadas a este paradigma en evolución. Si se trata de las cuestiones fundamentales de la selección de variables dimensionales ultraaltas, el OP es relativamente inespecífico con respecto a los enfoques viables para la construcción de modelos que podrían aprovechar, por ejemplo, Lasso, LAR, algoritmos paso a paso o "modelos de elefante" que utilizan toda la información disponible. La realidad es que, incluso con AWS o una supercomputadora, no puede usar toda la información disponible al mismo tiempo, simplemente no hay suficiente RAM para cargarlo todo. ¿Qué significa esto? Se han propuesto soluciones alternativas, por ejemplo, el descubrimiento de la NSF en conjuntos de datos complejos o masivos: temas estadísticos comunespara "dividir y conquistar" algoritmos para la minería de datos masiva, por ejemplo, el documento de Wang, et al., A Survey of Statistical Methods and Computing for Big Data http://arxiv.org/pdf/1502.07989.pdf , así como Leskovec, et al. libro Minería de conjuntos de datos masivos http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Ahora hay literalmente cientos, si no miles de documentos que abordan diversos aspectos de estos desafíos, y todos proponen motores analíticos muy diferentes como núcleo de los algoritmos de "divide y vencerás"; modelos de "aprendizaje profundo" no supervisados; teoría de matriz aleatoria aplicada a la construcción de covarianza masiva; Modelos tensoriales bayesianos para regresión logística supervisada clásica y más. Hace aproximadamente quince años, el debate se centró en gran medida en cuestiones relativas a los méritos relativos de las soluciones bayesianas jerárquicas frente a los modelos de mezcla finita frecuentes. En un documento que aborda estos temas, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfLlegamos a la conclusión de que los diferentes enfoques teóricos, en la práctica, produjeron resultados en gran medida equivalentes con la excepción de los problemas que involucran datos dispersos y / o de alta dimensión donde los modelos HB tenían la ventaja. Hoy, con la llegada de las soluciones alternativas de D&C, cualquier modelo de arbitraje HB que hayan disfrutado históricamente se está eliminando.
La lógica básica de estas soluciones alternativas de D&C son, en general, extensiones de la famosa técnica de bosque aleatorio de Breiman que se basó en un nuevo muestreo de observaciones y características. Breiman hizo su trabajo a finales de los 90 en una sola CPU cuando los datos masivos significaron unas pocas docenas de conciertos y un par de miles de funciones. En las plataformas multinúcleo masivamente paralelas de hoy en día, es posible ejecutar algoritmos que analizan terabytes de datos que contienen decenas de millones de características que construyen millones de mini modelos "RF" en unas pocas horas.
Hay muchas preguntas importantes que surgen de todo esto. Uno tiene que ver con una preocupación por la pérdida de precisión debido a la naturaleza aproximada de estas soluciones. Chen y Xie abordaron este problema en su documento, Un enfoque de división y conquista para el análisis de datos extraordinariamente grandes http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf donde concluyen que las aproximaciones son indistinguiblemente diferentes de los modelos de "información completa".
Una segunda preocupación que, hasta donde sé, no ha sido abordada adecuadamente por la literatura, tiene que ver con lo que se hace con los resultados (es decir, los "parámetros") de potencialmente millones de minimodelos predictivos una vez que las soluciones han sido enrollados y resumidos. En otras palabras, ¿cómo se ejecuta algo tan simple como "anotar" datos nuevos con estos resultados? ¿Deben guardarse y almacenarse los coeficientes del minimodelo o simplemente se vuelve a ejecutar el algoritmo de d & c en los nuevos datos?
En su libro, Numbers Rule Your World , Kaiser Fung describe el dilema que enfrentó Netflix cuando se le presentó un conjunto de solo 104 modelos entregados por los ganadores de su competencia. De hecho, los ganadores habían minimizado el MSE frente a todos los demás competidores, pero esto se tradujo en una mejora de varios decimales en la precisión en la escala de calificación de tipo Likert de 5 puntos utilizada por su sistema de recomendación de películas. Además, el mantenimiento de TI requerido para este conjunto de modelos cuesta mucho más que cualquier ahorro visto por la "mejora" en la precisión del modelo.
Luego está la cuestión de si la "optimización" es incluso posible con información de esta magnitud. Por ejemplo, Emmanuel Derman, el físico e ingeniero financiero, en su libro My Life as a Quant sugiere que la optimización es un mito insostenible, al menos en ingeniería financiera.
Finalmente, las preguntas importantes sobre la importancia relativa de las características con un gran número de características aún no se han abordado.
No hay respuestas fáciles para preguntas sobre la necesidad de una selección variable y los nuevos desafíos que abren las soluciones actuales y epicúreas que aún no se han resuelto. La conclusión es que ahora todos somos científicos de datos.
**** EDITAR *** Referencias
Chattopadhyay I, Lipson H. 2014 Destrucción de datos: descubrir el orden de los datos al acecho. JR Soc. Interfaz 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan y Ziad Obermeyer. 2015. "Problemas de política de predicción". American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Pregunta anual: ¿QUÉ IDEA CIENTÍFICA ESTÁ LISTA PARA RETIRARSE? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, Cómo los profundos cambios en la economía hacen que los debates de izquierda a derecha sean irrelevantes, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Principio Epicurus de explicaciones múltiples: mantener todos los modelos. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Descubrimiento en conjuntos de datos complejos o masivos: Temas estadísticos comunes, un taller financiado por la National Science Foundation, del 16 al 17 de octubre de 2007 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Métodos estadísticos y computación para Big Data, documento de trabajo de Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu y Jun Yan, 29 de octubre de 2015 http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Minería de conjuntos de datos masivos, Cambridge University Press; 2a edición (29 de diciembre de 2014) ISBN: 978-1107077232
Grandes muestras de matrices de covarianza y análisis de datos de alta dimensión (Serie Cambridge en Matemática estadística y probabilística), por Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 edición (30 de marzo de 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE e IMRAN S. CURRIM, una comparación empírica de modelos Logit Choice con representaciones discretas versus continuas de heterogeneidad, Journal of Marketing Research, 479 vol. XXXIX (noviembre de 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Un enfoque de dividir y conquistar para el análisis de datos extraordinariamente grandes, Xueying Chen y Minge Xie, Informe técnico DIMACS 2012-01, enero de 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, los números gobiernan tu mundo: la influencia oculta de las probabilidades y las estadísticas sobre todo lo que haces, McGraw-Hill Education; 1 edición (15 de febrero de 2010) ISBN: 978-0071626538
Emmanuel Derman, My Life as a Quant: Reflexiones sobre física y finanzas, Wiley; 1 edición (11 de enero de 2016) ISBN: 978-0470192733
* Actualización en noviembre de 2017 *
El libro de 2013 de Nathan Kutz, Modelado basado en datos y computación científica: Métodos para sistemas complejos y Big Data es una excursión matemática y centrada en PDE en la selección de variables, así como en métodos y herramientas de reducción de dimensiones. Una excelente introducción de 1 hora a su pensamiento se puede encontrar en este video de Youtube de junio de 2017, Data Driven Discovery of Dynamical Systems and PDEs . En él, hace referencias a los últimos desarrollos en este campo. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop
fuente
En términos de predicción, probablemente deba pensar en la rapidez con que el modelo aprende las características importantes. Incluso pensando en OLS, esto le dará algo así como la selección del modelo con suficientes datos. Pero sabemos que no converge con esta solución lo suficientemente rápido, por lo que buscamos algo mejor.
La mayoría de los métodos hacen una suposición sobre el tipo de beta / coeficientes que se van a encontrar (como una distribución previa en un modelo bayesiano). Funcionan mejor cuando se cumplen estos supuestos. Por ejemplo, la regresión de cresta / lazo supone que la mayoría de las versiones beta están en la misma escala con la mayoría cerca de cero. No funcionarán tan bien para las regresiones de "agujas en un pajar" donde la mayoría de las betas son cero y algunas son muy grandes (es decir, las escalas son muy diferentes). La selección de funciones puede funcionar mejor aquí: el lazo puede quedar atascado entre reducir el ruido y dejar la señal intacta. La selección de características es más voluble: un efecto es "señal" o "ruido".
En términos de decisión, debe tener una idea de qué tipo de variables predictoras tiene. ¿Tienes algunos realmente buenos? ¿O todas las variables son débiles? Esto conducirá el perfil de betas que tendrá. Y qué métodos de penalización / selección utiliza (caballos para cursos y todo eso).
La selección de funciones tampoco es mala, pero algunas de las aproximaciones anteriores debido a restricciones computacionales ya no son buenas (paso a paso, hacia adelante). El promedio de modelos usando la selección de características (todos los modelos 1 var, 2 modelos var, etc. ponderados por su rendimiento) hará un trabajo bastante bueno en la predicción. Pero estos esencialmente están penalizando a los betas a través del peso dado a los modelos con esa variable excluida, solo que no directamente, y no en un tipo de problema de optimización convexo.
fuente
Te doy la perspectiva de la industria.
A las industrias no les gusta gastar dinero en sensores y sistemas de monitoreo de los cuales no saben cuánto se beneficiarán.
Por ejemplo, no quiero nombrar, así que imagine un componente con 10 sensores que recopilan datos cada minuto. El propietario del activo se vuelve hacia mí y me pregunta qué tan bien puede predecir el comportamiento de mi componente con estos datos de 10 sensores. Luego realizan un análisis de costo-beneficio.
Luego, tienen el mismo componente con 20 sensores, me preguntan, nuevamente, ¿qué tan bien puede predecir el comportamiento de mi componente con estos datos de 20 sensores? Realizan otro análisis de costo-beneficio.
En cada uno de estos casos, comparan el beneficio con el costo de inversión debido a las instalaciones de sensores. (Esto no es solo agregar un sensor de $ 10 a un componente. Muchos factores juegan un papel). Aquí es donde un análisis de selección variable puede ser útil.
fuente
Como parte de un algoritmo para aprender un modelo puramente predictivo, la selección de variables no es necesariamente mala desde el punto de vista del rendimiento ni es automáticamente peligrosa. Sin embargo, hay algunos problemas que uno debe tener en cuenta.
Para hacer la pregunta un poco más concreta, consideremos el problema de regresión lineal con para y y son vectores -dimensionales de variables y parámetros, respectivamente. El objetivo es encontrar una buena aproximación de la función que es la predicción de dada . Esto se puede lograr estimandoi = 1 , … , N X i β p x ↦ E ( Y ∣ X = x ) = X T β , Y X = x β
Los algoritmos de selección paso a paso , como la selección de variables hacia adelante y hacia atrás, pueden verse como intentos aproximados para resolver el mejor problema de selección de subconjuntos, que es computacionalmente difícil (tan difícil que las mejoras del poder computacional importan poco). El interés está en encontrar para cada el mejor (o al menos un buen) modelo con variables. Posteriormente, podemos optimizar sobre .k=1,…,min(N,p) k k
El peligro con un procedimiento de selección de variables de este tipo es que muchos resultados de distribución estándar no son válidos condicionalmente en la selección de variables. Esto es válido para las pruebas estándar y los intervalos de confianza, y es uno de los problemas sobre los que Harrell [2] advierte. Breiman también advirtió sobre la selección del modelo basado en, por ejemplo Mallows en The Little Bootstrap ... . Malvas , o AIC para el caso, qué no se dan cuenta de la selección del modelo, y darán errores de predicción demasiado optimistas.Cp Cp
Sin embargo, la validación cruzada se puede utilizar para estimar el error de predicción y para seleccionar , y la selección de variables puede lograr un buen equilibrio entre sesgo y varianza. Esto es particularmente cierto si tiene algunas coordenadas grandes con el resto cerca de cero como menciona @probabilityislogic.k β −
Los métodos de contracción , como la regresión de crestas y el lazo, pueden lograr un buen equilibrio entre sesgo y varianza sin una selección explícita de variables. Sin embargo, como el OP menciona, el lazo hace una selección implícita de variables. No es realmente el modelo, sino el método para ajustar el modelo el que hace la selección de variables. Desde esa perspectiva, la selección de variables (implícita o explícita) es simplemente parte del método para ajustar el modelo a los datos, y debe considerarse como tal.
Los algoritmos para calcular el estimador de lazo pueden beneficiarse de la selección variable (o cribado). En el Aprendizaje estadístico con dispersión: el lazo y las generalizaciones , Sección 5.10, describió cómo
glmnet
es útil el cribado, tal como se implementa en . Puede conducir a un cálculo sustancialmente más rápido del estimador de lazo.Una experiencia personal es la de un ejemplo en el que la selección de variables permitió ajustar un modelo más complicado (un modelo aditivo generalizado) utilizando las variables seleccionadas. Los resultados de la validación cruzada indicaron que este modelo era superior a una serie de alternativas aunque no a un bosque aleatorio. Si gamsel hubiera existido que integra modelos aditivos generalizados con selección de variables podría haber considerado probarlo también.− − −
Editar: desde que escribí esta respuesta hay un documento sobre la aplicación particular que tenía en mente. El código R para reproducir los resultados en el documento está disponible.
En resumen , diré que la selección de variables (de una forma u otra) es y seguirá siendo útil incluso con fines puramente predictivos como una forma de controlar el equilibrio de sesgo-varianza. Si no es por otras razones, al menos porque los modelos más complicados pueden no ser capaces de manejar un gran número de variables listas para usar. Sin embargo, a medida que pase el tiempo, veremos desarrollos como gamsel que integran la selección de variables en la metodología de estimación.− −
Por supuesto, siempre es esencial que consideremos la selección de variables como parte del método de estimación. El peligro es creer que la selección de variables funciona como un oráculo e identifica el conjunto correcto de variables. Si creemos eso y procedemos como si las variables no fueran seleccionadas en base a los datos, entonces estamos en riesgo de cometer errores.
fuente
Permítanme comentar sobre la declaración: "... ajustar k parámetros a n <k observaciones simplemente no va a suceder".
En la quimiometría a menudo estamos interesados en modelos predictivos, y la situación k >> n se encuentra con frecuencia (por ejemplo, en datos espectroscópicos). Este problema generalmente se resuelve simplemente proyectando las observaciones en un subespacio de dimensión inferior a, donde a <n, antes de la regresión (por ejemplo, Regresión de componentes principales). Usando la regresión de mínimos cuadrados parciales, la proyección y la regresión se realizan simultáneamente favoreciendo la calidad de la predicción. Los métodos mencionados encuentran pseudo-inversas óptimas para una matriz de covarianza o correlación (singular), por ejemplo, por descomposición de valores singulares.
La experiencia muestra que el rendimiento predictivo de los modelos multivariados aumenta cuando se eliminan las variables ruidosas. Entonces, incluso si nosotros, de manera significativa, somos capaces de estimar k parámetros que tienen solo n ecuaciones (n <k), nos esforzamos por modelos parsimoniosos. Para ese propósito, la selección de variables se vuelve relevante, y mucha literatura quimiométrica se dedica a este tema.
Si bien la predicción es un objetivo importante, los métodos de proyección al mismo tiempo ofrecen información valiosa, por ejemplo, sobre los patrones en los datos y la relevancia de las variables. Esto se ve facilitado principalmente por diversos modelos de parcelas, por ejemplo, puntuaciones, cargas, residuos, etc.
La tecnología quimométrica se usa ampliamente, por ejemplo, en la industria donde las predicciones confiables y precisas realmente cuentan.
fuente
En varios casos conocidos, sí, la selección de variables no es necesaria. El aprendizaje profundo se ha sobrevalorado un poco precisamente por esta razón.
Por ejemplo, cuando una red neuronal contorneada ( http://cs231n.github.io/convolutional-networks/ ) intenta predecir si una imagen centrada contiene una cara humana, las esquinas de la imagen tienden a tener un valor predictivo mínimo. El modelado tradicional y la selección de variables harían que el modelador elimine los píxeles de esquina como predictores; sin embargo, la red neuronal enrevesada es lo suficientemente inteligente como para descartar estos predictores automáticamente. Esto es cierto para la mayoría de los modelos de aprendizaje profundo que intentan predecir la presencia de algún objeto en una imagen (p. Ej., Autos que conducen autos "predicen" marcas de carril, obstáculos u otros autos en cuadros de video de transmisión a bordo).
El aprendizaje profundo es probablemente excesivo para muchos problemas tradicionales, como cuando los conjuntos de datos son pequeños o donde el conocimiento del dominio es abundante, por lo que la selección de variables tradicionales probablemente seguirá siendo relevante durante mucho tiempo, al menos en algunas áreas. No obstante, el aprendizaje profundo es excelente cuando se quiere crear una solución "bastante buena" con una mínima intervención humana. Podría llevarme muchas horas fabricar y seleccionar predictores para reconocer los dígitos escritos a mano en las imágenes, pero con una red neuronal enrevesada y una selección de variables cero, puedo tener un modelo de última generación en poco menos de 20 minutos usando TensorFlow de Google ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).
fuente