¿Se necesita realmente una selección variable para el modelado predictivo en 2016?

68

Esta pregunta se hizo en CV hace algunos años, parece que vale la pena volver a publicar a la luz de 1) orden de magnitud mejor tecnología informática (por ejemplo, computación paralela, HPC, etc.) y 2) técnicas más nuevas, por ejemplo [3].

Primero, un poco de contexto. Supongamos que el objetivo no es la prueba de hipótesis, no la estimación del efecto, sino la predicción en un conjunto de pruebas no visto. Por lo tanto, no se otorga peso a ningún beneficio interpretable. Segundo, digamos que no puede descartar la relevancia de ningún predictor en la consideración del tema, es decir. todos parecen plausibles individualmente o en combinación con otros predictores. Tercero, te enfrentas a (cientos de) millones de predictores. En cuarto lugar, supongamos que tiene acceso a AWS con un presupuesto ilimitado, por lo que la potencia informática no es una limitación.

Las razones habituales para la selección de variables son 1) eficiencia; más rápido para adaptarse a un modelo más pequeño y más barato para recopilar menos predictores, 2) interpretación; conocer las variables "importantes" da una idea del proceso subyacente [1].

Ahora se sabe ampliamente que muchos métodos de selección de variables son ineficaces y, a menudo, absolutamente peligrosos (por ejemplo, la regresión progresiva hacia adelante) [2].

En segundo lugar, si el modelo seleccionado es bueno, no debería ser necesario reducir la lista de predictores. El modelo debería hacerlo por ti. Un buen ejemplo es el lazo, que asigna un coeficiente cero a todas las variables irrelevantes.

Soy consciente de que algunas personas abogan por el uso de un modelo de "elefante", es decir. arroje todos los predictores imaginables al ajuste y corra con él [2].

¿Hay alguna razón fundamental para hacer una selección variable si el objetivo es la precisión predictiva?

[1] Reunanen, J. (2003). Sobreajuste al hacer comparaciones entre los métodos de selección de variables. The Journal of Machine Learning Research, 3, 1371-1382.

[2] Harrell, F. (2015). Estrategias de modelado de regresión: con aplicaciones a modelos lineales, regresión logística y ordinal, y análisis de supervivencia. Saltador.

[3] Taylor, J. y Tibshirani, RJ (2015). Aprendizaje estadístico e inferencia selectiva. Actas de la Academia Nacional de Ciencias, 112 (25), 7629-7634.

[4] Zhou, J., Foster, D., Stine, R. y Ungar, L. (agosto de 2005). Selección de funciones de transmisión mediante inversión alfa. En Actas de la undécima conferencia internacional de ACM SIGKDD sobre descubrimiento de conocimiento en minería de datos (pp. 384-393). ACM

horaceT
fuente
66
Buena primera pregunta: posiblemente puede cerrarse como un duplicado, pero agradezco que haya realizado un esfuerzo para establecer lo que siente que lo distingue. Sugeriría editar el título, por lo que es más claro que su enfoque está solo en la predicción.
Silverfish
55
Si esta pregunta ya se hizo pero le parece importante volver a publicarla después de un tiempo, ¿tal vez podría proporcionar un enlace a la pregunta anterior? Podría ser interesante poder comparar las respuestas anteriores.
Tim
1
@ qbert65536 Una vista es que no. La selección de funciones es inherentemente poco confiable.
horaceT
8
Los métodos que seleccionan automáticamente un subconjunto escaso de características (por ejemplo, modelos penalizados l1) también realizan la selección de características. Entonces, la pregunta crítica no es "es la selección de características buena / mala", sino "¿cuáles son las propiedades que distinguen los métodos de selección de características buenas de las malas?" Realizarse conjuntamente con la estimación de parámetros (como en el lazo) es una propiedad, y podríamos preguntarnos si eso importa (junto con muchas otras propiedades).
user20160
2
@ToussaintLouverture Desde que publiqué esta pregunta hace un año, tengo un segundo (y tercer) pensamiento. Ahora creo que la pregunta apropiada es, ¿qué tan importante es dirigir el esfuerzo hacia la selección de variables, en lugar de modelar la selección para elegir un modelo más capaz que generalice de todas las características de un experimento?
horaceT

Respuestas:

37

Ha habido rumores durante años de que Google usa todas las funciones disponibles para construir sus algoritmos predictivos. Sin embargo, hasta la fecha, no han surgido descargos de responsabilidad, explicaciones o libros blancos que aclaren y / o discutan este rumor. Ni siquiera sus patentes publicadas ayudan en la comprensión. Como resultado, nadie externo a Google sabe lo que está haciendo, que yo sepa.

/ * Actualización en septiembre de 2019, un evangelista de Google Tensorflow fue registrado en una presentación al afirmar que los ingenieros de Google evalúan regularmente más de 5 mil millones de parámetros para la versión actual de PageRank . * /

Como señala el OP, uno de los mayores problemas en el modelado predictivo es la combinación entre la prueba de hipótesis clásica y la especificación cuidadosa del modelo frente a la minería de datos pura. Las personas con formación clásica pueden volverse bastante dogmáticas sobre la necesidad de "rigor" en el diseño y desarrollo de modelos. El hecho es que cuando se enfrenta con un gran número de predictores candidatos y múltiples objetivos posibles o variables dependientes, el marco clásico no funciona, se mantiene ni proporciona una guía útil. Numerosos artículos recientes delinean este dilema del brillante papel de Chattopadhyay y Lipson Data Smashing: Uncovering Lurking Order in Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

El cuello de botella clave es que la mayoría de los algoritmos de comparación de datos de hoy dependen de un experto humano para especificar qué 'características' de los datos son relevantes para la comparación. Aquí, proponemos un nuevo principio para estimar la similitud entre las fuentes de flujos de datos arbitrarios, sin utilizar el dominio de conocimiento ni el aprendizaje.

Para el artículo de AER del año pasado sobre problemas de política de predicción por Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, que justifica la minería de datos y la predicción como herramientas útiles en la formulación de políticas económicas, citando casos en los que "la inferencia causal no es central, o incluso necesaria. "

El hecho es que la pregunta más grande de $ 64,000 es el amplio cambio en el pensamiento y los desafíos al marco clásico de prueba de hipótesis implícito en, por ejemplo, este simposio de Edge.org sobre pensamiento científico "obsoleto" https://www.edge.org/ respuestas / qué-idea-científica-está-lista para la jubilación , así como este reciente artículo de Eric Beinhocker sobre la "nueva economía" que presenta algunas propuestas radicales para integrar disciplinas muy diferentes como la economía del comportamiento, la teoría de la complejidad, el modelo predictivo desarrollo, teoría de redes y carteras como plataforma para la implementación y adopción de políticas https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Huelga decir que estos problemas van mucho más allá de las meras preocupaciones económicas y sugieren que estamos experimentando un cambio fundamental en los paradigmas científicos. Las opiniones cambiantes son tan fundamentales como las distinciones entre reduccionista, la Navaja de Occam como la construcción de modelos versus el Principio de plenitud expansivo de Epicuro o las explicaciones múltiples que indican aproximadamente que si varios hallazgos explican algo, consérvelos a todos ... https: // es. wikipedia.org/wiki/Principle_of_plenitude

Por supuesto, muchachos como Beinhocker están totalmente libres de problemas prácticos en las trincheras con respecto a soluciones estadísticas aplicadas a este paradigma en evolución. Si se trata de las cuestiones fundamentales de la selección de variables dimensionales ultraaltas, el OP es relativamente inespecífico con respecto a los enfoques viables para la construcción de modelos que podrían aprovechar, por ejemplo, Lasso, LAR, algoritmos paso a paso o "modelos de elefante" que utilizan toda la información disponible. La realidad es que, incluso con AWS o una supercomputadora, no puede usar toda la información disponible al mismo tiempo, simplemente no hay suficiente RAM para cargarlo todo. ¿Qué significa esto? Se han propuesto soluciones alternativas, por ejemplo, el descubrimiento de la NSF en conjuntos de datos complejos o masivos: temas estadísticos comunespara "dividir y conquistar" algoritmos para la minería de datos masiva, por ejemplo, el documento de Wang, et al., A Survey of Statistical Methods and Computing for Big Data http://arxiv.org/pdf/1502.07989.pdf , así como Leskovec, et al. libro Minería de conjuntos de datos masivos http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

Ahora hay literalmente cientos, si no miles de documentos que abordan diversos aspectos de estos desafíos, y todos proponen motores analíticos muy diferentes como núcleo de los algoritmos de "divide y vencerás"; modelos de "aprendizaje profundo" no supervisados; teoría de matriz aleatoria aplicada a la construcción de covarianza masiva; Modelos tensoriales bayesianos para regresión logística supervisada clásica y más. Hace aproximadamente quince años, el debate se centró en gran medida en cuestiones relativas a los méritos relativos de las soluciones bayesianas jerárquicas frente a los modelos de mezcla finita frecuentes. En un documento que aborda estos temas, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfLlegamos a la conclusión de que los diferentes enfoques teóricos, en la práctica, produjeron resultados en gran medida equivalentes con la excepción de los problemas que involucran datos dispersos y / o de alta dimensión donde los modelos HB tenían la ventaja. Hoy, con la llegada de las soluciones alternativas de D&C, cualquier modelo de arbitraje HB que hayan disfrutado históricamente se está eliminando.

La lógica básica de estas soluciones alternativas de D&C son, en general, extensiones de la famosa técnica de bosque aleatorio de Breiman que se basó en un nuevo muestreo de observaciones y características. Breiman hizo su trabajo a finales de los 90 en una sola CPU cuando los datos masivos significaron unas pocas docenas de conciertos y un par de miles de funciones. En las plataformas multinúcleo masivamente paralelas de hoy en día, es posible ejecutar algoritmos que analizan terabytes de datos que contienen decenas de millones de características que construyen millones de mini modelos "RF" en unas pocas horas.

Hay muchas preguntas importantes que surgen de todo esto. Uno tiene que ver con una preocupación por la pérdida de precisión debido a la naturaleza aproximada de estas soluciones. Chen y Xie abordaron este problema en su documento, Un enfoque de división y conquista para el análisis de datos extraordinariamente grandes http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf donde concluyen que las aproximaciones son indistinguiblemente diferentes de los modelos de "información completa".

Una segunda preocupación que, hasta donde sé, no ha sido abordada adecuadamente por la literatura, tiene que ver con lo que se hace con los resultados (es decir, los "parámetros") de potencialmente millones de minimodelos predictivos una vez que las soluciones han sido enrollados y resumidos. En otras palabras, ¿cómo se ejecuta algo tan simple como "anotar" datos nuevos con estos resultados? ¿Deben guardarse y almacenarse los coeficientes del minimodelo o simplemente se vuelve a ejecutar el algoritmo de d & c en los nuevos datos?

En su libro, Numbers Rule Your World , Kaiser Fung describe el dilema que enfrentó Netflix cuando se le presentó un conjunto de solo 104 modelos entregados por los ganadores de su competencia. De hecho, los ganadores habían minimizado el MSE frente a todos los demás competidores, pero esto se tradujo en una mejora de varios decimales en la precisión en la escala de calificación de tipo Likert de 5 puntos utilizada por su sistema de recomendación de películas. Además, el mantenimiento de TI requerido para este conjunto de modelos cuesta mucho más que cualquier ahorro visto por la "mejora" en la precisión del modelo.

Luego está la cuestión de si la "optimización" es incluso posible con información de esta magnitud. Por ejemplo, Emmanuel Derman, el físico e ingeniero financiero, en su libro My Life as a Quant sugiere que la optimización es un mito insostenible, al menos en ingeniería financiera.

Finalmente, las preguntas importantes sobre la importancia relativa de las características con un gran número de características aún no se han abordado.

No hay respuestas fáciles para preguntas sobre la necesidad de una selección variable y los nuevos desafíos que abren las soluciones actuales y epicúreas que aún no se han resuelto. La conclusión es que ahora todos somos científicos de datos.

**** EDITAR *** Referencias

  1. Chattopadhyay I, Lipson H. 2014 Destrucción de datos: descubrir el orden de los datos al acecho. JR Soc. Interfaz 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826

  2. Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan y Ziad Obermeyer. 2015. "Problemas de política de predicción". American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023

  3. Edge.org, 2014 Pregunta anual: ¿QUÉ IDEA CIENTÍFICA ESTÁ LISTA PARA RETIRARSE? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement

  4. Eric Beinhocker, Cómo los profundos cambios en la economía hacen que los debates de izquierda a derecha sean irrelevantes, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. Principio Epicurus de explicaciones múltiples: mantener todos los modelos. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/

  6. NSF, Descubrimiento en conjuntos de datos complejos o masivos: Temas estadísticos comunes, un taller financiado por la National Science Foundation, del 16 al 17 de octubre de 2007 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. Métodos estadísticos y computación para Big Data, documento de trabajo de Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu y Jun Yan, 29 de octubre de 2015 http://arxiv.org/pdf/1502.07989.pdf

  8. Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Minería de conjuntos de datos masivos, Cambridge University Press; 2a edición (29 de diciembre de 2014) ISBN: 978-1107077232

  9. Grandes muestras de matrices de covarianza y análisis de datos de alta dimensión (Serie Cambridge en Matemática estadística y probabilística), por Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 edición (30 de marzo de 2015) ISBN: 978-1107065178

  10. RICK L. ANDREWS, ANDREW AINSLIE e IMRAN S. CURRIM, una comparación empírica de modelos Logit Choice con representaciones discretas versus continuas de heterogeneidad, Journal of Marketing Research, 479 vol. XXXIX (noviembre de 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. Un enfoque de dividir y conquistar para el análisis de datos extraordinariamente grandes, Xueying Chen y Minge Xie, Informe técnico DIMACS 2012-01, enero de 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf

  12. Kaiser Fung, los números gobiernan tu mundo: la influencia oculta de las probabilidades y las estadísticas sobre todo lo que haces, McGraw-Hill Education; 1 edición (15 de febrero de 2010) ISBN: 978-0071626538

  13. Emmanuel Derman, My Life as a Quant: Reflexiones sobre física y finanzas, Wiley; 1 edición (11 de enero de 2016) ISBN: 978-0470192733

* Actualización en noviembre de 2017 *

El libro de 2013 de Nathan Kutz, Modelado basado en datos y computación científica: Métodos para sistemas complejos y Big Data es una excursión matemática y centrada en PDE en la selección de variables, así como en métodos y herramientas de reducción de dimensiones. Una excelente introducción de 1 hora a su pensamiento se puede encontrar en este video de Youtube de junio de 2017, Data Driven Discovery of Dynamical Systems and PDEs . En él, hace referencias a los últimos desarrollos en este campo. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop

Mike Hunter
fuente
1
En la Escuela de verano de Machine Learning hace un par de años, un compañero de Google dio una charla (olvidé el nombre). Mencionó que un par de modelos (de clasificación binaria) en producción involucran algo así como ~ 200 millones de características entrenadas en ~ 30 Tb de conjuntos de datos; la mayoría de ellos son probablemente características binarias. No recuerdo que él haya mencionado la selección de variables.
horaceT
1
Grandes comentarios (aunque parte de ella salió por una tangente). Particularmente me gusta la perspectiva de que muchas ideas anticuadas necesitan un nuevo examen en la era del Big Data.
horaceT
1
@horaceT Muy interesante. Al menos eso confirma el rumor. Gracias. ¿Qué programa de ML fue ese?
Mike Hunter
1
MLSS 2012 en UC Santa Cruz. El orador fue Tushar Chandra, aquí están las diapositivas, users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf
horaceT
2
@Glen_b Gracias por los comentarios. Pensé que proporcioné nombres y títulos para las referencias precisamente por el problema del enlace roto. De todos modos, agregaré una sección de referencia al final. Avísame si falta algo.
Mike Hunter
14

En términos de predicción, probablemente deba pensar en la rapidez con que el modelo aprende las características importantes. Incluso pensando en OLS, esto le dará algo así como la selección del modelo con suficientes datos. Pero sabemos que no converge con esta solución lo suficientemente rápido, por lo que buscamos algo mejor.

La mayoría de los métodos hacen una suposición sobre el tipo de beta / coeficientes que se van a encontrar (como una distribución previa en un modelo bayesiano). Funcionan mejor cuando se cumplen estos supuestos. Por ejemplo, la regresión de cresta / lazo supone que la mayoría de las versiones beta están en la misma escala con la mayoría cerca de cero. No funcionarán tan bien para las regresiones de "agujas en un pajar" donde la mayoría de las betas son cero y algunas son muy grandes (es decir, las escalas son muy diferentes). La selección de funciones puede funcionar mejor aquí: el lazo puede quedar atascado entre reducir el ruido y dejar la señal intacta. La selección de características es más voluble: un efecto es "señal" o "ruido".

En términos de decisión, debe tener una idea de qué tipo de variables predictoras tiene. ¿Tienes algunos realmente buenos? ¿O todas las variables son débiles? Esto conducirá el perfil de betas que tendrá. Y qué métodos de penalización / selección utiliza (caballos para cursos y todo eso).

La selección de funciones tampoco es mala, pero algunas de las aproximaciones anteriores debido a restricciones computacionales ya no son buenas (paso a paso, hacia adelante). El promedio de modelos usando la selección de características (todos los modelos 1 var, 2 modelos var, etc. ponderados por su rendimiento) hará un trabajo bastante bueno en la predicción. Pero estos esencialmente están penalizando a los betas a través del peso dado a los modelos con esa variable excluida, solo que no directamente, y no en un tipo de problema de optimización convexo.

probabilidadislogica
fuente
12

Te doy la perspectiva de la industria.

A las industrias no les gusta gastar dinero en sensores y sistemas de monitoreo de los cuales no saben cuánto se beneficiarán.

Por ejemplo, no quiero nombrar, así que imagine un componente con 10 sensores que recopilan datos cada minuto. El propietario del activo se vuelve hacia mí y me pregunta qué tan bien puede predecir el comportamiento de mi componente con estos datos de 10 sensores. Luego realizan un análisis de costo-beneficio.

Luego, tienen el mismo componente con 20 sensores, me preguntan, nuevamente, ¿qué tan bien puede predecir el comportamiento de mi componente con estos datos de 20 sensores? Realizan otro análisis de costo-beneficio.

En cada uno de estos casos, comparan el beneficio con el costo de inversión debido a las instalaciones de sensores. (Esto no es solo agregar un sensor de $ 10 a un componente. Muchos factores juegan un papel). Aquí es donde un análisis de selección variable puede ser útil.

PeyM87
fuente
1
Buen punto. Pero no conocería 10 sensores lo suficientemente buenos o necesitaría otros 10 hasta que tenga algunos datos del 20.
horaceT
Es cierto, y siempre se puede especular sobre la base de algunos estudios. Instala cada sensor con un objetivo, para evitar fallas. Si las tasas de falla son bajas o si ya ha cubierto las partes importantes de un componente, sabe que la adición de 1 sensor no generará un gran retorno. Por lo tanto, no necesita instalar esos sensores, recopilar datos y realizar un estudio para saber si esos sensores adicionales son realmente lo suficientemente buenos.
PeyM87
Los 'sensores' pueden no significar sensores: en mi empresa, nos suscribimos a todos nuestros datos, por lo que existe la posibilidad de descubrir funciones que no contribuyen a nada y reducir los costos al eliminarlos del servicio de suscripción (para ser claros, las tasas de suscripción se calculan a un nivel más alto que las columnas individuales, pero ciertamente es plausible imaginar que un elemento de la suscripción contribuya con una característica a un modelo final y pueda descontinuarse si no mejora el rendimiento)
Robert de Graaf
9

Como parte de un algoritmo para aprender un modelo puramente predictivo, la selección de variables no es necesariamente mala desde el punto de vista del rendimiento ni es automáticamente peligrosa. Sin embargo, hay algunos problemas que uno debe tener en cuenta.

Para hacer la pregunta un poco más concreta, consideremos el problema de regresión lineal con para y y son vectores -dimensionales de variables y parámetros, respectivamente. El objetivo es encontrar una buena aproximación de la función que es la predicción de dada . Esto se puede lograr estimandoi = 1 , , N X i β p x E ( Y X = x ) = X T β , Y X = x β

E(YiXi)=XiTβ
i=1,,NXiβp
xE(YX=x)=XTβ,
YX=xβutilizando combinaciones de selección variable y minimización de una función de pérdida con o sin penalización. El promedio de modelos o los métodos bayesianos también se pueden usar, pero centrémonos en las predicciones de modelos únicos.

Los algoritmos de selección paso a paso , como la selección de variables hacia adelante y hacia atrás, pueden verse como intentos aproximados para resolver el mejor problema de selección de subconjuntos, que es computacionalmente difícil (tan difícil que las mejoras del poder computacional importan poco). El interés está en encontrar para cada el mejor (o al menos un buen) modelo con variables. Posteriormente, podemos optimizar sobre .k=1,,min(N,p)kk

El peligro con un procedimiento de selección de variables de este tipo es que muchos resultados de distribución estándar no son válidos condicionalmente en la selección de variables. Esto es válido para las pruebas estándar y los intervalos de confianza, y es uno de los problemas sobre los que Harrell [2] advierte. Breiman también advirtió sobre la selección del modelo basado en, por ejemplo Mallows en The Little Bootstrap ... . Malvas , o AIC para el caso, qué no se dan cuenta de la selección del modelo, y darán errores de predicción demasiado optimistas.CpCp

Sin embargo, la validación cruzada se puede utilizar para estimar el error de predicción y para seleccionar , y la selección de variables puede lograr un buen equilibrio entre sesgo y varianza. Esto es particularmente cierto si tiene algunas coordenadas grandes con el resto cerca de cero como menciona @probabilityislogic.kβ

Los métodos de contracción , como la regresión de crestas y el lazo, pueden lograr un buen equilibrio entre sesgo y varianza sin una selección explícita de variables. Sin embargo, como el OP menciona, el lazo hace una selección implícita de variables. No es realmente el modelo, sino el método para ajustar el modelo el que hace la selección de variables. Desde esa perspectiva, la selección de variables (implícita o explícita) es simplemente parte del método para ajustar el modelo a los datos, y debe considerarse como tal.

Los algoritmos para calcular el estimador de lazo pueden beneficiarse de la selección variable (o cribado). En el Aprendizaje estadístico con dispersión: el lazo y las generalizaciones , Sección 5.10, describió cómo glmnetes útil el cribado, tal como se implementa en . Puede conducir a un cálculo sustancialmente más rápido del estimador de lazo.

Una experiencia personal es la de un ejemplo en el que la selección de variables permitió ajustar un modelo más complicado (un modelo aditivo generalizado) utilizando las variables seleccionadas. Los resultados de la validación cruzada indicaron que este modelo era superior a una serie de alternativas aunque no a un bosque aleatorio. Si gamsel hubiera existido que integra modelos aditivos generalizados con selección de variables podría haber considerado probarlo también.

Editar: desde que escribí esta respuesta hay un documento sobre la aplicación particular que tenía en mente. El código R para reproducir los resultados en el documento está disponible.

En resumen , diré que la selección de variables (de una forma u otra) es y seguirá siendo útil incluso con fines puramente predictivos como una forma de controlar el equilibrio de sesgo-varianza. Si no es por otras razones, al menos porque los modelos más complicados pueden no ser capaces de manejar un gran número de variables listas para usar. Sin embargo, a medida que pase el tiempo, veremos desarrollos como gamsel que integran la selección de variables en la metodología de estimación.

Por supuesto, siempre es esencial que consideremos la selección de variables como parte del método de estimación. El peligro es creer que la selección de variables funciona como un oráculo e identifica el conjunto correcto de variables. Si creemos eso y procedemos como si las variables no fueran seleccionadas en base a los datos, entonces estamos en riesgo de cometer errores.

NRH
fuente
1
No tengo claro cómo la selección de variables hizo posible ajustar un modelo más complicado. Con la selección de variables todavía está estimando el mismo gran número de parámetros; solo estás estimando algunos de ellos como cero. La estabilidad de un modelo condicional ajustado después de la selección de variables puede ser un espejismo.
Frank Harrell
1
@Harrell, en el ejemplo particular, la selección de variables se realizó usando un lazo en combinación con la selección de estabilidad en el modelo donde todas las variables ingresaron linealmente. Luego se ajustó el gam utilizando las variables seleccionadas. Estoy completamente de acuerdo en que la selección de variables es solo estimar algunos parámetros a cero, y la aplicación hizo exactamente eso en un modelo gam mediante un procedimiento de dos pasos. Estoy seguro de que Gamsel ofrece un enfoque más sistemático. Mi punto era que sin ese enfoque, la selección de variables puede ser un atajo útil.
NRH
1
No es apropiado usar un método sin convertir para ajustar las variables seleccionadas en una fase de penalización anterior. Eso sería sustancialmente parcial. Y la selección de variables sin convertir no es un buen atajo.
Frank Harrell
1
La selección de estabilidad es más conservadora que la selección de variables usando el lazo y el reajuste sin penalización. Este último, como era de esperar, no funcionó muy bien desde un punto de vista predictivo (como medida por validación cruzada). Cuando, a través de la validación cruzada, en un caso concreto, encuentro que la selección de variables + gam ofrece un mejor rendimiento predictivo que el estimador de cresta o lazo, entonces esa es mi medida de si el procedimiento es bueno.
NRH
1
Defina "selección de estabilidad". Y reajustar sin penalización es anti-conservador.
Frank Harrell
4

Permítanme comentar sobre la declaración: "... ajustar k parámetros a n <k observaciones simplemente no va a suceder".

En la quimiometría a menudo estamos interesados ​​en modelos predictivos, y la situación k >> n se encuentra con frecuencia (por ejemplo, en datos espectroscópicos). Este problema generalmente se resuelve simplemente proyectando las observaciones en un subespacio de dimensión inferior a, donde a <n, antes de la regresión (por ejemplo, Regresión de componentes principales). Usando la regresión de mínimos cuadrados parciales, la proyección y la regresión se realizan simultáneamente favoreciendo la calidad de la predicción. Los métodos mencionados encuentran pseudo-inversas óptimas para una matriz de covarianza o correlación (singular), por ejemplo, por descomposición de valores singulares.

La experiencia muestra que el rendimiento predictivo de los modelos multivariados aumenta cuando se eliminan las variables ruidosas. Entonces, incluso si nosotros, de manera significativa, somos capaces de estimar k parámetros que tienen solo n ecuaciones (n <k), nos esforzamos por modelos parsimoniosos. Para ese propósito, la selección de variables se vuelve relevante, y mucha literatura quimiométrica se dedica a este tema.

Si bien la predicción es un objetivo importante, los métodos de proyección al mismo tiempo ofrecen información valiosa, por ejemplo, sobre los patrones en los datos y la relevancia de las variables. Esto se ve facilitado principalmente por diversos modelos de parcelas, por ejemplo, puntuaciones, cargas, residuos, etc.

La tecnología quimométrica se usa ampliamente, por ejemplo, en la industria donde las predicciones confiables y precisas realmente cuentan.

Carsten Ridder
fuente
3

En varios casos conocidos, sí, la selección de variables no es necesaria. El aprendizaje profundo se ha sobrevalorado un poco precisamente por esta razón.

Por ejemplo, cuando una red neuronal contorneada ( http://cs231n.github.io/convolutional-networks/ ) intenta predecir si una imagen centrada contiene una cara humana, las esquinas de la imagen tienden a tener un valor predictivo mínimo. El modelado tradicional y la selección de variables harían que el modelador elimine los píxeles de esquina como predictores; sin embargo, la red neuronal enrevesada es lo suficientemente inteligente como para descartar estos predictores automáticamente. Esto es cierto para la mayoría de los modelos de aprendizaje profundo que intentan predecir la presencia de algún objeto en una imagen (p. Ej., Autos que conducen autos "predicen" marcas de carril, obstáculos u otros autos en cuadros de video de transmisión a bordo).

El aprendizaje profundo es probablemente excesivo para muchos problemas tradicionales, como cuando los conjuntos de datos son pequeños o donde el conocimiento del dominio es abundante, por lo que la selección de variables tradicionales probablemente seguirá siendo relevante durante mucho tiempo, al menos en algunas áreas. No obstante, el aprendizaje profundo es excelente cuando se quiere crear una solución "bastante buena" con una mínima intervención humana. Podría llevarme muchas horas fabricar y seleccionar predictores para reconocer los dígitos escritos a mano en las imágenes, pero con una red neuronal enrevesada y una selección de variables cero, puedo tener un modelo de última generación en poco menos de 20 minutos usando TensorFlow de Google ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).

Ryan Zotti
fuente
3
Realmente me gusta esta perspectiva DL. En Computer Vision, las matrices de datos que encuentra son imágenes 2D planas, donde el significado de una columna en particular depende de la observación. Por ejemplo, el píxel 147 puede ser la cara de un gato en la imagen No. 27, pero es la pared de fondo en la imagen No. 42. Entonces, la selección de características como sabemos fallará miserablemente. Es por eso que ConvNet es tan poderoso porque tiene una invariancia traslacional / rotacional incorporada.
horaceT