Mi pregunta es acerca de la validación cruzada cuando hay muchas más variables que observaciones. Para arreglar ideas, propongo restringir al marco de clasificación en una dimensión muy alta (más características que observación).
Problema: Suponga que para cada variable tiene una medida de importancia que medir exactamente el interés de la característica para el problema de clasificación. El problema de seleccionar un subconjunto de características para reducir de manera óptima el error de clasificación se reduce a encontrar el número de características.
Pregunta: ¿Cuál es la forma más eficiente de ejecutar la validación cruzada en este caso (esquema de validación cruzada)? Mi pregunta no es sobre cómo escribir el código, sino sobre la versión de validación cruzada que se debe usar al intentar encontrar el número de características seleccionadas (para minimizar el error de clasificación), sino cómo lidiar con la alta dimensión cuando se realiza la validación cruzada (de ahí el el problema anterior puede ser un poco como un 'problema de juguete' para discutir el CV en alta dimensión).
Notaciones: es el tamaño del conjunto de aprendizaje, p el número de características (es decir, la dimensión del espacio de características). Por muy alta dimensión I media p >> n (por ejemplo y ).
fuente
Respuestas:
Te pierdes un tema importante: casi nunca hay tal cosa como T [i]. Piense en un problema simple en el que la suma de dos atributos (de una amplitud similar) es importante; Si elimina uno de ellos, la importancia del otro disminuirá repentinamente. Además, una gran cantidad de atributos irrelevantes es la precisión de la mayoría de los clasificadores, así como su capacidad para evaluar la importancia. Por último, pero no menos importante, los algoritmos estocásticos devolverán resultados estocásticos, por lo que incluso la clasificación T [i] puede ser inestable. Por lo tanto, en principio, debe al menos recalcular T [i] después de eliminar cada atributo (o al menos después de eliminar cada atributo no trivialmente redundante).
Volviendo al tema, la pregunta de qué CV elegir depende principalmente del problema; con un número muy pequeño de casos, LOO puede ser la mejor opción porque todos los demás comienzan a reducirse; todavía pequeño es más bien n = 10 no n = 100. Por lo tanto, solo recomendaría submuestreo aleatorio (que uso más) o K-fold (luego con recreación de divisiones en cada paso). Aún así, también debe recopilar no solo la media sino también la desviación estándar de las estimaciones de error; Esto se puede usar para (aproximadamente) juzgar qué cambios de media son significativos y ayudarlo a decidir cuándo detener el proceso.
fuente
Esa es una buena pregunta, y tiende a afectar más de lo que se refiere a los aprendices del conjunto y el promedio del modelo (proporcionaré enlaces a continuación):
Cuando se encuentra en configuraciones de alta dimensión, la estabilidad de su solución (es decir, qué características / variables se seleccionan) puede faltar porque los modelos individuales pueden elegir 1 entre muchas variables colineales e intercambiables que, en general, llevan la misma señal ( entre una de muchas razones). A continuación hay un par de estrategias sobre cómo abordar esto.
En el modelo bayesiano de promedio, por ejemplo,
Hoeting, Jennifer A., et al. "Promedio del modelo bayesiano: un tutorial". Ciencia estadística (1999): 382-401.
construye muchos modelos (digamos 100), y cada uno de los cuales se construye con un subconjunto de las características originales. Luego, cada modelo individual determina cuál de las variables que vio fue significativa, y cada modelo se pondera según la probabilidad de los datos, brindándole un buen resumen de cómo "juzgar" la efectividad de las variables en el tipo de "validación cruzada". sabe a priori que algunas características están altamente correlacionadas, puede inducir un esquema de muestreo para que nunca se seleccionen juntas (o si tiene una estructura de correlación de bloques, entonces elige elementos de diferentes bloques en su matriz de varianza-covarianza)
En una configuración de tipo de aprendizaje automático : mire "selección de características de conjunto". Este artículo (un ejemplo)
Neumann, Ursula, Nikita Genze y Dominik Heider. "EFS: una herramienta de selección de características de conjunto implementada como paquete R y aplicación web". BioData mining 10.1 (2017): 21.
determina la importancia de la función en una variedad de métricas de "importancia" para realizar la selección de la función final.
Yo diría que la ruta de aprendizaje automático podría ser mejor b / c modelos lineales (w / selección de características) saturados en p = nb / c de su reformulación de optimización (ver esta publicación Si p> n, el lazo selecciona como máximo n variables ). Pero siempre que pueda definir y justificar un buen criterio objetivo sobre cómo 'validar de forma cruzada' la selección de características, entonces tendrá un buen comienzo.
¡Espero que esto ayude!
fuente