Siempre he leído el término interacción en el contexto de regresión. ¿Deberíamos considerar también las interacciones con diferentes modelos, por ejemplo, knn o svm?
Si hay , 100 o incluso más funciones y digamos 1000 observaciones, ¿cuál es la forma habitual de encontrar interacciones útiles? Prueba todas las combinaciones? ¿O usar solo combinaciones que tengan sentido?
Respuestas:
La forma más sencilla de ver esto es a través del problema XOR, un modelo de regresión sin interacciones no puede resolver esto, ya que requiere una combinación no lineal.
Los KNN y SVM por otro lado (y muchos otros modelos también) son aproximadores de funciones universales. Esto significa que no solo pueden combinar sus entradas de manera lineal, sino también de cualquier manera no lineal posible. A eso se le dan suficientes capas o un núcleo adecuado, básicamente pueden "crear" sus propias interacciones, exactamente como las necesitan. Sin embargo, si sabe o espera que las interacciones específicas sean importantes, aún puede usarlas como entrada para guiar a los modelos en la dirección correcta.
Del mismo modo, los modelos basados en árboles se pueden interpretar como solo consistentes en interacciones. Básicamente, una división en un modelo basado en árbol crea una interacción específica con todas las variables anteriores.
fuente
No.
Por lo tanto, no solo la interacción se ha utilizado ampliamente en otros modelos. Además de la interacción, otros modelos intentan más con la ingeniería de características. En lugar de multiplicar dos columnas, se derivan características más complicadas.
fuente
Interacciones que mejoran el R cuadrado ajustado, BIC para la regresión de probabilidad (alternativamente AICc y otros), VIF y el estadístico F de ANOVA, este último sin parámetros individuales que se consideran no contributivos utilizando sus probabilidades parciales.
También es muy importante, pero no se pregunta, que la reparametrización puede mejorar notablemente tanto el efecto de las variables individuales como sus interacciones. Sin embargo, BIC, AIC y otras mediciones de calidad de probabilidad no son válidas para comparar diferentes repareterizaciones que dejan R cuadrado ajustado, VIF y el estadístico F de ANOVA para tales propósitos.
fuente