¿Cuál es la mejor manera de preparar interacciones de características categóricas antes de ajustar con scikit-learn?
Con statsmodels
podría decir convenientemente en estilo R smf.ols(formula = 'depvar ~ C(var1)*C(var2)', data=df).fit()
(lo mismo en Stata con regress depvar i.var1##i.var2
).
¿Puede sklearn.preprocessing.PolynomialFeatures
(en v0.15, actualmente dev) usarse con variables categóricas?
~var1*var2
está perfectamente bien en R para construir la matriz RHS)dmatrix
)Usa Patsy .
Patsy es una de mis bibliotecas favoritas de Python: hace una cosa, y solo una, muy, muy bien.
fuente