Preguntas etiquetadas con scikit-learn

15
El bosque aleatorio está sobreajustado

Estoy tratando de usar Regresión forestal aleatoria en scikits-learn. El problema es que recibo un error de prueba muy alto: train MSE, 4.64, test MSE: 252.25. Así es como se ven mis datos: (azul: datos reales, verde: predicho): Estoy usando 90% para entrenamiento y 10% para prueba. Este es el...

13
Usando BIC para estimar el número de k en KMEANS

Actualmente estoy tratando de calcular el BIC para mi conjunto de datos de juguete (ofc iris (:). Quiero reproducir los resultados como se muestra aquí (Fig. 5). Ese documento también es mi fuente para las fórmulas de BIC. Tengo 2 problemas con esto: Notación: ninin_i = número de elementos en...

12
¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?

Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <-...

12
¿Es posible evaluar GLM en Python / scikit-learn usando las distribuciones de Poisson, Gamma o Tweedie como la familia para la distribución de errores?

Intento aprender algo de Python y Sklearn, pero para mi trabajo necesito ejecutar regresiones que utilicen distribuciones de error de las familias Poisson, Gamma y especialmente Tweedie. No veo nada en la documentación sobre ellos, pero están en varias partes de la distribución R, por lo que me...