Estadísticas y Big Data

15
El bosque aleatorio está sobreajustado

Estoy tratando de usar Regresión forestal aleatoria en scikits-learn. El problema es que recibo un error de prueba muy alto: train MSE, 4.64, test MSE: 252.25. Así es como se ven mis datos: (azul: datos reales, verde: predicho): Estoy usando 90% para entrenamiento y 10% para prueba. Este es el...

15
¿Por qué estabilizamos la varianza?

Encontré la transformación de estabilización de varianza mientras leía el método Kaggle Essay Eval . Utilizan una transformación de estabilización de varianza para transformar los valores de kappa antes de tomar su media y luego transformarlos nuevamente. Incluso después de leer el wiki sobre...

15
Significado de los términos de salida en el paquete gbm

Estoy usando el paquete gbm para la clasificación. Como se esperaba, los resultados son buenos. Pero estoy tratando de entender la salida del clasificador. Hay cinco términos en la salida. `Iter TrainDeviance ValidDeviance StepSize Improve` ¿Alguien podría explicar el significado de cada término,...

15
Comparación de listas clasificadas

Supongamos que dos grupos, que comprende n1n1n_1 y n2n2n_2 cada rango de un conjunto de 25 elementos de más a menos importante. ¿Cuáles son las mejores formas de comparar estas clasificaciones? Claramente, es posible hacer 25 pruebas U de Mann-Whitney, pero esto daría como resultado 25 resultados...

15
Modelo de Cox vs regresión logística

Digamos que tenemos el siguiente problema: Predecir qué clientes tienen más probabilidades de dejar de comprar en nuestra tienda en los próximos 3 meses. Para cada cliente, sabemos el mes en que uno comenzó a comprar en nuestra tienda y, además, tenemos muchas características de comportamiento...