Preguntas etiquetadas con statistics

La estadística es un enfoque científico para la inferencia inductiva y la predicción basada en modelos probabilísticos de los datos. Por extensión, cubre el diseño de experimentos y encuestas para recopilar datos para este propósito.

40
Ciencia de datos en C (o C ++)

Soy un Rprogramador de idiomas. También estoy en el grupo de personas que se consideran científicos de datos pero que provienen de disciplinas académicas distintas de la CS. Sin embargo, esto funciona bien en mi papel como Científico de Datos, al comenzar mi carrera Ry tener solo conocimientos...

29
¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

24
¿Alguna consola R en línea?

Estoy buscando una consola en línea para el idioma R. Al igual que escribo el código y el servidor debe ejecutarse y proporcionarme la salida. Similar al sitio web

14
¿Cuándo son engañosos los valores p?

¿Cuáles son las condiciones de datos que debemos tener en cuenta, donde los valores p pueden no ser la mejor manera de decidir la significación estadística? ¿Existen tipos de problemas específicos que caen en esta

13
Conjuntos de datos que comprenden las mejores prácticas

Soy un estudiante de maestría de CS en minería de datos. Mi supervisor me dijo una vez que antes de ejecutar cualquier clasificador o hacer algo con un conjunto de datos, debo entender completamente los datos y asegurarme de que estén limpios y correctos. Mis preguntas: ¿Cuáles son las mejores...

12
¿Cuántas celdas LSTM debo usar?

¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time...

11
¿Hay algún buen modelo de lenguaje listo para usar para Python?

Estoy creando prototipos de una aplicación y necesito un modelo de lenguaje para calcular la perplejidad en algunas oraciones generadas. ¿Hay algún modelo de lenguaje entrenado en Python que pueda usar fácilmente? Algo simple como model = LanguageModel('en') p1 = model.perplexity('This is a well...