Preguntas etiquetadas con r

R es un entorno de software y lenguaje de programación libre y de código abierto para computación estadística, bioinformática y gráficos.

101
Python vs R para aprendizaje automático

Estoy empezando a desarrollar una aplicación de aprendizaje automático para fines académicos. Actualmente estoy usando R y entrenándome en ello. Sin embargo, en muchos lugares, he visto personas que usan Python . ¿Qué utilizan las personas en la academia y la industria, y cuál es la...

56
¿Cuándo está un modelo poco equipado?

La lógica a menudo establece que al equipar un modelo de manera insuficiente, aumenta su capacidad de generalizar. Dicho esto, claramente en algún momento la falta de adecuación de un modelo hace que los modelos empeoren independientemente de la complejidad de los datos. ¿Cómo sabe cuándo su...

53
RNN vs CNN a un alto nivel

He estado pensando en las redes neuronales recurrentes (RNN) y sus variedades y las redes neuronales convolucionales (CNN) y sus variedades. ¿Sería justo decir estos dos puntos: Use CNN para dividir un componente (como una imagen) en subcomponentes (como un objeto en una imagen, como el contorno...

48
¿Es el lenguaje R adecuado para Big Data?

R tiene muchas bibliotecas dirigidas al análisis de datos (por ejemplo, JAGS, BUGS, ARULES, etc.), y se menciona en libros de texto populares como: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Aprendizaje automático con R". He visto una directriz de 5 TB para que un conjunto de datos se...

37
¿Los científicos de datos usan Excel?

Me consideraría un científico de datos oficial. Como la mayoría (creo), hice mis primeros cuadros e hice mis primeras agregaciones en la escuela secundaria y la universidad, usando Excel. A medida que cursé la universidad, la escuela de posgrado y ~ 7 años de experiencia laboral, rápidamente...

34
Procesos organizados para limpiar datos

Desde mi limitada experiencia en ciencia de datos con R, me di cuenta de que limpiar datos incorrectos es una parte muy importante de la preparación de datos para el análisis. ¿Existen mejores prácticas o procesos para limpiar los datos antes de procesarlos? Si es así, ¿existen herramientas...

29
¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

27
Parámetros de Hypertuning XGBoost

XGBoost ha estado haciendo un gran trabajo cuando se trata de lidiar con variables dependientes categóricas y continuas. Pero, ¿cómo selecciono los parámetros optimizados para un problema de XGBoost? Así es como apliqué los parámetros para un problema reciente de Kaggle: param <- list(...

24
¿Alguna consola R en línea?

Estoy buscando una consola en línea para el idioma R. Al igual que escribo el código y el servidor debe ejecutarse y proporcionarme la salida. Similar al sitio web

24
Imagen de VM para proyectos de ciencia de datos

Como hay numerosas herramientas disponibles para las tareas de ciencia de datos, y es engorroso instalar todo y construir un sistema perfecto. ¿Hay una imagen de Linux / Mac OS con Python, R y otras herramientas de ciencia de datos de código abierto instaladas y disponibles para que las personas...