Ciencia de los datos

25
Coeficiente de Gini vs impureza de Gini - árboles de decisión

El problema se refiere a la construcción de árboles de decisión. Según Wikipedia, el ' coeficiente de Gini ' no debe confundirse con la ' impureza de Gini '. Sin embargo, ambas medidas se pueden usar al construir un árbol de decisión; estas pueden respaldar nuestras elecciones al dividir el...

24
¿Random Forest se sobreajusta?

He estado leyendo sobre los bosques aleatorios, pero realmente no puedo encontrar una respuesta definitiva sobre el problema del sobreajuste. Según el documento original de Breiman, no deberían sobreajustarse al aumentar el número de árboles en el bosque, pero parece que no hay consenso sobre esto....

24
¿Alguna consola R en línea?

Estoy buscando una consola en línea para el idioma R. Al igual que escribo el código y el servidor debe ejecutarse y proporcionarme la salida. Similar al sitio web

24
Imagen de VM para proyectos de ciencia de datos

Como hay numerosas herramientas disponibles para las tareas de ciencia de datos, y es engorroso instalar todo y construir un sistema perfecto. ¿Hay una imagen de Linux / Mac OS con Python, R y otras herramientas de ciencia de datos de código abierto instaladas y disponibles para que las personas...

23
¿Cómo usar la salida de GridSearch?

Actualmente estoy trabajando con Python y Scikit para fines de clasificación, y leyendo un poco sobre GridSearch, pensé que esta era una excelente manera de optimizar los parámetros de mi estimador para obtener los mejores resultados. Mi metodología es esta: Dividir mis datos en entrenamiento /...