Estoy trabajando en un proyecto y tengo dificultades para decidir qué algoritmo elegir regression
. Quiero saber bajo qué condiciones debería uno elegir linear regression
ao Decision Tree regression
o Random Forest regression
? ¿Existen características específicas de los datos que tomarían la decisión de utilizar un algoritmo específico entre el árbol mencionado anteriormente? ¿Cuáles son esas características que debo buscar en mi conjunto de datos para tomar la decisión? ¿Y hay algunas razones por las que uno elegiría un algoritmo decision tree
o random forest
incluso si se puede lograr la misma corrección linear regression
?
machine-learning
algorithms
random-forest
linear-regression
decision-trees
machine-learning
predictive-modeling
forecast
r
clustering
similarity
data-mining
dataset
statistics
text-mining
text-mining
data-cleaning
data-wrangling
machine-learning
classification
algorithms
xgboost
data-mining
dataset
dataset
regression
graphs
svm
unbalanced-classes
cross-validation
optimization
hyperparameter
genetic-algorithms
visualization
predictive-modeling
correlation
machine-learning
predictive-modeling
apache-spark
statistics
normalization
apache-spark
map-reduce
r
correlation
confusion-matrix
r
data-cleaning
classification
terminology
dataset
image-classification
machine-learning
regression
apache-spark
machine-learning
data-mining
nlp
parsing
machine-learning
dimensionality-reduction
visualization
clustering
multiclass-classification
evaluation
unsupervised-learning
machine-learning
machine-learning
data-mining
supervised-learning
unsupervised-learning
machine-learning
data-mining
classification
statistics
predictive-modeling
data-mining
clustering
python
pandas
machine-learning
dataset
data-cleaning
data
bigdata
software-recommendation
Jason Donnald
fuente
fuente
Respuestas:
Permítanme explicarlo usando algunos ejemplos para una intuición clara:
La regresión lineal es un modelo lineal, lo que significa que funciona muy bien cuando los datos tienen una forma lineal. Pero, cuando los datos tienen una forma no lineal, entonces un modelo lineal no puede capturar las características no lineales.
Entonces, en este caso, puede usar los árboles de decisión, que hacen un mejor trabajo al capturar la no linealidad en los datos dividiendo el espacio en subespacios más pequeños dependiendo de las preguntas formuladas.
Supongo que la respuesta de Quora aquí haría un mejor trabajo que yo, al explicar la diferencia entre ellos y sus aplicaciones. Déjame citarte eso:
fuente
when the data has a non-linear shape, then a linear model cannot capture the non-linear features
Este es un error común. En primer lugar, una regresión lineal simple puede modelar incluso estadísticas de series armónicas.stackexchange.com/ questions/60500/… . En segundo lugar, se puede introducir la interacción de características y, por supuesto, hay un modelo lineal generalizado donde se introduce una función no lineal en los términos lineales (por ejemplo, la regresión logística).Hasta donde yo sé, no hay una regla para decir qué algoritmo funciona para qué conjunto de datos. Solo asegúrese de que su conjunto de datos y variables de interés cumplan con los supuestos previos de ejecutar cada algoritmo y pruébelo. Por ejemplo, la regresión lineal tiene algunos supuestos previos, como la normalidad de los resultados, la homocedasticidad (la variabilidad en la variable de respuesta es la misma en todos los niveles de la variable explicativa), etc. Simplemente verifique estos para sus variables y pruebe el algoritmo.
Puede usar un software de apuntar y hacer clic para ver los resultados sin involucrarse en el código y la configuración de parámetros. Si usted es un usuario de R, el paquete sonajero será una herramienta muy útil en esta etapa. Haces tu trabajo en modo apuntar y hacer clic y tienes acceso al código detrás de él.
fuente