Estoy analizando un conjunto de datos utilizando un modelo de efectos mixtos con un efecto fijo (condición) y dos efectos aleatorios (participante debido al diseño del sujeto y al par). El modelo se ha generado con el lme4paquete:
Estoy analizando un conjunto de datos utilizando un modelo de efectos mixtos con un efecto fijo (condición) y dos efectos aleatorios (participante debido al diseño del sujeto y al par). El modelo se ha generado con el lme4paquete:
¿Cómo randomForestcalcula el paquete las probabilidades de clase cuando lo uso predict(model, data, type = "prob")? Estaba usando rangerpara entrenar bosques al azar usando el probability = Targumento para predecir probabilidades. rangerdice en la documentación que: Cultivar un bosque de...
Me gustaría saber si el bosque aleatorio de Breiman (bosque aleatorio en el paquete R randomForest) usa como criterio de división (criterio para la selección de atributos) la ganancia de información o el índice de Gini. Traté de encontrarlo en
En realidad, estoy escribiendo una implementación de Bosques aleatorios, pero creo que la pregunta es específica de los árboles de decisión (independientemente de los RF). Entonces, el contexto es que estoy creando un nodo en un árbol de decisión y tanto la predicción como las variables objetivo...
Supongamos que tenemos una respuesta Y y predictores X1, ...., Xn. Si tratamos de ajustar Y a través de un modelo lineal de X1, ..., Xn, y resulta que la verdadera relación entre Y y X1, ..., Xn no era lineal, podríamos ser capaces para arreglar el modelo transformando las X de alguna manera y...
Soy bastante nuevo en los bosques al azar. En el pasado, siempre he comparado la precisión del ajuste contra la prueba contra el ajuste contra el tren para detectar cualquier sobreajuste. Pero acabo de leer aquí que: "En bosques aleatorios, no hay necesidad de validación cruzada o un conjunto de...
Estoy aplicando un algoritmo de bosque aleatorio como clasificador en un conjunto de datos de microarrays que se dividen en dos grupos conocidos con miles de características. Después de la ejecución inicial, miro la importancia de las características y ejecuto nuevamente el algoritmo del árbol con...
Estoy entrenando un modelo de clasificación con Random Forest para discriminar entre 6 categorías. Mis datos transaccionales tienen aproximadamente 60k + observaciones y 35 variables. Aquí hay un ejemplo de cómo se ve aproximadamente.
En realidad, pensé que había entendido lo que se puede mostrar con un diagrama de dependencia parcial, pero usando un ejemplo hipotético muy simple, me quedé bastante perplejo. En el siguiente fragmento de código, genero tres variables independientes ( a , b , c ) y una variable dependiente ( y )...
Tradicionalmente utilizamos modelos mixtos para modelar datos longitudinales, es decir, datos como: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 podemos suponer intercepción aleatoria o pendiente para diferentes personas. Sin embargo, la...
Utilicé randomForest para clasificar 6 comportamientos de animales (p. Ej., Estar de pie, caminar, nadar, etc.) en base a 8 variables (diferentes posturas corporales y movimiento). El MDSplot en el paquete randomForest me da este resultado y tengo problemas para interpretar el resultado. Hice un...
Para impulsar algoritmos, diría que evolucionaron bastante bien. A principios de 1995 se introdujo AdaBoost, luego de un tiempo fue Gradient Boosting Machine (GBM). Recientemente, alrededor de 2015 se introdujo XGBoost, que es preciso, maneja el sobreajuste y se ha convertido en un ganador de...
Me gustaría crear un bosque aleatorio usando el siguiente proceso: Construya un árbol en muestras aleatorias de los datos y características usando la ganancia de información para determinar divisiones Termine un nodo de hoja si excede una profundidad predefinida O cualquier división daría como...
Actualmente estoy usando RF toolbox en MATLAB para un problema de clasificación binaria Conjunto de datos: 50000 muestras y más de 250 características Entonces, ¿cuál debería ser el número de árboles y la función seleccionada al azar en cada división para cultivar los árboles? ¿Puede algún otro...
Estoy un poco confundido: ¿cómo pueden los resultados de un modelo entrenado a través de caret diferir del modelo en el paquete original? Yo leo si se necesita un procesamiento previo antes de la predicción usando FinalModel de RandomForest con el paquete caret? pero no uso ningún preprocesamiento...
Un bosque aleatorio es una colección de árboles de decisión que siguen el concepto de ensacado. Cuando pasamos de un árbol de decisión al siguiente árbol de decisión, entonces, ¿cómo avanza la información aprendida por el último árbol de decisión al siguiente? Porque, según tengo entendido, no hay...
Estoy tratando de hacer predicciones usando un modelo de bosque aleatorio en R. Sin embargo, obtengo errores ya que algunos factores tienen valores diferentes en el conjunto de prueba que en el conjunto de entrenamiento. Por ejemplo, un factor Cat_2tiene valores 34, 68, 76, etc., en el conjunto de...
Al leer el excelente modelo estadístico: Las dos culturas (Breiman 2001) , podemos aprovechar toda la diferencia entre los modelos estadísticos tradicionales (p. Ej., Regresión lineal) y los algoritmos de aprendizaje automático (p. Ej., Ensacado, bosque aleatorio, árboles potenciados ...). Breiman...
Estoy jugando con un bosque aleatorio y he descubierto que, en general, aumentar el tamaño de la muestra conduce a un mejor rendimiento. ¿Existe una regla / fórmula / etc. que sugiera cuál debería ser el sampSize óptimo o es una prueba y error? Supongo que otra forma de redactarlo; ¿Cuáles son mis...
Soy bastante nuevo en el aprendizaje automático, las técnicas de CART y similares, y espero que mi ingenuidad no sea demasiado obvia. ¿Cómo maneja Random Forest estructuras de datos jerárquicas o de niveles múltiples (por ejemplo, cuando la interacción entre niveles es de interés)? Es decir,...