¿Se prefiere siempre la regularización de red elástica a Lasso & Ridge, ya que parece resolver los inconvenientes de estos métodos? ¿Cuál es la intuición y cuál es la matemática detrás de la red
¿Se prefiere siempre la regularización de red elástica a Lasso & Ridge, ya que parece resolver los inconvenientes de estos métodos? ¿Cuál es la intuición y cuál es la matemática detrás de la red
Espero tener sentido con el título. A menudo, la hipótesis nula se forma con la intención de rechazarla. ¿Hay alguna razón para esto, o es solo una
El LSTM se inventó específicamente para evitar el problema del gradiente de fuga. Se supone que debe hacer eso con el carrusel de error constante (CEC), que en el diagrama a continuación (de Greff et al. ) Corresponde al bucle alrededor de la celda . (fuente: deeplearning4j.org ) Y entiendo que...
Mientras aprendía sobre el Gradient Boosting, no escuché ninguna restricción con respecto a las propiedades de un "clasificador débil" que el método usa para construir y ensamblar modelos. Sin embargo, no podía imaginar una aplicación de un GB que utilizara la regresión lineal y, de hecho, cuando...
He estado mirando la simulación de Monte Carlo recientemente, y la he estado usando para aproximar constantes como (círculo dentro de un rectángulo, área proporcional).ππ\pi Sin embargo, no puedo pensar en un método correspondiente para aproximar el valor de [número de Euler] utilizando la...
Uno de los mayores problemas con el análisis de conglomerados es que es posible que tengamos que derivar conclusiones diferentes cuando nos basamos en diferentes métodos de agrupación utilizados (incluidos diferentes métodos de vinculación en la agrupación jerárquica). Me gustaría saber su opinión...
Estoy viendo algunas diapositivas de conferencias sobre un curso de ciencias de datos que se pueden encontrar aquí: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Lamentablemente, no puedo ver el video de esta conferencia y en un punto de la diapositiva, el presentador...
Estoy generando 8 bits aleatorios (ya sea un 0 o un 1) y los concateno para formar un número de 8 bits. Una simple simulación de Python produce una distribución uniforme en el conjunto discreto [0, 255]. Estoy tratando de justificar por qué esto tiene sentido en mi cabeza. Si comparo esto con...
PCA se considera un procedimiento lineal, sin embargo: P C A (X) ≠ P C A ( X1) + P C A ( X2) + … + P C A ( Xnorte) ,PAGSdoUNA(X)≠PAGSdoUNA(X1)+PAGSdoUNA(X2)+...+PAGSdoUNA(Xnorte),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), donde . Esto quiere decir que los...
Este mensaje en un artículo de Reuter del 25.02.2019 está actualmente en todas las noticias: La evidencia del calentamiento global provocado por el hombre alcanza el 'estándar de oro' [Los científicos] dijeron que la confianza de que las actividades humanas estaban elevando el calor en la...
Los árboles de decisión parecen ser un método de aprendizaje automático muy comprensible. Una vez creado, puede ser fácilmente inspeccionado por un humano, lo cual es una gran ventaja en algunas aplicaciones. ¿Cuáles son los lados débiles prácticos de los árboles de
Todos parecen representar variables aleatorias por los nodos y (in) dependencia a través de los bordes (posiblemente dirigidos). Estoy especialmente interesado en el punto de vista de un
Queridos todos, he notado algo extraño que no puedo explicar, ¿verdad? En resumen: el enfoque manual para calcular un intervalo de confianza en un modelo de regresión logística y la función R confint()dan resultados diferentes. He estado pasando por la regresión logística aplicada de Hosmer &...
¿Por qué un procedimiento de validación cruzada supera el problema de sobreajustar un
Voy a comenzar diciendo que este es un problema de tarea sacado directamente del libro. He pasado un par de horas buscando cómo encontrar los valores esperados, y he determinado que no entiendo nada. Deje que tenga el CDF . Encuentre E ( X ) para aquellos valores de α para los cuales E ( X )...
Tengo curiosidad acerca de procedimientos repetibles que se pueden utilizar para descubrir la forma funcional de la función y = f(A, B, C) + error_termdonde mi única entrada es un conjunto de observaciones ( y, A, By C). Tenga en cuenta que la forma funcional de fes desconocida. Considere el...
Estoy tratando de usar el diagrama de silueta para determinar el número de clúster en mi conjunto de datos. Dado el conjunto de datos Train , utilicé el siguiente código matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid =
En mi conjunto de datos tenemos variables continuas y naturalmente discretas. Quiero saber si podemos hacer agrupaciones jerárquicas usando ambos tipos de variables. Y si es así, ¿qué medida de distancia es
¿Alguien puede ofrecer una buena explicación sucinta de por qué no es una buena idea enseñar a los estudiantes que un valor p es el problema (sus hallazgos se deben a la posibilidad [aleatoria]). Tengo entendido que un valor p es el problema (obtener datos más extremos | la hipótesis nula es...
Esta pregunta puede ser demasiado abierta para obtener una respuesta definitiva, pero espero que no. Los algoritmos de aprendizaje automático, como SVM, GBM, Random Forest, etc., generalmente tienen algunos parámetros libres que, más allá de alguna guía práctica, deben ajustarse a cada conjunto de...