Supongo que esta es una pregunta básica y tiene que ver con la dirección del gradiente en sí, pero estoy buscando ejemplos en los que los métodos de segundo orden (por ejemplo, BFGS ) sean más efectivos que el simple descenso del
Supongo que esta es una pregunta básica y tiene que ver con la dirección del gradiente en sí, pero estoy buscando ejemplos en los que los métodos de segundo orden (por ejemplo, BFGS ) sean más efectivos que el simple descenso del
Supongamos que hago validación cruzada K-fold con K = 10 pliegues. Habrá una matriz de confusión para cada pliegue. Al informar los resultados, ¿debo calcular cuál es la matriz de confusión promedio o simplemente sumar las matrices de
La pregunta ¿Qué concluir de este diagrama de lazo (glmnet) demuestra caminos de solución para el estimador de lazo que no son monótonos? Es decir, algunos de los cofficientes crecen en valor absoluto antes de reducirse. He aplicado estos modelos a varios tipos diferentes de conjuntos de datos y...
Me gustaría encontrar una manera de cuantificar la intensidad de la bimodalidad de algunas distribuciones que obtuve empíricamente. Por lo que leí, todavía hay cierto debate sobre la forma de cuantificar la bimodalidad. Elegí usar la prueba de inmersión de Hartigans, que parece ser la única...
En la literatura, a veces me atonto la observación, que elegir los antecedentes que dependen de los datos en sí (por ejemplo, Zellners g-prior) puede ser criticado desde un punto de vista teórico. ¿Dónde está exactamente el problema si lo anterior no se elige independientemente de los...
Vengo de Ingeniería Civil, en la que utilizamos la Teoría del Valor Extremo , como la distribución GEV para predecir el valor de ciertos eventos, como La mayor velocidad del viento , es decir, el valor al que sería menor el 98.5% de la velocidad del viento. Mi pregunta es ¿por qué usar una...
He visto y he disfrutado la pregunta Dar sentido al análisis de componentes principales , y ahora tengo la misma pregunta para el análisis de componentes independientes. ¿Quiero decir que quiero hacer una pregunta exhaustiva sobre las formas intuitivas de entender ICA? Quiero entender ella. Quiero...
De una Introducción al aprendizaje estadístico de James et al., La estimación de validación cruzada de dejar uno fuera (LOOCV) se define por CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i dondeMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i =...
Algunas de las características de mis datos tienen valores grandes, mientras que otras tienen valores mucho más pequeños. ¿Es necesario centrar + escalar datos antes de aplicar t-SNE para evitar sesgos hacia los valores más grandes? Uso la implementación sklearn.manifold.TSNE de Python con la...
¿Puedo obtener ayuda para completar este intento tentativo (en progreso) de orientarme en los equivalentes de ANOVA y REGRESIÓN? He estado tratando de conciliar los conceptos, la nomenclatura y la sintaxis de estas dos metodologías. Hay muchas publicaciones en este sitio sobre sus puntos en común,...
Sé que para acceder al rendimiento del clasificador tengo que dividir los datos en un conjunto de entrenamiento / prueba. Pero leyendo esto : Al evaluar diferentes configuraciones ("hiperparámetros") para estimadores, como la configuración C que debe configurarse manualmente para un SVM, todavía...
Estoy aprendiendo sobre la optimización y tengo problemas para comprender la diferencia entre la optimización convexa y no convexa. Según tengo entendido, una función convexa es aquella en la que "el segmento de línea entre dos puntos cualquiera en el gráfico de la función se encuentra arriba o en...
Recientemente descubrí cómo modelar exposiciones a lo largo del tiempo utilizando el registro de (p. Ej.) Tiempo como compensación en una regresión de Poisson. Comprendí que el desplazamiento corresponde a tener el tiempo como covariable con el coeficiente 1. Me gustaría entender mejor la...
Después de leer "Explicar o predecir " de Galit Shmueli (2010), me sorprende una aparente contradicción. Hay tres premisas, Elección del modelo basado en AIC versus BIC (final de p. 300 - comienzo de p. 301): simplemente, AIC debe usarse para seleccionar un modelo destinado a predicción, mientras...
Estoy tratando de comparar la complejidad computacional / velocidad de estimación de tres grupos de métodos para la regresión lineal como se distingue en Hastie et al. "Elementos del aprendizaje estadístico" (2ª ed.), Capítulo 3: Selección de subconjunto Métodos de contracción Métodos que...
Deje que sea un movimiento browniano estándar. Deje que denote el evento y deje que donde denota la función del indicador. ¿Existe tal que para para todos los ? Sospecho que la respuesta es sí; He intentado perder el tiempo con el método del segundo momento, pero no sirvió de mucho. ¿Se puede...
He visto varias veces que las personas rechazan el nulo en una prueba aumentada de Dickey-Fuller , y luego afirman que muestra que su serie es estacionaria (desafortunadamente, no puedo mostrar las fuentes de estas afirmaciones, pero imagino que existen afirmaciones similares aquí y allá en uno u...
Tengo antecedentes en estadísticas de nivel de posgrado introductorio (supongo que sé estadística matemática y probabilidad a nivel de pregrado (por ejemplo, Wackerly et al., Probabilidad de Ross), y tengo algún conocimiento de la teoría de la medida). Recientemente comencé un trabajo haciendo...
Quiero comparar dos imágenes de caras. Calculé sus histogramas LBP. Entonces ahora necesito comparar estos dos histogramas y obtener algo que diga cuánto son iguales estos histogramas (0 - 100%). Hay muchas formas de resolver esta tarea, pero los autores del método LBP enfatizan (Descripción de la...
Deje y , . ¿Cuál es la expectativa de como ?X1∼U[0,1]X1∼U[0,1]X_1 \sim U[0,1]Xi∼U[Xi−1,1]Xi∼U[Xi−1,1]X_i \sim U[X_{i - 1}, 1]i=2,3,...i=2,3,...i = 2, 3,...X1X2⋯XnX1X2⋯XnX_1 X_2 \cdots X_nn→∞n→∞n \rightarrow