Estadísticas y Big Data

18

¿Por qué son útiles los derivados de segundo orden en la optimización convexa?

Supongo que esta es una pregunta básica y tiene que ver con la dirección del gradiente en sí, pero estoy buscando ejemplos en los que los métodos de segundo orden (por ejemplo, BFGS ) sean más efectivos que el simple descenso del

optimization

18

¿Cómo se informa la matriz de confusión de la validación cruzada K-fold?

Supongamos que hago validación cruzada K-fold con K = 10 pliegues. Habrá una matriz de confusión para cada pliegue. Al informar los resultados, ¿debo calcular cuál es la matriz de confusión promedio o simplemente sumar las matrices de

machine-learning cross-validation accuracy

18

¿Existe un conjunto claro de condiciones bajo las cuales las rutas de lazo, cordón o solución de red elástica son monótonas?

La pregunta ¿Qué concluir de este diagrama de lazo (glmnet) demuestra caminos de solución para el estimador de lazo que no son monótonos? Es decir, algunos de los cofficientes crecen en valor absoluto antes de reducirse. He aplicado estos modelos a varios tipos diferentes de conjuntos de datos y...

lasso ridge-regression elastic-net

18

Interpretación de la prueba de inmersión de Hartigans

Me gustaría encontrar una manera de cuantificar la intensidad de la bimodalidad de algunas distribuciones que obtuve empíricamente. Por lo que leí, todavía hay cierto debate sobre la forma de cuantificar la bimodalidad. Elegí usar la prueba de inmersión de Hartigans, que parece ser la única...

r distributions

18

¿Cuál es el problema con los antecedentes empíricos?

En la literatura, a veces me atonto la observación, que elegir los antecedentes que dependen de los datos en sí (por ejemplo, Zellners g-prior) puede ser criticado desde un punto de vista teórico. ¿Dónde está exactamente el problema si lo anterior no se elige independientemente de los...

bayesian prior hierarchical-bayesian

18

¿Por qué usar la teoría del valor extremo?

Vengo de Ingeniería Civil, en la que utilizamos la Teoría del Valor Extremo , como la distribución GEV para predecir el valor de ciertos eventos, como La mayor velocidad del viento , es decir, el valor al que sería menor el 98.5% de la velocidad del viento. Mi pregunta es ¿por qué usar una...

quantiles extreme-value

18

Dar sentido al análisis de componentes independientes

He visto y he disfrutado la pregunta Dar sentido al análisis de componentes principales , y ahora tengo la misma pregunta para el análisis de componentes independientes. ¿Quiero decir que quiero hacer una pregunta exhaustiva sobre las formas intuitivas de entender ICA? Quiero entender ella. Quiero...

intuition ica

18

Prueba de fórmula LOOCV

De una Introducción al aprendizaje estadístico de James et al., La estimación de validación cruzada de dejar uno fuera (LOOCV) se define por CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i dondeMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i =...

regression self-study cross-validation least-squares

18

¿Deberían los datos estar centrados + escalados antes de aplicar t-SNE?

Algunas de las características de mis datos tienen valores grandes, mientras que otras tienen valores mucho más pequeños. ¿Es necesario centrar + escalar datos antes de aplicar t-SNE para evitar sesgos hacia los valores más grandes? Uso la implementación sklearn.manifold.TSNE de Python con la...

normalization dimensionality-reduction high-dimensional tsne

18

Hoja de trucos ANOVA Alfabeto Sopa y equivalentes de regresión

¿Puedo obtener ayuda para completar este intento tentativo (en progreso) de orientarme en los equivalentes de ANOVA y REGRESIÓN? He estado tratando de conciliar los conceptos, la nomenclatura y la sintaxis de estas dos metodologías. Hay muchas publicaciones en este sitio sobre sus puntos en común,...

regression anova mixed-model

18

Por qué no es suficiente dividir los datos en el conjunto de entrenamiento y prueba

Sé que para acceder al rendimiento del clasificador tengo que dividir los datos en un conjunto de entrenamiento / prueba. Pero leyendo esto : Al evaluar diferentes configuraciones ("hiperparámetros") para estimadores, como la configuración C que debe configurarse manualmente para un SVM, todavía...

machine-learning cross-validation

18

¿Se puede aplicar el descenso de gradiente a funciones no convexas?

Estoy aprendiendo sobre la optimización y tengo problemas para comprender la diferencia entre la optimización convexa y no convexa. Según tengo entendido, una función convexa es aquella en la que "el segmento de línea entre dos puntos cualquiera en el gráfico de la función se encuentra arriba o en...

optimization

18

En un modelo de Poisson, ¿cuál es la diferencia entre usar el tiempo como una covariable o un desplazamiento?

Recientemente descubrí cómo modelar exposiciones a lo largo del tiempo utilizando el registro de (p. Ej.) Tiempo como compensación en una regresión de Poisson. Comprendí que el desplazamiento corresponde a tener el tiempo como covariable con el coeficiente 1. Me gustaría entender mejor la...

poisson-regression predictor offset

18

Paradoja en la selección del modelo (AIC, BIC, ¿para explicar o predecir?)

Después de leer "Explicar o predecir " de Galit Shmueli (2010), me sorprende una aparente contradicción. Hay tres premisas, Elección del modelo basado en AIC versus BIC (final de p. 300 - comienzo de p. 301): simplemente, AIC debe usarse para seleccionar un modelo destinado a predicción, mientras...

forecasting model-selection feature-selection aic bic

18

Velocidad, gastos computacionales de PCA, LASSO, red elástica

Estoy tratando de comparar la complejidad computacional / velocidad de estimación de tres grupos de métodos para la regresión lineal como se distingue en Hastie et al. "Elementos del aprendizaje estadístico" (2ª ed.), Capítulo 3: Selección de subconjunto Métodos de contracción Métodos que...

machine-learning estimation feature-selection algorithms time-complexity

18

Método del segundo momento, ¿movimiento browniano?

Deje que sea un movimiento browniano estándar. Deje que denote el evento y deje que donde denota la función del indicador. ¿Existe tal que para para todos los ? Sospecho que la respuesta es sí; He intentado perder el tiempo con el método del segundo momento, pero no sirvió de mucho. ¿Se puede...

probability self-study moments distributions brownian

18

¿Un buen ejemplo donde una serie sin una raíz unitaria no es estacionaria?

He visto varias veces que las personas rechazan el nulo en una prueba aumentada de Dickey-Fuller , y luego afirman que muestra que su serie es estacionaria (desafortunadamente, no puedo mostrar las fuentes de estas afirmaciones, pero imagino que existen afirmaciones similares aquí y allá en uno u...

time-series unit-root stationarity augmented-dickey-fuller

18

¿Qué es el tamaño del efecto ... y por qué es útil?

Tengo antecedentes en estadísticas de nivel de posgrado introductorio (supongo que sé estadística matemática y probabilidad a nivel de pregrado (por ejemplo, Wackerly et al., Probabilidad de Ross), y tengo algún conocimiento de la teoría de la medida). Recientemente comencé un trabajo haciendo...

effect-size group-differences

18

Comparar dos histogramas usando la distancia Chi-Cuadrada

Quiero comparar dos imágenes de caras. Calculé sus histogramas LBP. Entonces ahora necesito comparar estos dos histogramas y obtener algo que diga cuánto son iguales estos histogramas (0 - 100%). Hay muchas formas de resolver esta tarea, pero los autores del método LBP enfatizan (Descripción de la...

chi-squared histogram image-processing

18

Expectativa de un producto de

Deje y , . ¿Cuál es la expectativa de como ?X1∼U[0,1]X1∼U[0,1]X_1 \sim U[0,1]Xi∼U[Xi−1,1]Xi∼U[Xi−1,1]X_i \sim U[X_{i - 1}, 1]i=2,3,...i=2,3,...i = 2, 3,...X1X2⋯XnX1X2⋯XnX_1 X_2 \cdots X_nn→∞n→∞n \rightarrow

mathematical-statistics random-variable expected-value