Si bien estos dos términos ubicuos a menudo se usan como sinónimos, a veces parece haber una distinción. ¿Existe alguna diferencia o son exactamente
Si bien estos dos términos ubicuos a menudo se usan como sinónimos, a veces parece haber una distinción. ¿Existe alguna diferencia o son exactamente
Me ha costado mucho tratar de comprender el uso de la regresión logística en un artículo. El documento disponible aquí utiliza la regresión logística para predecir la probabilidad de complicaciones durante la cirugía de cataratas. Lo que me confunde es que el documento presenta un modelo que...
El concepto de "media" va mucho más allá de la media aritmética tradicional; ¿se estira tanto como para incluir la mediana? Por analogia, raw data⟶idraw data⟶meanraw mean⟶id−1arithmetic meanraw data⟶recipreciprocals⟶meanmean reciprocal⟶recip−1harmonic meanraw data⟶loglogs⟶meanmean...
Sé que realizar el ajuste de hiperparámetros fuera de la validación cruzada puede conducir a estimaciones sesgadas de validez externa, porque el conjunto de datos que usa para medir el rendimiento es el mismo que usó para ajustar las características. Lo que me pregunto es qué tan grave es este...
Tengo una matriz de correlación que establece cómo cada elemento se correlaciona con el otro elemento. Por lo tanto, para N elementos, ya tengo una matriz de correlación N * N. Usando esta matriz de correlación, ¿cómo agrupo los N elementos en M bins para poder decir que los Nk Items en el kth bin...
Tengo una red neuronal configurada para predecir algo donde la variable de salida es ordinal. Describiré a continuación usando tres salidas posibles A <B <C. Es bastante obvio cómo usar una red neuronal para generar datos categóricos: la salida es solo un softmax de la última capa...
La paradoja de Stein muestra que cuando se estiman tres o más parámetros simultáneamente, existen estimadores combinados más precisos en promedio (es decir, que tienen un error cuadrático medio menor esperado) que cualquier método que maneje los parámetros por separado. Este es un resultado muy...
He estado viendo muchos videos tutoriales y tienen el mismo aspecto. Este, por ejemplo: https://www.youtube.com/watch?v=ip4iSMRW5X4 Explican estados, acciones y probabilidades que están bien. La persona lo explica bien, pero parece que no puedo entender para qué se usaría en la vida real. Todavía...
Los siguientes son gráficos acf y pacf de una serie de datos mensual. El segundo gráfico es acf con ci.type = 'ma': La persistencia de valores altos en la gráfica acf probablemente representa una tendencia positiva a largo plazo. La pregunta es si esto representa una variación estacional. Traté...
Ver esta pregunta en Math SE . Historia corta: leí Los elementos del aprendizaje estadístico y me sentí frustrado cuando estaba tratando de verificar algunos de los resultados, por ejemplo, dado luego RSS(β)=(y−Xβ)T(y−Xβ),RSS(β)=(y−Xβ)T(y−Xβ),\text{RSS}(\beta) =...
Tengo una pregunta con respecto a la necesidad de utilizar métodos de selección de características (los bosques aleatorios tienen un valor de importancia de características o métodos de selección de características univariadas, etc.) antes de ejecutar un algoritmo de aprendizaje estadístico....
En el contexto de la regresión OLS, entiendo que una gráfica residual (vs valores ajustados) se ve convencionalmente para probar la varianza constante y evaluar la especificación del modelo. ¿Por qué se trazan los residuos contra los ajustes, y no los valores ? ¿Cómo es la información diferente de...
Lei de allí que el error estándar de la varianza de la muestra es Smis2= 2 σ4 4norte- 1------√Smis2=2σ4 4norte-1SE_{s^2} = \sqrt{\frac{2 \sigma^4}{N-1}} ¿Cuál es el error estándar de la desviación estándar de la muestra? Estaría tentado a adivinar y decir que pero no estoy seguro.Smis=...
Existen muchas técnicas en estadísticas ecológicas para el análisis exploratorio de datos de datos multidimensionales. Estas se llaman técnicas de 'ordenación'. Muchos son iguales o están estrechamente relacionados con técnicas comunes en otras partes de las estadísticas. Quizás el ejemplo...
No entiendo exactamente qué se entiende por tamaño de nodo. Sé qué es un nodo de decisión, pero no qué tamaño de nodo
He estado usando theano para experimentar con LSTM y me preguntaba qué métodos de optimización (SGD, Adagrad, Adadelta, RMSprop, Adam, etc.) funcionan mejor para LSTM. ¿Hay trabajos de investigación sobre este tema? Además, ¿la respuesta depende del tipo de aplicación para la que estoy usando el...
En este artículo , el autor vincula el análisis discriminante lineal (LDA) con el análisis de componentes principales (PCA). Con mi conocimiento limitado, no puedo seguir cómo LDA puede ser algo similar a PCA. Siempre he pensado que LDA era una forma de algoritmo de clasificación, similar a la...
Soy nuevo en optimización. Sigo viendo ecuaciones que tienen un superíndice 2 y un subíndice 2 en el lado derecho de una norma. Por ejemplo, aquí está la ecuación de mínimos cuadrados min ||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Creo que entiendo el superíndice 2: significa cuadrar el valor de la norma....
Todos estamos familiarizados con la idea, bien documentada en la literatura, de que la optimización de LASSO (en aras de la simplicidad limita aquí la atención al caso de la regresión lineal) es equivalente al modelo lineal con errores gaussianos en el que los parámetros reciben la Laplace...
Para una tarea, se me ha pedido que proporcione una prueba de que k-means converge en un número finito de pasos. Esto es lo que he escrito: CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) El...