En este artículo , ( Inferencia bayesiana para componentes de varianza usando solo contrastes de error , Harville, 1974), el autor afirma es un "bien conocido relación ", para una regresión lineal
En este artículo , ( Inferencia bayesiana para componentes de varianza usando solo contrastes de error , Harville, 1974), el autor afirma es un "bien conocido relación ", para una regresión lineal
Considere un proceso aleatorio para el cual existe la media , y es constante, para todos los tiempos , es decir, para todos los tiempos y cambios de tiempo (o "rezagos") . No impongo más condiciones en los momentos superiores ni en la función de distribución. ¿Cómo puedo describir tal proceso? Solo...
Considere un modelo de regresión lineal: yi=xi⋅β+εi,i=1,…,n,yi=xi⋅β+εi,i=1,…,n, y_i = \mathbf x_i \cdot \boldsymbol \beta + \varepsilon _i, \, i=1,\ldots ,n, donde εi∼L(0,b)εi∼L(0,b)\varepsilon _i \sim \mathcal L(0, b) , es decir , La distribución de Laplace con media 000 y parámetro de escala...
Estoy tratando de convertir mi columna de factor a variables ficticias: str(cards$pointsBin) # Factor w/ 5 levels ".lte100",".lte150",..: 3 2 3 1 4 4 2 2 4 4 ... labels <- model.matrix(~ pointsBin, data=cards) head(labels) # (Intercept) pointsBin.lte150 pointsBin.lte200 pointsBin.lte250...
Estoy tratando de entender la definición exacta de los parámetros de ubicación / escala / forma (por ejemplo, se llama parámetro de forma es parámetro de escala en Pareto Tipo I). Pero los libros a los que me referí ( The Cambridge Dictionary of Statistics , HMC's Introduction to Mathematical...
¿Es posible tener un conjunto de variables que no estén correlacionadas pero sean linealmente dependientes?KKK es decir, y∑ K i = 1 a i x i = 0cor(xi,xj)=0cor(xi,xj)=0cor(x_i, x_j)=0∑Ki=1aixi=0∑i=1Kaixi=0 \sum_{i=1}^K a_ix_i=0 En caso afirmativo, ¿puedes escribir un ejemplo? EDITAR: De las...
Cuando utilizo k-fold CV para seleccionar entre los modelos de regresión, generalmente calculo el error CV por separado para cada modelo, junto con su error estándar SE, y selecciono el modelo más simple dentro de 1 SE del modelo con el error CV más bajo (el 1 regla de error estándar, ver por...
Me han hecho una pregunta sobre un modelo lineal hecho con R lm: "¿La regresión utilizó mínimos cuadrados iterativos lineales o no lineales?" Busqué un poco y [creo que entiendo] la diferencia entre los dos, pero no pude encontrar ninguna evidencia del uso de R de mínimos cuadrados lineales...
Las redes de autoencoder parecen ser mucho más difíciles que las redes MLP clasificadoras normales. Después de varios intentos de usar Lasagne, todo lo que obtengo en la salida reconstruida es algo que se asemeja en su mejor momento a un promedio borroso de todas las imágenes de la base de datos...
¿Qué piensa sobre el uso de la regresión para proyectar fuera del rango de datos? Si estamos seguros de que sigue una forma de modelo lineal o de potencia, ¿no podría ser útil el modelo más allá del rango de datos? Por ejemplo, tengo un volumen impulsado por el precio. Deberíamos poder proyectar...
Mucho se ha dicho sobre la importancia de las distribuciones normales en la naturaleza. Muchas medidas como la altura o el peso se distribuyen aproximadamente de forma normal. Pero ninguno de ellos es exactamente normal, por lo que yo entiendo. Considerando que la distribución normal es una de las...
Sea una variable aleatoria discreta que tome sus valores en . Me gustaría reducir a la mitad esta variable, es decir, encontrar una variable aleatoria como:N YXXXnorteN\mathbb{N}YYY X= Y+ Y∗X=Y+Y∗X = Y + Y^* donde es una copia independiente de . YY∗Y∗Y^*YYY Me refiero a este proceso como...
Estoy tratando de reducir la dimensionalidad y el ruido de un conjunto de datos al realizar PCA en el conjunto de datos y descartar las últimas PC. Después de eso, quiero usar algunos algoritmos de aprendizaje automático en las PC restantes y, por lo tanto, quiero normalizar los datos igualando la...
En los modelos CBOW y skip-gram de word2vec, ¿cómo funciona elegir vectores de palabras de WWW(matriz de palabras de entrada) frente a elegir vectores de palabras de (matriz de palabras de salida) ¿afecta la calidad de los vectores de palabras
Estoy tratando de agrupar diferentes conjuntos de datos usando algoritmos no supervisados (agrupamiento). El problema es que tengo muchas funciones (~ 500) y una pequeña cantidad de casos (200-300). Hasta ahora solía hacer solo problemas de clasificación para los cuales siempre había etiquetado...
Estaba pensando en resolver Lasso a través de métodos de subgrado de vainilla. Pero he leído personas que sugieren usar el descenso de gradiente proximal. ¿Alguien puede resaltar por qué se usa GD proximal en lugar de los métodos de subgradiente de vainilla para
Este es realmente uno de los problemas en la 4a edición de Econometría Básica de Gujarati (Q3.11) y dice que el coeficiente de correlación es invariante con respecto al cambio de origen y escala, es decir, donde a , b , c , d son constantes arbitrarias.corr ( una X+ b , c Y+ d) = corr ( X,...
Investigando sobre el algoritmo xgboost, revisé la documentación . En este enfoque, los árboles se regularizan utilizando la definición de complejidad donde y son parámetros, es el número de hojas terminales y es la puntuación en cada hoja.Ω ( f) = γT+12λ∑j = 1Tw2jΩ(F)=γT+12λ∑j=1Twj2 \Omega(f) =...
Me han pedido que proponga un curso de diseño experimental para estudiantes de posgrado avanzados en agronomía y ecología. Nunca he tomado tal curso, y me sorprendió descubrir que el curso podría llamarse más acertadamente "Más allá de ANOVA unidireccional", y que cubre el material que aprendí en...
Estoy tratando de entender la arquitectura de los RNN. He encontrado este tutorial que ha sido muy útil: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Especialmente esta imagen: ¿Cómo encaja esto en una red de retroalimentación? ¿Es esta imagen solo otro nodo en cada...