Me pregunto cuál es la diferencia entre estos dos tipos de antecedentes: No
Me pregunto cuál es la diferencia entre estos dos tipos de antecedentes: No
Estaba experimentando con la relación entre los errores y los residuos usando algunas simulaciones simples en R. Una cosa que he encontrado es que, independientemente del tamaño de la muestra o la varianza del error, siempre obtengo exactamente para la pendiente cuando se ajusta al modelo111 e r r...
El error estándar de una proporción será el más grande que pueda ser para un N dado cuando la proporción en cuestión es 0.5, y se vuelve más pequeña cuanto más lejos sea la proporción de 0.5. Puedo ver por qué esto es así cuando miro la ecuación para el error estándar de una proporción, pero no...
En varias respuestas, he visto que los usuarios de CrossValidated sugieren que OP encuentre documentos iniciales sobre Lasso, Ridge y Elastic Net. Para la posteridad, ¿cuáles son los trabajos fundamentales en Lasso, Ridge y Elastic Net?
Tratando de entender la relación entre la entropía cruzada y la perplejidad. En general, para un modelo M , Perplejidad (M) = 2 ^ entropía (M) . ¿Esta relación es válida para todos los n-gramos diferentes, es decir, unigram, bigram,
En el reciente artículo de WaveNet , los autores se refieren a su modelo como capas apiladas de convoluciones dilatadas. También producen los siguientes cuadros, que explican la diferencia entre convoluciones "regulares" y convoluciones dilatadas. Las convoluciones regulares se ven así. Esta es...
Tengo experiencia previa con validación cruzada K-fold 'normal' para el ajuste del modelo y estoy un poco confundido por la aplicación en modelos de series temporales. Tengo entendido que para los modelos de series temporales, el corolario de la validación cruzada es el procedimiento de "origen...
Estoy leyendo un libro "Aprendizaje automático con chispa" de Nick Pentreath, y en la página 224-225 el autor discute sobre el uso de K-means como una forma de reducción de dimensionalidad. Nunca he visto este tipo de reducción de dimensionalidad, ¿tiene un nombre o / y es útil para formas...
Me he topado con el término inlier en la medida LOF (Factor de valor atípico local), estoy familiarizado con el término de valores atípicos (bueno, básicamente mentirosos, instancias que no se comportan como el resto de las instancias). ¿Qué significa 'Inliers' en el contexto de la detección de...
Supongamos que tenemos 3 variables aleatorias , y conocemos la distribución marginal por pares , pero no sabemos nada más (como como independencia condicional). ¿Podemos obtener la distribución conjunta ?X1,X2,X3X1,X2,X3X_1,X_2,X_3P(X1,X2),P(X2,X3),P(X3,X1)P(X1,X2),P(X2,X3),P(X3,X1)P(X_1,X_2),...
Para una variable aleatoria continua XXX , si mi( | XEl | )E(|X|)E(|X|) es finito, ¿es limn → ∞n P( | XEl | >n)=0limn→∞nP(|X|>n)=0\lim_{n\to\infty}n P(|X|>n)=0 ? Este es un problema que encontré en Internet, pero no estoy seguro de si es válido o no. Sé que n P( | XEl | >n)<E( | XEl |...
Estoy trabajando en el documento Cho 2014 que introdujo la arquitectura codificador-decodificador para el modelado seq2seq. En el documento, parecen usar la probabilidad de la entrada dada de salida (o es la probabilidad de registro negativa) como la función de pérdida para una entrada de longitud...
¿Cuál es el nombre del operador que toma un vector categórico y lo transforma en la representación binaria usando una codificación de un punto? Me pregunto ya que estoy escribiendo un artículo científico y necesito un nombre propio para
El teorema de Pitman-Koopman-Darmois dice que si una muestra iid de una familia parametrizada de distribuciones de probabilidad admite una estadística suficiente cuyo número de componentes escalares no crece con el tamaño de la muestra, entonces es una familia exponencial. ¿Algún libro de texto o...
Una simplificación frecuente en el modelado y la simulación es reemplazar una variable aleatoria por su valor medio. ¿Cuándo conduciría esta simplificación a la conclusión
Esta pregunta ya tiene una respuesta aquí : ¿Cómo umbral de predicción de probabilidad multiclase para obtener una matriz de confusión? (1 respuesta) Cerrado hace 3 meses . Lo anterior es un ejemplo muy simple de tener una salida de clasificador de...
Durante el año pasado, he estado escuchando mucho sobre los marcos de programación probabilística (PP) como PyMC3 y Stan , y qué tan bueno es el PP. Y hoy, alguien compartió este enlace conmigo: Pyro: un lenguaje de programación probabilístico profundo Sin embargo, realmente no sigo lo que tiene...
Deje ser variables aleatorias normales estándar independientes. Hay muchas pruebas (largas) que muestran queZ1, ⋯ , ZnorteZ1,⋯,ZnZ_1,\cdots,Z_n ∑i = 1norte( Zyo- 1norte∑j = 1norteZj)2∼ χ2n−1∑i=1n(Zi−1n∑j=1nZj)2∼χn−12 \sum_{i=1}^n \left(Z_i - \frac{1}{n}\sum_{j=1}^n Z_j \right)^2 \sim \chi^2_{n-1}...
Esto se cita muy a menudo cuando se menciona la maldición de la dimensionalidad y va (fórmula de la derecha llamada contraste relativo) limre→ ∞var ( | | XreEl | El |kmi[ | El | XreEl | El |k]) =0,entonces: Dmaxkre- Dminkrereminkre→ 0limre→∞var(El |El |XreEl |El |kmi[El |El |XreEl |El |k])=0...
Las características aleatorias de Fourier proporcionan aproximaciones a las funciones del núcleo. Se utilizan para varios métodos de kernel, como SVM y procesos gaussianos. Hoy, intenté usar la implementación de TensorFlow y obtuve valores negativos para la mitad de mis funciones. Según tengo...