Estoy confundido entre los dos términos "función generadora de probabilidad" y "función generadora de momento". ¿Cómo difieren esos
Estoy confundido entre los dos términos "función generadora de probabilidad" y "función generadora de momento". ¿Cómo difieren esos
El teorema de Halmos-Savage dice que para un modelo estadístico dominado una estadística es suficiente si (y solo si) para todos hay una versión medible de la derivada Radon Nikodym donde es un medida privilegiada tal que para y .(Ω,A,P)(Ω,A,P)(\Omega, \mathscr A, \mathscr
¿Tengo problemas para entender estadísticas suficientes y completas? Sea una estadística suficiente.T= Σ xyoT=ΣxiT=\Sigma x_i Si con probabilidad 1, para alguna función g , entonces es una estadística completa suficiente.E[g(T)]=0E[g(T)]=0E[g(T)]=0ggg Pero ¿qué significa esto? He visto ejemplos...
En " Redes convolucionales de creencias profundas para el aprendizaje escalable sin supervisión de representaciones jerárquicas " por Lee et. al. ( PDF ) Se proponen DBN convolucionales. También se evalúa el método para la clasificación de imágenes. Esto suena lógico, ya que hay características de...
Actualmente estoy asistiendo al curso Una Introducción a la Gestión de Operaciones en Coursera.org. En algún momento del curso, el profesor comenzó a lidiar con la variación en el tiempo de las operaciones. La medida que usa es el coeficiente de variación , la relación entre la desviación estándar...
Para los no estadísticos como yo, es muy difícil captar la idea de la VImétrica (variación de la información) incluso después de leer el documento relevante de Marina Melia " Comparación de agrupamientos: una distancia basada en la información " (Journal of Multivariate Analysis, 2007). De hecho,...
La idea detrás de Recurrent Neural Network (RNN) es clara para mí. Lo entiendo de la siguiente manera: tenemos una secuencia de observaciones ( ) (o, en otras palabras, series de tiempo multivariadas). Cada observación individual es un vector numérico dimensional. Dentro del modelo RNN suponemos...
El mgcvpaquete Rtiene dos funciones para ajustar las interacciones del producto tensorial: te()y ti(). Entiendo la división básica del trabajo entre los dos (ajustar una interacción no lineal versus descomponer esta interacción en efectos principales y una interacción). Lo que no entiendo es por...
¿Por qué los valores de p y las estadísticas de prueba de ks disminuyen al aumentar el tamaño de la muestra? Tome este código de Python como ejemplo: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0,...
Sé por estudios previos que Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B) = Var(A) + Var(B) + 2 Cov (A,B) Sin embargo, no entiendo por qué es eso. Puedo ver que el efecto será 'elevar' la varianza cuando A y B covaran altamente. Tiene sentido que cuando cree un...
En el libro de texto que estoy leyendo, usan definición positiva (definición semi-positiva) para comparar dos matrices de covarianza. La idea es que si A−BA−BA-B es pd entonces BBB es menor que AAA . ¿Pero me cuesta entender la intuición de esta relación? Hay un hilo similar...
En un conjunto de problemas probé este "lema", cuyo resultado no es intuitivo para mí. es una distribución normal estándar en un modelo censurado.ZZZ Formalmente, y . Luego, Entonces hay algún tipo de conexión entre la fórmula de expectativa sobre un dominio truncado y la densidad en el punto...
La forma cerrada de w en regresión lineal se puede escribir como w^=(XTX)−1XTyw^=(XTX)−1XTy\hat{w}=(X^TX)^{-1}X^Ty ¿Cómo podemos explicar intuitivamente el papel de en esta
¿Puede alguien proporcionar una explicación simple (laica) de la relación entre las distribuciones de Pareto y el Teorema del límite central (por ejemplo, ¿se aplica? ¿Por qué / por qué no?)? Estoy tratando de entender la siguiente declaración: "El Teorema del límite central no funciona con...
Traté de implementar una estimación numérica de la divergencia Kullback-Leibler para dos muestras. Para depurar la implementación, extraiga las muestras de dos distribuciones normales y .N ( 1 , 2 )norte( 0 , 1 )N(0,1)\mathcal N (0,1)norte( 1 , 2 )N(1,2)\mathcal N (1,2) Para una estimación simple,...
Entiendo la mecánica de calcular los pesos usando los puntajes de propensión : y luego aplica los pesos en un análisis de regresión, y que los pesos sirven para "controlar" o disociar los efectos de las covariables en las poblaciones del grupo de tratamiento y control con la variable de...
El error estándar de una proporción será el más grande que pueda ser para un N dado cuando la proporción en cuestión es 0.5, y se vuelve más pequeña cuanto más lejos sea la proporción de 0.5. Puedo ver por qué esto es así cuando miro la ecuación para el error estándar de una proporción, pero no...
A pesar de varios intentos de leer sobre bootstrapping, siempre parezco golpear una pared de ladrillos. Me pregunto si alguien puede dar una definición razonablemente no técnica de bootstrapping. Sé que no es posible en este foro proporcionar suficientes detalles para permitirme entenderlo...
Esta pregunta ya tiene respuestas aquí : ¿Qué tipo de información es la información de Fisher? (3 respuestas) Cerrado hace 7 meses . Wikipedia nos dice que el puntaje juega un papel importante en la desigualdad Cramér-Rao. También enuncia la
Con una formación rigurosa en análisis y teoría de probabilidad moderna, las estadísticas bayesianas son sencillas y fáciles de entender, y las estadísticas frecuentes son increíblemente confusas y poco intuitivas. Parece que los frecuentistas realmente están haciendo estadísticas bayesianas,...