Estadísticas y Big Data

10

Desviación estándar de una media ponderada exponencialmente

Escribí una función simple en Python para calcular la media ponderada exponencialmente: def test(): x = [1,2,3,4,5] alpha = 0.98 s_old = x[0] for i in range(1, len(x)): s = alpha * x[i] + (1- alpha) * s_old s_old = s return s Sin embargo, ¿cómo puedo calcular la SD...

standard-deviation python exponential-smoothing

10

¿Cuál es la estimación de máxima verosimilitud de la covarianza de los datos normales bivariados cuando se conocen la media y la varianza?

Supongamos que tenemos una muestra aleatoria de una distribución normal bivariada que tiene ceros como medias y unos como varianzas, por lo que el único parámetro desconocido es la covarianza. ¿Cuál es el MLE de la covarianza? Sé que debería ser algo así como pero ¿cómo sabemos esto?1norte∑nortej =...

normal-distribution mathematical-statistics maximum-likelihood bivariate

10

¿Cómo cambiar el umbral para la clasificación en R randomForests?

Toda la literatura de Modelado de Distribución de Especies sugiere que cuando se predice la presencia / ausencia de una especie utilizando un modelo que genera probabilidades (por ejemplo, RandomForests), la elección del umbral de probabilidad para clasificar una especie como presencia o ausencia...

r classification random-forest threshold

10

¿Cómo se aproxima la estadística de Chi cuadrado de Pearson a una distribución de Chi cuadrado?

Entonces, si la estadística de Chi cuadrado de Pearson se da para una tabla , entonces su forma es:1×N1×N1 \times N ∑i=1n(Oi−Ei)2Ei∑i=1n(Oi−Ei)2Ei\sum_{i=1}^n\frac{(O_i - E_i)^2}{E_i} Entonces, esto se aproxima a , la Distribución Chi-Cuadrada con grados de libertad, a medida que el tamaño de la...

chi-squared asymptotics

10

Random Forest no puede sobreajustar?

He leído algo de literatura que los bosques aleatorios no pueden sobreajustar. Si bien esto suena genial, parece demasiado bueno para ser verdad. ¿Es posible que los rf se

random-forest overfitting

10

¿Cómo elegir la capacitación, la validación cruzada y los tamaños de los conjuntos de prueba para datos de tamaño de muestra pequeño?

Suponga que tengo un tamaño de muestra pequeño, por ejemplo, N = 100 y dos clases. ¿Cómo debo elegir la capacitación, la validación cruzada y los tamaños de los conjuntos de prueba para el aprendizaje automático? Yo elegiría intuitivamente Tamaño del set de entrenamiento como 50 Conjunto de...

machine-learning sampling svm cross-validation sample-size

10

¿Podría mostrarse estadísticamente que los autos se usan como armas asesinas?

Hace poco escuché una historia en la que alguien dijo que si querían matar a alguien (y salirse con la suya) lo harían con su automóvil. Citaron varias estadísticas sobre el número de muertes relacionadas con automóviles (incluidos los automóviles que circulan contra peatones) junto con...

statistical-significance

10

Estimador imparcial con varianza mínima para

Sea una muestra aleatoria de una distribución para . Es decir,X1,...,XnX1,...,Xn X_1,

probability self-study estimation unbiased-estimator exponential-family

10

Coeficiente de correlación intraclase en modelo mixto con pendientes aleatorias

Tengo el siguiente modelo m_plotequipado con lme4::lmerefectos aleatorios cruzados para los participantes ( lfdn) y los elementos ( content): Random effects: Groups Name Variance Std.Dev. Corr lfdn (Intercept) 172.173 13.121 role1 62.351 7.896 0.03 inference1 24.640 4.964 0.08 -0.30...

mixed-model lme4-nlme intraclass-correlation

10

RMSE normalizado

Tengo varias series de tiempo en un VAR (1) y, debido a que algunas de ellas no tienen la misma unidad de medida, me gustaría estimar el RMSE en porcentaje. Sé que se podría hacer de varias maneras (ver a continuación), pero no sé exactamente cuál es el que mejor se adapta a un problema de...

time-series mse rms

10

Cómo interpretar trazados ACF y PACF

Solo quiero verificar que estoy interpretando los gráficos ACF y PACF correctamente: Los datos corresponden a los errores generados entre los puntos de datos reales y las estimaciones generadas utilizando un modelo AR (1). He visto la respuesta aquí: Estimar los coeficientes ARMA a través de...

time-series arima interpretation autocorrelation acf-pacf

10

lmer con datos imputados multiplicados

¿Cómo puedo obtener efectos aleatorios agrupados para lmer después de una imputación múltiple? Estoy usando ratones para imputar múltiples un marco de datos. Y lme4 para un modelo mixto con intercepción aleatoria y pendiente aleatoria. Agrupar lmer funciona bien, excepto que no agrupa los efectos...

r lme4-nlme multiple-imputation

10

Inferencia del modelo de mezcla gaussiana 2 con MCMC y PyMC

El problema Quiero ajustar los parámetros del modelo de una población simple de mezcla 2-Gaussiana. Dada toda la exageración en torno a los métodos bayesianos, quiero entender si para este problema la inferencia bayesiana es una herramienta mejor que los métodos de ajuste tradicionales. Hasta...

bayesian gaussian-mixture frequentist pymc method-comparison

10

Convertir la distribución de Poisson a distribución normal

Principalmente tengo experiencia en informática, pero ahora estoy tratando de enseñarme estadísticas básicas. Tengo algunos datos que creo que tienen una distribución de Poisson Tengo dos preguntas: ¿Es esta una distribución de Poisson? En segundo lugar, ¿es posible convertir esto en una...

normal-distribution data-transformation poisson-distribution

10

K-medias en similitudes de coseno vs distancia euclidiana (LSA)

Estoy utilizando un análisis semántico latente para representar un corpus de documentos en un espacio dimensional inferior. Quiero agrupar estos documentos en dos grupos usando k-means. Hace varios años, hice esto usando el gensim de Python y escribiendo mi propio algoritmo k-means. Determiné los...

k-means svd lsa cosine-distance cosine-similarity

10

Ejemplo de dos variables normales * correlacionadas * cuya suma no es normal

Soy consciente de algunos buenos ejemplos de pares de variables aleatorias correlacionadas que son marginalmente normales pero no conjuntamente normales. Vea esta respuesta de Dilip Sarwate , y esta del cardenal . También conozco un ejemplo de dos variables aleatorias normales cuya suma no es...

correlation normal-distribution multivariate-analysis bivariate

10

Referencia para una historia sobre muestreo de la guía telefónica

Hoy estaba hablando con alguien sobre el muestreo y recuerdo vagamente una historia sobre un estadístico muy respetado que recomienda un muestreo sistemático de la guía telefónica en un caso legal en particular. Recuerdo que la historia decía algo así como un juez en la corte diciéndole algo como...

sampling references history

10

Diagnóstico residual y homogeneidad de variaciones en el modelo lineal mixto

Antes de hacer esta pregunta, busqué en nuestro sitio y encontré muchas preguntas similares (como aquí , aquí y aquí ). Pero creo que esas preguntas relacionadas no fueron bien respondidas o discutidas, por lo que me gustaría plantear esta pregunta nuevamente. Siento que debería haber una gran...

mixed-model residuals heteroscedasticity diagnostic

10

Estimador de máxima verosimilitud para el mínimo de distribuciones exponenciales

Estoy atrapado en cómo resolver este problema. Entonces, tenemos dos secuencias de variables aleatorias, e para . Ahora, e son distribuciones exponenciales independientes con parámetros y . Sin embargo, en vez de observar y , observamos en lugar y

self-study maximum-likelihood exponential minimum

10

Confundido acerca de la explicación visual de los vectores propios: ¿cómo pueden los conjuntos de datos visualmente diferentes tener los mismos vectores propios?

Muchos libros de texto de estadísticas proporcionan una ilustración intuitiva de cuáles son los vectores propios de una matriz de covarianza: Los vectores u y z forman los vectores propios (bueno, los propios). Esto tiene sentido. Pero lo único que me confunde es que extraemos vectores propios...

correlation pca covariance-matrix eigenvalues