Estadísticas y Big Data

10

¿Qué ventajas ofrecen los "residuos internamente estudiados" sobre los residuos brutos estimados en términos de diagnóstico de puntos de datos influyentes potenciales?

La razón por la que pregunto esto es porque parece que los residuos internamente estudiados parecen tener el mismo patrón que los residuos brutos estimados. Sería genial si alguien pudiera ofrecer una

residuals

10

Elegir el número de componentes principales para retener

Un método que me sugirieron es mirar un diagrama de pantalla y verificar el "codo" para determinar la cantidad correcta de PC a usar. Pero si el gráfico no está claro, ¿tiene R un cálculo para determinar el número? fit <- princomp(mydata,

r pca

10

Modelo de Dirichlet multinomial con distribución hiperprior en los parámetros de concentración.

Trataré de describir el problema en cuestión de la manera más general posible. Estoy modelando observaciones como una distribución categórica con un vector de probabilidad de parámetro theta. Entonces, supongo que el vector de parámetros theta sigue una distribución previa de Dirichlet con los...

categorical-data multinomial dirichlet-distribution hierarchical-bayesian dirichlet-process

10

Distribución de eventos de tiempo de cola larga

Supongamos que tiene los registros de un servidor web. En estos registros tienes tuplas de este tipo: user1, timestamp1 user1, timestamp2 user1, timestamp3 user2, timestamp4 user1, timestamp5 ... Estas marcas de tiempo representan, por ejemplo, los clics de los usuarios. Ahora, user1visitará el...

distributions estimation mixture

10

¿Existe una versión multivariada de la distribución Weibull?

Espero que este se explique por sí mismo, pero avíseme si algo no está claro: ¿hay una versión multivariada de la distribución

distributions multivariate-analysis copula weibull

10

¿Es aceptable tener solo dos (o menos) elementos (variables) cargados por un factor en el análisis factorial?

Tengo un conjunto de 20 variables que he sometido a análisis factorial en SPSS. Para los fines de la investigación, necesito desarrollar 6 factores. SPSS ha demostrado que 8 variables (de 20) se han cargado con pesos bajos o se han cargado por igual por varios factores, por lo que las eliminé. Las...

spss factor-analysis references assumptions

10

Suma de variables aleatorias binomiales y de Poisson

Si tenemos dos variables aleatorias independientes X1∼Binom(n,p)X1∼Binom(n,p)X_1 \sim \mathrm{Binom}(n,p) y , ¿cuál es la función de masa de probabilidad de ?X2∼Pois(λ)X2∼Pois(λ)X_2 \sim \mathrm{Pois}(\lambda)X1+X2X1+X2X_1 + X_2 NB Esto no es tarea para

distributions self-study binomial poisson-distribution

10

Gráficos en el diseño de regresión discontinua en "Stata" o "R"

Lee y Lemieux (p. 31, 2009) sugieren al investigador que presente los gráficos mientras realiza el análisis de diseño de regresión discontinua (RDD). Sugieren el siguiente procedimiento: "... para algo de ancho de banda , y para cierto número de bins y a la izquierda y a la derecha del valor de...

r regression data-visualization stata regression-discontinuity

10

Interpretando la estacionalidad con ACF y PACF

Tengo un conjunto de datos donde la intuición empírica dice que debería esperar una estacionalidad semanal (es decir, el comportamiento en sábado y domingo es diferente del resto de la semana). ¿Debería ser cierta esta premisa, no debería un gráfico de autocorrelación darme ráfagas en múltiplos de...

time-series autocorrelation forecasting

10

¿Los anchos de silueta bajos significan que los datos tienen poca estructura subyacente?

Soy nuevo en el análisis de secuencia, y me preguntaba cómo reaccionaría si los anchos de silueta promedio (ASW) de los análisis de conglomerados de matrices de disimilitud basadas en la coincidencia óptima son bajos (alrededor de 25). ¿Parecería apropiado concluir que hay poca estructura...

clustering traminer

10

Valor esperado de una variable aleatoria gaussiana transformada con una función logística

Tanto la función logística como la desviación estándar generalmente se denotan como σσ\sigma . Voy a usar σ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x)) y sss para la desviación estándar. Tengo una neurona logística con una entrada aleatoria cuya media μμ\mu y desviación estándar...

distributions normal-distribution neural-networks mathematical-statistics expected-value

10

¿Cómo visualizas los resultados binarios versus un predictor continuo?

Tengo algunos datos que necesito visualizar y no estoy seguro de cuál es la mejor manera de hacerlo. Tengo un conjunto de elementos básicos con las frecuencias respectivas y los resultados . Ahora necesito trazar qué tan bien mi método "encuentra" (es decir, un resultado 1) los elementos de baja...

data-visualization

10

Tamaños de muestra pequeños y no balanceados para dos grupos: ¿qué hacer?

Tengo datos para dos grupos (es decir, muestras) que deseo comparar, pero el tamaño total de la muestra es pequeño (n = 29) y muy desequilibrado (n = 22 vs n = 7). Estos datos son logísticamente difíciles y caros de recopilar, por lo que, aunque 'recopilar más datos' como solución obvia no es útil...

t-test sample-size

10

Modelo de ajuste para dos distribuciones normales en PyMC

Como soy un ingeniero de software que intenta obtener más estadísticas, tendrás que perdonarme incluso antes de que comience, este es un nuevo territorio serio ... He estado aprendiendo PyMC y trabajando con algunos ejemplos muy (muy) simples. Un problema con el que no puedo trabajar (y no puedo...

modeling python pymc

10

¿Cómo calcular la información mutua?

Estoy un poco confundido. ¿Alguien puede explicarme cómo calcular la información mutua entre dos términos en base a una matriz de documentos de términos con ocurrencia de términos binarios como ponderaciones? D o c u m e n t 1D o c u m e n t 2D o c u m e n t 3′Wh y′111′Ho w′10 01′Wh e n′111′Wh e r...

python information-theory mutual-information numpy pandas

10

Influencial residual vs. atípico

Primero, debo decir que he buscado en este sitio la respuesta. No encontré una pregunta que respondiera a mi pregunta o mi nivel de conocimiento es tan bajo que no me di cuenta de que ya leí la respuesta. Estoy estudiando para el Examen de Estadística AP. Tengo que aprender la regresión lineal y...

regression outliers residuals

10

Algoritmo de aprendizaje automático para clasificar

Tengo un conjunto de elementos que puedo describir de acuerdo con n características. Así:XXXnortenn Xyo: { cyo 1, cyo 2, ... , cyo n} ∣ xyo∈ Xxi:{ci1,ci2,…,cin}∣xi∈Xx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X donde es la evaluación (numérica) para el elemento acuerdo con las...

machine-learning algorithms ranking feature-construction

10

¿Se requieren datos ordinales o de intervalo para la prueba de rango con signo de Wilcoxon?

Después de mirar múltiples fuentes en línea, parece que no puedo obtener una respuesta directa. ¿Podría alguien aclararme si los datos ordinales son suficientes para el WSRT y, de no ser así, la prueba de signos es una alternativa adecuada? Finalmente, esto es para mi proyecto de disertación en la...

nonparametric assumptions wilcoxon-signed-rank

10

Técnicas de minería de datos en la campaña de Obama

Encontré este artículo sobre el equipo de minería de datos en la campaña de reelección de Obama. Desafortunadamente, el artículo es muy confuso sobre la maquinaria real de los algoritmos estadísticos. Sin embargo, sonaba como si las técnicas generales fueran conocidas en ciencias sociales y...

data-mining social-network social-science

10

¿Cómo ver datos de series temporales grandes de forma interactiva?

A menudo trato con una cantidad razonable de datos de series de tiempo, 50-200 millones de dobles con sellos de tiempo asociados y me gustaría visualizarlos dinámicamente. ¿Existe software para hacer esto de manera efectiva? ¿Qué hay de las bibliotecas y los formatos de datos? Zoom-cache es un...

time-series data-visualization large-data interactive-visualization