Estadísticas y Big Data

10

¿Se puede entrenar un modelo de P (Y | X) a través del descenso de gradiente estocástico a partir de muestras de P (X) sin iid y muestras de P (Y | X)?

Cuando se entrena un modelo parametrizado (por ejemplo, para maximizar la probabilidad) a través del descenso de gradiente estocástico en algún conjunto de datos, se supone comúnmente que las muestras de entrenamiento se extraen de la distribución de datos de entrenamiento. Entonces, si el objetivo...

10

Regularización inductora de la dispersión para matrices estocásticas

Es bien sabido (por ejemplo, en el campo de la detección de compresión) que la norma es "inductora de la dispersión", en el sentido de que si minimizamos lo funcional (para la matriz fija y el vector ) para lo suficientemente grande \ lambda> 0 , es probable que muchas opciones de A , \ vec {b}...

regression matrix normalization regularization sparse

10

Coeficiente de regresión logística exponencial diferente al odds ratio

Según tengo entendido, el valor beta exponencial de una regresión logística es la razón de posibilidades de esa variable para la variable dependiente de interés. Sin embargo, el valor no coincide con la razón de probabilidades calculada manualmente. Mi modelo predice retraso en el crecimiento (una...

regression logistic interpretation odds-ratio

10

¿Cuáles son los grados de libertad de una distribución?

En este momento estoy lidiando con muchas distribuciones, por ejemplo, FFF, ttt, χ2χ2\chi^2. Me preguntaba por qué estos grados de libertad significan distribuciones como la F(m,n)F(m,n)F(m,n)

distributions mathematical-statistics degrees-of-freedom

10

error de randomForest y de importancia variable?

No obtengo la diferencia entre rfobject$importancey importance(rfobject)en la columna MeanDecreaseAccuracy. Ejemplo: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy

r random-forest importance

10

Selección de características utilizando información mutua en Matlab

Estoy tratando de aplicar la idea de información mutua a la selección de funciones, como se describe en estas notas de clase (en la página 5). Mi plataforma es Matlab. Un problema que encuentro al calcular información mutua a partir de datos empíricos es que el número siempre está sesgado hacia...

matlab feature-selection information-theory mutual-information

10

Calcular intervalos de predicción cuando se usa validación cruzada

¿Se calculan las estimaciones de desviación estándar a través de: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) para precisiones de predicción...

confidence-interval cross-validation prediction prediction-interval

10

¿La multicolinealidad está implícita en las variables categóricas?

Al jugar con un modelo de regresión multivariante, noté que había un pequeño pero notable efecto de multicolinealidad, medido por factores de inflación de varianza, dentro de las categorías de una variable categórica (después de excluir la categoría de referencia, por supuesto). Por ejemplo,...

regression categorical-data multicollinearity

10

Validación cruzada de GAM para probar el error de predicción

Mis preguntas tratan sobre los GAM en el paquete mgcv R. Debido a un tamaño de muestra pequeño, quiero determinar el error de predicción utilizando la validación cruzada de dejar uno fuera. ¿Es esto razonable? ¿Hay un paquete o código de cómo puedo hacer esto? La errorest()función en el paquete...

r cross-validation gam mgcv

10

¿Aproximación simple de la distribución acumulativa de Poisson en cola larga?

Quiero decidir la capacidad de una tabla para que tenga probabilidades residuales inferiores a para desbordarse para , suponiendo que el número de entradas sigue una ley de Poisson con una determinada expectativa .2 - p p ∈ [ 40 ... 120 ] E ∈ [ 10 3 ... 10 12

poisson-distribution

10

Corrección de precisión de reloj distribuido normalmente

Tengo un experimento que se ejecuta en cientos de computadoras distribuidas por todo el mundo que mide las ocurrencias de ciertos eventos. Los eventos dependen el uno del otro para que pueda ordenarlos en orden creciente y luego calcular la diferencia horaria. Los eventos deben estar distribuidos...

error measurement-error exponential

10

Factores de Bayes con antecedentes inadecuados

Tengo una pregunta sobre la comparación de modelos con factores de Bayes. En muchos casos, los estadísticos están interesados en utilizar un enfoque bayesiano con antecedentes inadecuados (por ejemplo, algunos antecedentes de Jeffreys y de referencia). Mi pregunta es, en aquellos casos en que la...

bayesian model-selection prior

10

Confundido sobre el intervalo de confianza

Estoy confundido sobre el concepto de intervalo de confianza. Específicamente, suponga que hay una variable gaussiana con conocida, y estoy interesado en el límite inferior de la media con un nivel de confianza del .σ μ L 95 %X∼ N( μ , σ)X∼N(μ,σ)X \sim N(\mu, \sigma)σσ\sigmaμLμL\mu_L95...

confidence-interval

10

¿De dónde viene el término "aprender un modelo"?

A menudo escuché que los mineros de datos aquí usan este término. Como estadístico que ha trabajado en problemas de clasificación, estoy familiarizado con el término "entrenar a un clasificador" y supongo que "aprender un modelo" significa lo mismo. No me importa el término "entrenar a un...

classification data-mining terminology model

10

Evaluación de grupos de cadenas de Markov de primer orden

Agrupe mi conjunto de datos de varios miles de cadenas de Markov de primer orden en aproximadamente 10 grupos. ¿Hay alguna forma recomendada de cómo puedo evaluar estos grupos y descubrir qué comparten los elementos en los grupos y en qué se diferencian de otros grupos? Entonces puedo hacer una...

data-visualization clustering markov-process

10

¿Cómo genero números de acuerdo con una distribución de Soliton?

La distribución de Soliton es una distribución de probabilidad discreta sobre un conjunto con la función de masa de probabilidad{1,…,N}{1,…,N}\{1,\dots, N\} p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N}p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N} p(1)=\frac{1}{N},\qquad p(k)=\frac{1}{k(k-1)}\quad\text{for...

distributions python

10

¿Por qué Anova () y drop1 () proporcionaron diferentes respuestas para GLMM?

Tengo un GLMM de la forma: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Cuando lo uso drop1(model, test="Chi"), obtengo resultados diferentes a los que uso Anova(model, type="III")del paquete del automóvil o summary(model). Estos dos...

r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

10

Distribución Gaussiana Like con momentos de orden superior

Para la distribución gaussiana con media y varianza desconocidas, la estadística suficiente en la forma familiar exponencial estándar es . Tengo una distribución que tiene , donde N es como un parámetro de diseño. ¿Existe una distribución conocida correspondiente para este tipo de vector...

normal-distribution sampling exponential-family

10

¿Cómo lidiar con la muerte en el análisis de supervivencia libre de enfermedad?

Si tengo datos de supervivencia libre de enfermedad (definidos como si una enfermedad en particular ha sido diagnosticada o no junto con el tiempo hasta ese evento o pérdida para el seguimiento) y también datos de supervivencia generales, ¿cómo trato las muertes que ocurren sin el evento de...

regression survival epidemiology

10

¿Es posible tener una variable que actúe como modificador de efecto y como factor de confusión?

¿Es posible tener una variable que actúe como un modificador de efecto (medición) y un factor de confusión para un par dado de asociaciones de riesgo-resultado? Todavía estoy un poco inseguro de la distinción. He examinado la notación gráfica para ayudarme a comprender la diferencia, pero las...

interaction causality confounding