Estadísticas y Big Data

9

Control de la tasa de descubrimiento falso en etapas

Tengo una tabla tridimensional de tamaño . Cada celda de la tabla es una prueba de hipótesis. Cortar la tabla en la tercera dimensión produce conjuntos de pruebas de hipótesis que son independientes entre conjuntos pero dependientes dentro de los conjuntos. Originalmente estaba pensando que podría...

multiple-comparisons false-discovery-rate

9

¿Por qué la cantidad de variación explicada por mi primera PC es tan cercana a la correlación promedio por pares?

¿Cuál es la relación entre los primeros componentes principales y la correlación promedio en la matriz de correlación? Por ejemplo, en una aplicación empírica, observo que la correlación promedio es casi la misma que la razón de la varianza del primer componente principal (primer valor propio) a...

correlation pca mathematical-statistics eigenvalues

9

¿Cómo usar R gbm con distribution = "adaboost"?

La documentación establece que R gbm with distribution = "adaboost" se puede usar para problemas de clasificación 0-1. Considere el siguiente fragmento de código: gbm_algorithm <- gbm(y ~ ., data = train_dataset, distribution = "adaboost", n.trees = 5000) gbm_predicted <-...

r gbm

9

¿Cuándo usar la regresión no paramétrica?

Estoy usando PROC GLM en SAS para ajustar una ecuación de regresión de la siguiente forma Y=b0+b1X1+b2X2+b3X3+b4tY=b0+b1X1+b2X2+b3X3+b4t Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t La gráfica QQ de los redsiduales resultantes indica una desviación de la normalidad. Cualquier transformación de no...

regression multiple-regression nonparametric residuals sas

9

Uso del parámetro Gamma con máquinas de vectores de soporte

Cuando se usa libsvm, el parámetro es un parámetro para la función del núcleo. Su valor predeterminado se configura como γ = 1γγ\gammaγ= 1Número de características.γ=1Número de características.\gamma = \frac{1}{\text{number of features.}} ¿Existe alguna guía teórica para configurar este parámetro...

machine-learning svm data-mining libsvm kernel-trick

9

Asignación aleatoria: ¿por qué molestarse?

La asignación aleatoria es valiosa porque garantiza la independencia del tratamiento de los posibles resultados. Así es como conduce a estimaciones imparciales del efecto promedio del tratamiento. Pero otros esquemas de asignación también pueden garantizar sistemáticamente la independencia del...

econometrics experiment-design causality instrumental-variables random-allocation

9

Distribución de errores para regresión lineal y logística.

Con datos continuos, una regresión lineal Y=β1+β2X2+uY=β1+β2X2+uY=\beta_1+\beta_2X_2+u supone que el término de error se distribuye N (0, σ2σ2\sigma^2 ) 1) ¿Asumimos que Var (Y | x) es igualmente ~ N (0, σ2σ2\sigma^2 )? 2) ¿Cuál es esta distribución de errores en regresión logística? Cuando los...

logistic generalized-linear-model

9

Intervalos de confianza y predicción del modelo de regresión lineal.

Bien, entonces estoy tratando de entender la regresión lineal. Tengo un conjunto de datos y todo parece estar bien, pero estoy confundido. Este es mi modelo-resumen lineal: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2068621 0.0247002 8.375 4.13e-09 *** temp 0.0031074...

r regression

9

Comparación de tasas de incidencia

Quiero comparar las tasas de incidencia entre dos grupos (uno sin enfermedad y otro con). Estaba planeando calcular la tasa de incidencia (TIR), es decir, la tasa de incidencia del grupo B / tasa de incidencia del grupo A, y luego probar si esta tasa es igual a 1, y finalmente calcular los...

r poisson-distribution epidemiology incidence-rate-ratio

9

Cálculo de problemas, interpretación de subconjuntos de registros y preguntas generales sobre el procedimiento de selección de modelos

Quiero seleccionar modelos usando regsubsets(). Tengo un marco de datos llamado olympiadaten (datos cargados: http://www.sendspace.com/file/8e27d0 ). Primero adjunto este marco de datos y luego empiezo a analizar, mi código es: attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~...

r multiple-regression model-selection

9

Referencias estadísticas frecuentes para alguien bien versado en la teoría de probabilidad moderna

Con una formación rigurosa en análisis y teoría de probabilidad moderna, las estadísticas bayesianas son sencillas y fáciles de entender, y las estadísticas frecuentes son increíblemente confusas y poco intuitivas. Parece que los frecuentistas realmente están haciendo estadísticas bayesianas,...

references frequentist intuition

9

Intervalos de confianza frente al tamaño de la muestra?

Soy totalmente nuevo en las estadísticas y el campo de los intervalos de confianza. Entonces esto puede ser muy trivial o incluso sonar estúpido. Le agradecería si pudiera ayudarme a comprender o señalarme alguna literatura / texto / blog que explique esto mejor. Veo en varios sitios de noticias...

confidence-interval sample-size

9

Determinación del mayor contribuyente en un grupo

No sé mucho sobre estadísticas, así que tengan paciencia conmigo. Digamos que tengo un conjunto de 1000 trabajadores. Quiero averiguar quién es el trabajador más duro, pero solo puedo medir la cantidad de trabajo que se realiza en grupos de 1 a 100 durante más de una hora de trabajo. Suponiendo que...

r regression data-mining

9

Variables sesgadas en PCA o análisis factorial

Quiero hacer un análisis de componentes principales (análisis factorial) en SPSS basado en 22 variables. Sin embargo, algunas de mis variables están muy sesgadas (¡la asimetría calculada a partir de SPSS varía de 2 a 80!). Asi que aqui están mis preguntas: ¿Debo mantener las variables sesgadas...

pca factor-analysis dimensionality-reduction skewness

9

PCA, ICA y mapas propios laplacianos

Estoy muy interesado en el método de mapas propios de Laplacia. Actualmente, lo estoy usando para reducir la dimensión de mis conjuntos de datos médicos. Sin embargo, me he encontrado con un problema al usar el método. Por ejemplo, tengo algunos datos (señales de espectros), puedo usar PCA (o...

pca ica

9

¿Suposiciones de dependencia de Benjamini-Hochberg justificadas?

Tengo un conjunto de datos donde pruebo las diferencias significativas entre tres poblaciones con respecto a unas 50 variables diferentes. Hago esto usando las pruebas de Kruskal-Wallis, por un lado, y las pruebas de razón de probabilidad de ajustes de modelos GLM anidados (con y sin población como...

chi-squared multiple-comparisons likelihood-ratio kruskal-wallis false-discovery-rate

9

¿Distribuciones en subconjuntos de ?

Me pregunto si hay algún tipo de distribución estándar en subconjuntos de enteros . De manera equivalente, podríamos expresar esto como una distribución en un vector de longitud de resultados binarios, por ejemplo, si entonces corresponde al vector .{1,2,...,J}{1,2,...,J}\{1, 2, ..., J\}JJJJ=5J=5J...

bayesian discrete-data

9

Cómo trazar 20 años de datos diarios en series de tiempo

Tengo el siguiente conjunto de datos: https://dl.dropbox.com/u/22681355/ORACLE.csv y me gustaría trazar los cambios diarios en 'Abrir' por 'Fecha', así que hice lo siguiente: oracle <- read.csv(file="http://dl.dropbox.com/u/22681355/ORACLE.csv", header=TRUE) plot(oracle$Date, oracle$Open,...

r data-visualization

9

¿El preclustering ayuda a construir un mejor modelo predictivo?

Para la tarea de modelado de abandono que estaba considerando: Calcule k grupos para los datos Construya k modelos para cada grupo individualmente. La razón de esto es que no hay nada que demostrar, que la población de subsistemas es homogénea, por lo que es razonable suponer que el proceso de...

machine-learning clustering data-mining predictive-models

9

¿Cómo debo normalizar los datos del sensor de mi acelerómetro?

Estoy trabajando con un gran conjunto de datos de acelerómetro recopilados con múltiples sensores usados por muchos sujetos. Desafortunadamente, nadie aquí parece conocer las especificaciones técnicas de los dispositivos y no creo que hayan sido recalibrados. No tengo mucha información sobre los...

normalization signal-processing