Estadísticas y Big Data

22

¿Qué podría causar grandes diferencias en el coeficiente de correlación entre la correlación de Pearson y Spearman para un conjunto de datos dado?

El coeficiente de Pearson entre dos variables es bastante alto (r = .65). Pero cuando clasifico los valores de las variables y ejecuto una correlación de Spearman, el valor de cofficiencia es mucho más bajo (r = .30). ¿Cuál es la interpretación de

correlation spearman-rho

22

Buen recurso en línea con consejos para graficar la asociación entre dos variables numéricas en varias condiciones

Contexto: Mientras tanto, he adquirido un conjunto de heurísticas sobre cómo trazar efectivamente la asociación entre dos variables numéricas. Me imagino que la mayoría de las personas que trabajan con datos tendrían un conjunto similar de reglas. Ejemplos de tales reglas pueden ser: Si una de...

data-visualization correlation teaching rule-of-thumb scatterplot

22

Sobre la "fuerza" de los alumnos débiles

Tengo varias preguntas estrechamente relacionadas con los alumnos débiles en el aprendizaje conjunto (por ejemplo, impulsar). Esto puede sonar tonto, pero ¿cuáles son los beneficios de usar estudiantes débiles en lugar de fuertes? (por ejemplo, ¿por qué no impulsar con métodos de aprendizaje...

machine-learning boosting ensemble

22

Admite regresión vectorial para predicción de series de tiempo multivariadas

¿Alguien ha intentado la predicción de series de tiempo utilizando la regresión de vectores de soporte? Entiendo las máquinas de vectores de soporte y entiendo parcialmente la regresión de vectores de soporte, pero no entiendo cómo se pueden usar para modelar series de tiempo, especialmente...

time-series machine-learning svm

22

¿Correlación intraclase (ICC) para una interacción?

Supongamos que tengo alguna medida para cada sujeto en cada sitio. Dos variables, sujeto y sitio, son de interés en términos de cálculo de valores de correlación intraclase (ICC). Normalmente, usaría la función lmerdel paquete R lme4y ejecutaría lmer(measurement ~ 1 + (1 | subject) + (1 | site),...

r lme4-nlme intraclass-correlation

22

¿El mejor enfoque para la selección del modelo bayesiano o validación cruzada?

Cuando trato de seleccionar entre varios modelos o la cantidad de características a incluir, digamos predicción, puedo pensar en dos enfoques. Divida los datos en conjuntos de entrenamiento y prueba. Mejor aún, use bootstrapping o k-fold cross-validation. Entrene en el conjunto de entrenamiento...

bayesian model-selection cross-validation feature-selection

22

Cálculo del poder estadístico

Según tengo entendido, necesito conocer al menos tres aspectos (de cuatro) de mi estudio propuesto para realizar un análisis de poder, a saber: tipo de prueba: tengo la intención de usar Pearson r y ANCOVA / Regresión - GLM nivel de significancia (alfa): tengo la intención de usar 0.05 tamaño de...

power-analysis

22

¿Cómo diseñarías un sistema de aprendizaje automático para jugar Angry Birds?

Después de jugar demasiado Angry Birds, comencé a observar mis propias estrategias. Resulta que desarrollé un enfoque muy específico para obtener 3 estrellas en cada nivel. Eso me hizo preguntarme sobre los desafíos de desarrollar un sistema de aprendizaje automático que pudiera jugar a Angry...

machine-learning reinforcement-learning

22

¿Cómo se deben comparar o validar los modelos de efectos mixtos?

¿Cómo se comparan normalmente los modelos de efectos mixtos (lineales) entre sí? Sé que se pueden usar pruebas de razón de probabilidad, pero esto no funciona si un modelo no es un 'subconjunto' del otro ¿correcto? ¿La estimación de los modelos df es siempre sencilla? ¿Número de efectos fijos +...

hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

22

¿Cómo descomponer una serie temporal con múltiples componentes estacionales?

Tengo una serie temporal que contiene componentes dobles estacionales y me gustaría descomponer la serie en los siguientes componentes de la serie temporal (tendencia, componente estacional 1, componente estacional 2 y componente irregular). Hasta donde sé, el procedimiento STL para descomponer una...

r time-series forecasting decomposition multiple-seasonalities

22

Interpretación de la diferencia entre la distribución de la ley lognormal y de la ley de potencia (distribución de grados de red)

En primer lugar, no soy un estadístico. Sin embargo, he estado haciendo análisis estadísticos de red para mi doctorado. Como parte del análisis de red, tracé una Función de distribución acumulativa complementaria (CCDF) de grados de red. Lo que encontré fue que, a diferencia de las distribuciones...

curve-fitting networks lognormal power-law

22

En R, dada una salida de optim con una matriz de arpillera, ¿cómo calcular los intervalos de confianza de los parámetros utilizando la matriz de arpillera?

Dado un resultado de optim con una matriz de arpillera, ¿cómo calcular los intervalos de confianza de los parámetros utilizando la matriz de arpillera? fit<-optim(..., hessian=T) hessian<-fit$hessian Estoy principalmente interesado en el contexto del análisis de máxima verosimilitud, pero...

r maximum-likelihood

22

¿Cómo ajusto un conjunto de datos a una distribución de Pareto en R?

Tener, digamos, los siguientes datos: 8232302 684531 116857 89724 82267 75988 63871 23718 1696 436 439 248 235 Desea una forma simple de ajustar esto (y varios otros conjuntos de datos) a una distribución de Pareto. Idealmente, generaría los valores teóricos coincidentes, menos idealmente los...

r pareto-distribution

22

¿Por qué la regresión lineal y ANOVA dan un valor diferente en caso de considerar la interacción entre variables?

Estaba tratando de ajustar datos de una serie de tiempo (sin réplicas) usando el modelo de regresión. Los datos son los siguientes: > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9...

r regression statistical-significance anova p-value

22

Cómo escribir una fórmula de modelo lineal con 100 variables en R

Bloqueado . Esta pregunta y sus respuestas están bloqueadas porque la pregunta está fuera de tema pero tiene un significado histórico. Actualmente no acepta nuevas respuestas o interacciones. ¿Hay una manera fácil en R de crear una regresión lineal sobre un modelo con...

r

22

La estabilidad del modelo cuando se trata de grandes

Introducción: Tengo un conjunto de datos con un clásico "problema grande p, pequeño n". El número de muestras disponibles n = 150, mientras que el número de posibles predictores p = 400. El resultado es una variable continua. Quiero encontrar los descriptores más "importantes", es decir, aquellos...

regression cross-validation model-selection feature-selection elastic-net

22

Muestreo de datos desequilibrados en regresión

Ha habido buenas preguntas sobre el manejo de datos desequilibrados en el contexto de clasificación , pero me pregunto qué hacen las personas para tomar muestras de regresión. Digamos que el dominio del problema es muy sensible al signo pero solo algo sensible a la magnitud del objetivo. Sin...

regression sampling unbalanced-classes

22

¿Qué decirle a un cliente que piensa que los intervalos de confianza son demasiado amplios para ser útiles?

Supongamos que soy consultor y quiero explicarle a mi cliente la utilidad del intervalo de confianza. El cliente me dice que mis intervalos son demasiado amplios para ser útiles y que preferiría usar los medios de ancho. ¿Cómo debo responder?

confidence-interval interpretation

22

¿Son preferibles los estimadores inconsistentes?

Obviamente, la consistencia es un estimador de propiedad natural e importante, pero ¿hay situaciones en las que podría ser mejor usar un estimador inconsistente en lugar de uno consistente? Más específicamente, ¿hay ejemplos de un estimador inconsistente que supere a un estimador consistente...

estimation consistency

22

Realice clusters de K-means (o sus parientes cercanos) con solo una matriz de distancia, no datos de puntos por características

Quiero realizar la agrupación K-means en los objetos que tengo, pero los objetos no se describen como puntos en el espacio, es decir, por objects x featuresconjunto de datos. Sin embargo, puedo calcular la distancia entre dos objetos (se basa en una función de similitud). Entonces, dispongo de la...

machine-learning clustering data-mining k-means distance