Estadísticas y Big Data

12

Qué distribución da como resultado la adición de dos distribuciones de Pareto

Me pregunto qué distribución da como resultado la adición de dos (o más) distribuciones de Pareto tipo uno de la forma . Experimentalmente, parece una ley de potencia de dos modos, asintótica a la diferencia de

distributions power-law pareto-distribution

12

¿Por qué lleva R tanto tiempo adaptar un modelo con un factor de muchos niveles?

Encajo un modelo con un factor con muchos niveles y R tarda mucho tiempo en adaptarse a ese modelo. ¿Por qué es esto? Por ejemplo, si calculo una regresión para predecir los salarios de los jugadores e incluyo un factor predictivo para las respectivas nacionalidades de los jugadores, eso tomaría...

regression categorical-data

12

Cómo encontrar un intervalo de predicción GBM

Estoy trabajando con modelos de GBM usando el paquete caret y buscando encontrar un método para resolver los intervalos de predicción de mis datos pronosticados. He buscado mucho, pero solo se me ocurren algunas ideas para encontrar intervalos de predicción para Random Forest. ¡Cualquier código de...

caret prediction-interval gbm

12

Comprender los parámetros de la función de base gaussiana que se utilizarán en la regresión lineal

Me gustaría aplicar la función de base gaussiana en una implementación de regresión lineal. Lamentablemente, me está costando entender un par de parámetros en la función base. Específicamente y .μμ\muσσ\sigma Mi conjunto de datos es una matriz de 10,000 x 31. 10.000 muestras y 31...

regression machine-learning basis-function

12

¿Definición exacta de la medida de desviación en el paquete glmnet, con validación cruzada?

Para mi investigación actual, estoy usando el método Lasso a través del paquete glmnet en R en una variable dependiente binomial. En glmnet, el lambda óptimo se encuentra a través de la validación cruzada y los modelos resultantes se pueden comparar con varias medidas, por ejemplo, error de...

cross-validation lasso glmnet deviance lars

12

¿Cómo puedo interpretar un gráfico de porcentaje de recorte frente a la media recortada?

Para parte de una pregunta de tarea, se me pidió que calcule la media recortada para un conjunto de datos eliminando la observación más pequeña y más grande, e interpretar el resultado. La media recortada fue menor que la media no recortada. Mi interpretación fue que esto se debía a que la...

data-visualization interpretation mean trimmed-mean

12

Cómo interpretar el gráfico de autocorrelación en MCMC

Me estoy familiarizando con las estadísticas bayesianas al leer el libro Doing Bayesian Data Analysis , de John K. Kruschke, también conocido como el "libro del cachorro". En el capítulo 9, se presentan modelos jerárquicos con este simple ejemplo: y las observaciones de Bernoulli son 3 monedas,...

bayesian interpretation python mcmc autocorrelation

12

Normas de Ridge y LASSO

Esta publicación sigue a esta: ¿Por qué la estimación de cresta se vuelve mejor que OLS al agregar una constante a la diagonal? Aquí está mi pregunta: Hasta donde yo sé, la regularización de crestas utiliza una -norm (distancia euclidiana). Pero, ¿por qué usamos el cuadrado de esta norma? (una...

lasso regularization ridge-regression

12

¿Por qué necesitamos trazar el trazado para los resultados de MCMC

Estoy leyendo trabajos de investigación utilizando métodos MCMC y veo que la mayoría de ellos proporcionan trazas de trazado. ¿Por qué necesitamos trazas en la cadena Monte Carlo Markov? ¿Qué indica una traza de

data-visualization mcmc

12

¿Cómo manejo datos inexistentes o faltantes?

Intenté un método de pronóstico y quiero verificar si mi método es correcto o no. Mi estudio compara diferentes tipos de fondos mutuos. Quiero usar el índice GCC como punto de referencia para uno de ellos, pero el problema es que el índice GCC se detuvo en septiembre de 2011 y mi estudio es de...

time-series forecasting missing-data

12

¿Qué proporción de distribuciones independientes da una distribución normal?

La relación de dos distribuciones normales independientes da una distribución de Cauchy. La distribución t es una distribución normal dividida por una distribución chi-cuadrado independiente. La relación de dos distribuciones chi-cuadrado independientes da una distribución F. ¿Estoy buscando una...

probability distributions normal-distribution mathematical-statistics

12

Extracción de pendientes para casos de un modelo de efectos mixtos (lme4)

Me gustaría extraer las pendientes para cada individuo en un modelo de efectos mixtos, como se describe en el siguiente párrafo Se utilizaron modelos de efectos mixtos para caracterizar las rutas individuales de cambio en las medidas de resumen cognitivo, incluidos los términos de edad, sexo y...

r mixed-model

12

Regresión logística con splines de regresión en R

He estado desarrollando un modelo de regresión logística basado en datos retrospectivos de una base de datos nacional de traumatismos de lesiones en la cabeza en el Reino Unido. El resultado clave es la mortalidad a los 30 días (denotada como medida "Sobrevivir"). Otras medidas con evidencia...

r logistic generalized-linear-model goodness-of-fit regression-strategies

12

¿Cómo comparar dos algoritmos de clasificación?

Quiero comparar dos algoritmos de clasificación. En estos algoritmos, el cliente especifica algunas condiciones en su búsqueda. De acuerdo con los requisitos del cliente, este algoritmo debe asignar una puntuación para cada elemento en la base de datos y recuperar los elementos con las puntuaciones...

machine-learning precision-recall average-precision

12

¿Cuáles son algunas opciones populares para visualizar datos de 4 dimensiones?

Digamos que tengo los siguientes datos de cuatro dimensiones, donde los primeros tres pueden considerarse como coordenadas, y el último puede considerarse como valores. c1, c2, c3, value 1, 2, 6, 0.456 34, 34, 12 0.27 12, 1, 66 0.95 ¿Cómo visualizar mejor el efecto de las tres primeras...

r data-visualization

12

Estimador de máxima probabilidad de distribución conjunta dado solo recuentos marginales

Sea una distribución conjunta de dos variables categóricas X , Y , con x , y ∈ { 1 , ... , K } . Digamos que se tomaron n muestras de esta distribución, pero solo se nos dan los recuentos marginales, es decir, para j = 1 , ... , K :px , ypagX,yp_{x,y}X, YX,YX,YX,y∈ { 1 ,

categorical-data maximum-likelihood joint-distribution marginal maximum-entropy

12

¿Hay alguna diferencia entre la supervisión distante, el auto entrenamiento, el aprendizaje auto supervisado y la supervisión débil?

Por lo que he leído: Supervisión distante : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and...

machine-learning terminology unsupervised-learning semi-supervised

12

Distribución de probabilidad para una onda sinusoidal ruidosa

Estoy buscando calcular analíticamente una distribución de probabilidad de puntos de muestreo a partir de una función oscilante cuando hay algún error de medición. Ya he calculado la distribución de probabilidad para la parte "sin ruido" (lo pondré al final), pero no puedo entender cómo incluir...

distributions normal-distribution noise

12

¿Cómo leer los resultados de la prueba de Dunn?

¿Cómo leo los resultados de la prueba de Dunn ? Específicamente, ¿qué me dicen los valores en la tabla a continuación? Tengo datos no paramétricos en 4 grupos, y primero hice una prueba de Kruskal-Wallis para confirmar que las distribuciones de los grupos eran diferentes entre sí y con el conjunto...

r distributions kruskal-wallis dunn-test

12

Precisión media media frente a rango recíproco medio

Estoy tratando de entender cuándo es apropiado usar el MAP y cuándo se debe usar MRR. Encontré esta presentación que establece que MRR se utiliza mejor cuando el número de resultados relevantes es menor a 5 y mejor cuando es 1. En otros casos, el MAP es apropiado. Tengo dos preguntas: Realmente...

information-retrieval average-precision