Estadísticas y Big Data

9
Detectando partes de una canción

Esperemos que esto no sea demasiado subjetivo ... Estoy buscando alguna dirección en los esfuerzos para detectar las diferentes "partes" de una canción, independientemente del estilo musical. No tengo idea de dónde buscar, pero confiando en el poder de los otros sitios de StackOverflow, pensé que...

9
¿Cómo sumar dos variables que están en escalas diferentes?

Si tengo dos variables que siguen dos distribuciones diferentes y tienen diferentes desviaciones estándar ... ¿Cómo necesito transformar dos variables para que, cuando sume, los dos resultados no sean "impulsados" por uno más volátil? Por ejemplo ... La variable A es menos volátil que la variable...

9
Agrupamiento con medidas de distancia asimétricas

¿Cómo agrupa una entidad con una medida de distancia asimétrica? Por ejemplo, supongamos que está agrupando un conjunto de datos con los días de la semana como una característica: la distancia de lunes a viernes no es la misma que la distancia de viernes a lunes. ¿Cómo incorporas esto a la...

9
¿Es la distribución de entropía máxima consistente con las distribuciones marginales dadas la distribución del producto de los marginales?

Generalmente hay muchas distribuciones conjuntas consistentes con un conjunto conocido de distribuciones marginales .P(X1=x1,X2=x2,...,Xn=xn)P(X1=x1,X2=x2,...,Xn=xn)P(X_1 = x_1, X_2 = x_2, ..., X_n = x_n)fi(xi)=P(Xi=xi)fi(xi)=P(Xi=xi)f_i(x_i) = P(X_i = x_i) De estas distribuciones conjuntas, ¿el...

9
¿Cómo elegir el número de divisiones en rpart ()?

He utilizado rpart.controlpara minsplit=2, y obtuvo los siguientes resultados de rpart()la función. Para evitar sobreajustar los datos, ¿necesito usar splits 3 o splits 7? ¿No debería usar splits 7? Por favor hagamelo saber. Variables realmente utilizadas en la construcción de árboles: [1] ct_a...

9
Comprender los resultados de regresión de crestas

Soy nuevo en la regresión de crestas. Cuando apliqué la regresión de cresta lineal, obtuve los siguientes resultados: >myridge = lm.ridge(y ~ ma + sa + lka + cb + ltb , temp, lamda = seq(0,0.1,0.001)) > select(myridge) modified HKB estimator is 0.5010689 modified L-W estimator is 0.3718668...

9
Distribución de la desviación estándar.

Esta pregunta abordó la distribución normal, pero me pregunto qué se sabe sobre la distribución de la desviación estándar de una muestra de tamaño n extraída de una distribución arbitraria. En particular, ¿cuál es la desviación estándar de la desviación estándar? Para una distribución normal, el...

9
¿Diagrama de caja para varias distribuciones?

Necesito dibujar 20 distribuciones en un solo gráfico en R, y no se ve bien (desordenado) con diagrama de caja regular (20 cuadros) incluso con boxwex = 0.3. ¿Podría sugerirme cómo puedo trazar un tipo de diagrama de caja en R para las 20 distribuciones, con puntos para la mediana y solo una línea...

9
Regresión logística ponderada de casos

Estoy viendo algunos problemas de regresión logística. ("regular" y "condicional"). Idealmente, me gustaría ponderar cada uno de los casos de entrada para que la glm se centre más en predecir correctamente los casos con mayor ponderación a expensas de posiblemente clasificar erróneamente los casos...

9
Consejos generales sobre modelado

La formulación de un modelo matemático para un problema es uno de los aspectos más subjetivos de la estadística, pero también uno de los más importantes. ¿Cuáles son las mejores referencias que abordan este tema crucial pero a menudo ignorado? ¿Y qué estadístico famoso dijo algo como "Deja que los...