Estadísticas y Big Data

33

¿Cuál es la razón por la que usamos el logaritmo natural (ln) en lugar de iniciar sesión en la base 10 para especificar la función en econometría?

¿Cuál es la razón por la que usamos el logaritmo natural (ln) en lugar de iniciar sesión en la base 10 al especificar funciones en

econometrics

33

Agrupando un conjunto de datos con variables discretas y continuas

Tengo un conjunto de datos X que tiene 10 dimensiones, 4 de las cuales son valores discretos. De hecho, esas 4 variables discretas son ordinales, es decir, un valor más alto implica una semántica más alta / mejor. 2 de estas variables discretas son categóricas en el sentido de que para cada una de...

clustering k-means discrete-data continuous-data gaussian-mixture

33

¿Interpretar gráficos de diagnóstico residuales para modelos glm?

Estoy buscando pautas sobre cómo interpretar gráficos residuales de modelos glm. Especialmente poisson, binomio negativo, modelos binomiales. ¿Qué podemos esperar de estas parcelas cuando los modelos son "correctos"? (por ejemplo, esperamos que la varianza crezca a medida que aumenta el valor...

generalized-linear-model diagnostic residuals

33

¿Origen del umbral "5 " para aceptar evidencia en física de partículas?

Los informes noticiosos dicen que el CERN anunciará mañana que el bosón de Higgs ha sido detectado experimentalmente con evidencia 5 . De acuerdo con ese artículo:σσ\sigma 5 equivale a un 99.99994% de posibilidades de que los datos que ven los detectores CMS y ATLAS no sean solo ruido aleatorio,...

hypothesis-testing p-value history

33

¿Cuál es la diferencia entre "coeficiente de determinación" y "error cuadrático medio"?

Para el problema de regresión, he visto a personas usar el "coeficiente de determinación" (también conocido como R al cuadrado) para realizar la selección del modelo, por ejemplo, encontrar el coeficiente de penalización apropiado para la regularización. Sin embargo, también es común usar "error...

regression r-squared

33

Determinación del tamaño de muestra necesario para el método bootstrap / Método propuesto

Sé que este es un tema bastante candente en el que nadie realmente puede dar una respuesta simple. Sin embargo, me pregunto si el siguiente enfoque no podría ser útil. El método bootstrap solo es útil si su muestra sigue más o menos (lea exactamente) la misma distribución que la población...

bootstrap sample-size methodology

33

¿Son los dígitos de

Supongamos que observa la secuencia: 7, 9, 0, 5, 5, 5, 4, 8, 0, 6, 9, 5, 3, 8, 7, 8, 5, 4, 0, 0, 6, 6, 4, 5, 3, 3, 7, 5, 9, 8, 1, 8, 6, 2, 8, 4, 6, 4, 1, 9, 9, 0, 5, 2, 2, 0, 4, 5, 2, 8. .. ¿Qué pruebas estadísticas aplicarías para determinar si esto es realmente aleatorio? FYI estos son los º...

random-generation randomness

33

Comprensión p-valor

Sé que hay muchos materiales que explican el valor p. Sin embargo, el concepto no es fácil de entender con firmeza sin más aclaraciones. Aquí está la definición del valor p de Wikipedia: El valor p es la probabilidad de obtener un estadístico de prueba al menos tan extremo como el que se...

hypothesis-testing p-value interpretation

33

¿Una matriz de covarianza muestral siempre es simétrica y positiva definida?

Al calcular la matriz de covarianza de una muestra, ¿se garantiza que se obtenga una matriz simétrica y definida positiva? Actualmente mi problema tiene una muestra de 4600 vectores de observación y 24

sampling covariance

33

Diferencia intuitiva entre modelos ocultos de Markov y campos aleatorios condicionales

Entiendo que los HMM (modelos ocultos de Markov) son modelos generativos, y CRF son modelos discriminativos. También entiendo cómo se diseñan y utilizan los CRF (campos aleatorios condicionales). Lo que no entiendo es en qué se diferencian de los HMM. Leí que en el caso de HMM, solo podemos modelar...

machine-learning hidden-markov-model natural-language conditional-random-field

33

(¿Por qué) los modelos sobreajustados tienden a tener coeficientes grandes?

Me imagino que cuanto mayor es el coeficiente de una variable, más capacidad tiene el modelo para "oscilar" en esa dimensión, lo que brinda una mayor oportunidad de ajustar el ruido. Aunque creo que tengo un sentido razonable de la relación entre la varianza en el modelo y los coeficientes grandes,...

regression variance linear-model bias regularization

33

Paradoja de cumpleaños con un giro (enorme): ¿Probabilidad de compartir exactamente la misma fecha de nacimiento con la pareja?

Comparto la misma fecha de nacimiento que mi novio, la misma fecha pero también el mismo año, nuestros nacimientos se separan en solo 5 horas más o menos. Sé que las posibilidades de conocer a alguien que nació en la misma fecha que yo son bastante altas y conozco a algunas personas con las que...

probability birthday-paradox

33

Cresta, lazo y red elástica

¿Cómo se comparan los métodos de regularización de cresta, LASSO y elasticnet? ¿Cuáles son sus respectivas ventajas y desventajas? Cualquier buen documento técnico o apuntes de clase también serán apreciados.

references lasso regularization ridge-regression elastic-net

33

¿Cuál es la diferencia entre la varianza finita e infinita?

¿Cuál es la diferencia entre la varianza finita e infinita? Mi conocimiento de estadísticas es bastante básico; Wikipedia / Google no fue de mucha ayuda

variance intuition partial-moments

33

Comprender la forma y el cálculo de las bandas de confianza en regresión lineal

Estoy tratando de entender el origen de la forma curva de las bandas de confianza asociadas con una regresión lineal OLS y cómo se relaciona con los intervalos de confianza de los parámetros de regresión (pendiente e intercepción), por ejemplo (usando R): require(visreg) fit <- lm(Ozone ~...

regression confidence-interval

33

¿Qué son los controles predictivos posteriores y qué los hace útiles?

Entiendo cuál es la distribución predictiva posterior , y he estado leyendo sobre las comprobaciones predictivas posteriores , aunque todavía no tengo claro qué hace. ¿Qué es exactamente el control predictivo posterior? ¿Por qué algunos autores dicen que ejecutar verificaciones predictivas...

bayesian model-selection posterior

33

¿Cómo interpretar el coeficiente de variación?

Estoy tratando de entender el coeficiente de variación . Cuando trato de aplicarlo a las siguientes dos muestras de datos, no puedo entender cómo interpretar los resultados. Digamos que la muestra 1 es y la muestra 2 es . Aquí muestra 2 muestra 1 como puedes ver.10 , 15 , 17 , 22 , 21 , 27 = +...

descriptive-statistics coefficient-of-variation

33

Diferencias entre la distancia Bhattacharyya y la divergencia KL

Estoy buscando una explicación intuitiva para las siguientes preguntas: En estadística y teoría de la información, ¿cuál es la diferencia entre la distancia de Bhattacharyya y la divergencia de KL, como medidas de la diferencia entre dos distribuciones de probabilidad discretas? ¿No tienen...

mathematical-statistics information-theory kullback-leibler bhattacharyya

33

Encontrar cuartiles en R

Estoy trabajando en un libro de texto de estadísticas mientras aprendo R y me he encontrado con un obstáculo en el siguiente ejemplo: Después de mirar ?quantile, intenté recrear esto en R con lo siguiente: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) >...

r quantiles

33

¿Cuál es la razón intuitiva detrás de hacer rotaciones en Factor Analysis / PCA y cómo seleccionar la rotación adecuada?

Mis preguntas ¿Cuál es la razón intuitiva detrás de hacer rotaciones de factores en el análisis factorial (o componentes en PCA)? Según tengo entendido, si las variables se cargan casi por igual en los componentes (o factores) superiores, entonces obviamente es difícil diferenciar los...

pca interpretation factor-analysis dimensionality-reduction factor-rotation