Estadísticas y Big Data

39

¿Equivalente bayesiano de la prueba t de dos muestras?

No busco un método plug and play como BEST in R, sino una explicación matemática de cuáles son algunos métodos bayesianos que puedo usar para probar la diferencia entre la media de dos muestras.

hypothesis-testing bayesian t-test

39

LDA vs word2vec

Estoy tratando de entender cuál es la similitud entre la asignación de Dirichlet latente y word2vec para calcular la similitud de palabras. Según tengo entendido, LDA asigna palabras a un vector de probabilidades de temas latentes , mientras que word2vec las asigna a un vector de números reales...

machine-learning self-study natural-language latent-variable word2vec

39

¿Minimizar el error al cuadrado equivale a minimizar el error absoluto? ¿Por qué el error al cuadrado es más popular que este último?

Cuando llevamos a cabo una regresión lineal para adaptarse a un grupo de puntos de datos ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) , el enfoque clásico minimiza el error al cuadrado. Durante mucho tiempo me ha intrigado una pregunta que minimizará el error al cuadrado producirá el mismo...

least-squares error

39

¿Cuáles son los prejuicios más comunes que los humanos hacen al recopilar o interpretar datos?

Soy un econ / stat major. Soy consciente de que los economistas han tratado de modificar sus suposiciones sobre el comportamiento humano y la racionalidad identificando situaciones en las que las personas no se comportan racionalmente. Por ejemplo, supongamos que le ofrezco una probabilidad del...

bias

39

¿Hay casos en los que PCA es más adecuado que t-SNE?

Quiero ver cómo 7 medidas de comportamiento de corrección de texto (tiempo dedicado a corregir el texto, número de pulsaciones de teclas, etc.) se relacionan entre sí. Las medidas están correlacionadas. Ejecuté un PCA para ver cómo se proyectaban las medidas en PC1 y PC2, lo que evitó la...

pca tsne

39

¿Por qué utilizamos la divergencia Kullback-Leibler en lugar de la entropía cruzada en la función objetivo t-SNE?

En mi opinión, la divergencia KL de la distribución de la muestra a la distribución verdadera es simplemente la diferencia entre entropía cruzada y entropía. ¿Por qué utilizamos la entropía cruzada para ser la función de costo en muchos modelos de aprendizaje automático, pero utilizamos la...

kullback-leibler tsne cross-entropy

38

¿Cuál es la diferencia entre una población y una muestra?

¿Cuál es la diferencia entre una población y una muestra? ¿Qué variables y estadísticas comunes se utilizan para cada una y cómo se relacionan entre

standard-deviation variance sample population

38

¿Aprendizaje en línea versus fuera de línea?

¿Cuál es la diferencia entre el aprendizaje fuera de línea y en línea ? ¿Es solo una cuestión de aprender sobre todo el conjunto de datos (sin conexión) versus aprender de forma incremental (una instancia a la vez)? ¿Cuáles son ejemplos de algoritmos utilizados en

machine-learning online

38

¿Cómo generar de manera eficiente matrices de correlación aleatoria positiva-semidefinida?

Me gustaría poder generar eficientemente matrices de correlación semidefinidas positivas (PSD). Mi método se ralentiza dramáticamente a medida que aumento el tamaño de las matrices que se generarán. ¿Podría sugerir alguna solución eficiente? Si conoce algún ejemplo en Matlab, estaría muy...

random-generation correlation-matrix

38

Serie de tiempo 'agrupamiento' en R

Tengo un conjunto de datos de series de tiempo. Cada serie cubre el mismo período, aunque las fechas reales en cada serie de tiempo pueden no "alinearse" exactamente. Es decir, si las series temporales se leyeran en una matriz 2D, se vería así: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01...

r time-series clustering cointegration

38

calculado manualmente

Sé que esto es bastante específico Rpregunta, pero puede estar pensando en proporción de varianza explicado, R2R2R^2 , de forma incorrecta. Aquí va. Estoy tratando de usar el Rpaquete randomForest. Tengo algunos datos de entrenamiento y datos de prueba. Cuando ajusto un modelo de bosque aleatorio,...

r correlation predictive-models random-forest r-squared

38

Estadísticas de orden aproximadas para variables aleatorias normales

¿Existen fórmulas bien conocidas para las estadísticas de orden de ciertas distribuciones aleatorias? Particularmente las estadísticas de primer y último orden de una variable aleatoria normal, pero también se agradecería una respuesta más general. Editar: para aclarar, estoy buscando fórmulas...

distributions normal-distribution approximation order-statistics

38

¿Hay un buen navegador / visor para ver un conjunto de datos R (archivo .rda)

Quiero buscar un archivo .rda (conjunto de datos R). Sé sobre el View(datasetname)comando. El R.app predeterminado que viene para Mac no tiene un navegador de datos muy bueno (abre una ventana en X11). Me gusta el navegador de datos RStudio que se abre con el Viewcomando. Sin embargo, muestra solo...

r

38

¿Es válido incluir una medida de referencia como variable de control cuando se prueba el efecto de una variable independiente en los puntajes de cambio?

Estoy intentando ejecutar una regresión de OLS: DV: cambio de peso durante un año (peso inicial - peso final) IV: Si haces ejercicio o no. Sin embargo, parece razonable que las personas más pesadas pierdan más peso por unidad de ejercicio que las personas más delgadas. Por lo tanto, quería...

regression repeated-measures least-squares change-scores

38

¿Qué es la identificabilidad del modelo?

Sé que con un modelo que no es identificable, se puede decir que los datos son generados por múltiples asignaciones diferentes a los parámetros del modelo. Sé que a veces es posible restringir los parámetros para que todos sean identificables, como en el ejemplo de Cassella & Berger, segunda...

identifiability

38

¿Por qué los ingenuos clasificadores bayesianos funcionan tan bien?

Los clasificadores ingenuos de Bayes son una opción popular para los problemas de clasificación. Hay muchas razones para esto, que incluyen: "Zeitgeist": conciencia generalizada después del éxito de los filtros de spam hace aproximadamente diez años Fácil de escribir El modelo clasificador es...

classification naive-bayes

38

¿Cuál es la conexión entre las regiones creíbles y las pruebas de hipótesis bayesianas?

En las estadísticas frecuentistas, existe una estrecha conexión entre los intervalos de confianza y las pruebas. Usando la inferencia sobre en la distribución como ejemplo, el intervalo de confianza \ bar {x} \ pm t _ {\ alpha / 2} (n-1) \ cdot s / \ sqrt {n} contiene todos los valores de \ mu...

hypothesis-testing bayesian confidence-interval frequentist credible-interval

38

Predicción en regresión de Cox

Estoy haciendo una regresión multivariada de Cox, tengo mis variables independientes significativas y valores beta. El modelo se ajusta muy bien a mis datos. Ahora, me gustaría usar mi modelo y predecir la supervivencia de una nueva observación. No tengo claro cómo hacer esto con un modelo de Cox....

regression survival prediction cox-model

38

¿Cuándo las regresiones binomiales negativas y de Poisson se ajustan a los mismos coeficientes?

He notado que en R, Poisson y las regresiones binomiales negativas (NB) siempre parecen ajustarse a los mismos coeficientes para predictores categóricos, pero no continuos. Por ejemplo, aquí hay una regresión con un predictor categórico: data(warpbreaks) library(MASS) rs1 = glm(breaks ~...

regression negative-binomial poisson-regression

38

¿Cuál es la diferencia entre regresión cuantil condicional e incondicional?

El estimador de regresión cuantil condicional de Koenker y Basset (1978) para el cuantil se define como donde \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) es una función de re-ponderación (llamada función de "verificación") de los residuos u_i

quantile-regression