Estadísticas y Big Data

21
¿Qué significa "imparcialidad"?

¿Qué significa decir que "la varianza es un estimador sesgado"? ¿Qué significa convertir una estimación sesgada en una estimación imparcial a través de una fórmula simple? ¿Qué hace exactamente esta conversión? Además, ¿cuál es el uso práctico de esta conversión? ¿Convierte estos puntajes cuando...

21
Regresión vs discrepancia ANOVA (aov vs lm en R)

Siempre tuve la impresión de que la regresión es solo una forma más general de ANOVA y que los resultados serían idénticos. Recientemente, sin embargo, ejecuté una regresión y un ANOVA en los mismos datos y los resultados difieren significativamente. Es decir, en el modelo de regresión, tanto los...

21
¿Ejemplos de problemas de modelos ocultos de Markov?

Leí un poco de modelos ocultos de Markov y pude codificar una versión bastante básica. Pero hay dos formas principales en que parezco aprender. Una es leerla e implementarla en el código (lo que está hecho) y la segunda es comprender cómo se aplica en diferentes situaciones (para poder entender...

21
¿Por qué debería importarnos la mezcla rápida en las cadenas MCMC?

Cuando trabajamos con la cadena de Markov Monte Carlo para hacer inferencia, necesitamos una cadena que se mezcle rápidamente, es decir, se mueva rápidamente a través del soporte de la distribución posterior. Pero no entiendo por qué necesitamos esta propiedad, porque por lo que entiendo, los...

21
Redes neuronales modernas que crean su propia topología.

Una limitación de los algoritmos de red neuronal estándar (como backprop) es que debe tomar una decisión de diseño de cuántas capas ocultas y neuronas por capa desea. Por lo general, la tasa de aprendizaje y la generalización son muy sensibles a estas elecciones. Esta ha sido la razón por la cual...

21
"Intención del investigador" y umbrales / valores p

Estoy leyendo las diapositivas "Doing Bayesian Data Analysis" de John Kruschke , pero en realidad tengo una pregunta sobre su interpretación de las pruebas t y / o el marco completo de pruebas de significación de hipótesis nulas. Argumenta que los valores p están mal definidos porque dependen de...

21
Primer paso para big data ( , )

Suponga que está analizando un gran conjunto de datos con miles de millones de observaciones por día, donde cada observación tiene un par de miles de variables numéricas y categoriales dispersas y posiblemente redundantes. Digamos que hay un problema de regresión, un problema de clasificación...

21
Modelos de apilamiento / ensamblaje con caret

A menudo me encuentro entrenando varios modelos predictivos diferentes usando careten R. Los entrenaré a todos en los mismos pliegues de validación cruzada, usando caret::: createFolds, luego elegiré el mejor modelo basado en un error de validación cruzada. Sin embargo, la predicción mediana de...