Estadísticas y Big Data

46

¿El número óptimo de árboles en un bosque aleatorio depende del número de predictores?

¿Alguien puede explicar por qué necesitamos una gran cantidad de árboles en un bosque aleatorio cuando la cantidad de predictores es grande? ¿Cómo podemos determinar la cantidad óptima de

machine-learning random-forest

46

Modelo lineal con respuesta transformada logarítmica versus modelo lineal generalizado con enlace logarítmico

En este documento titulado "ELEGIR ENTRE MODELOS LINEALES GENERALIZADOS APLICADOS A DATOS MÉDICOS" los autores escriben: En un modelo lineal generalizado, la media se transforma, mediante la función de enlace, en lugar de transformar la respuesta misma. Los dos métodos de transformación pueden...

generalized-linear-model model-selection lognormal

46

Gráfico para la relación entre dos variables ordinales

¿Cuál es un gráfico apropiado para ilustrar la relación entre dos variables ordinales? Algunas opciones que se me ocurren: Diagrama de dispersión con jitter aleatorio agregado para detener los puntos que se esconden entre sí. Aparentemente un gráfico estándar: Minitab llama a esto un "gráfico de...

data-visualization categorical-data ordinal-data scatterplot

46

KL divergencia entre dos gaussianos multivariados

Tengo problemas para derivar la fórmula de divergencia KL suponiendo dos distribuciones normales multivariadas. He hecho el caso univariado con bastante facilidad. Sin embargo, ha pasado bastante tiempo desde que tomé las estadísticas de matemáticas, por lo que tengo algunos problemas para...

normal-distribution kullback-leibler proof

46

¿Qué dice la inversa de la matriz de covarianza sobre los datos? (Intuitivamente)

Tengo curiosidad sobre la naturaleza de Σ−1Σ−1\Sigma^{-1} . ¿Alguien puede decir algo intuitivo sobre "¿Qué dice Σ−1Σ−1\Sigma^{-1} sobre los datos?" Editar: Gracias por las respuestas Después de tomar algunos cursos excelentes, me gustaría agregar algunos puntos: Es una medida de la...

bayesian maximum-likelihood covariance matrix

46

¿Por qué "estadísticamente significativo" no es suficiente?

Completé mi análisis de datos y obtuve "resultados estadísticamente significativos" que son consistentes con mi hipótesis. Sin embargo, un estudiante de estadística me dijo que esta es una conclusión prematura. ¿Por qué? ¿Se necesita incluir algo más en mi

hypothesis-testing statistical-significance spss p-value

46

¿Por qué no se le permite a un bayesiano mirar los residuos?

En el artículo "Discusión: ¿Deberían los ecologistas convertirse en bayesianos?" Brian Dennis ofrece una visión sorprendentemente equilibrada y positiva de las estadísticas bayesianas cuando su objetivo parece ser advertir a la gente al respecto. Sin embargo, en un párrafo, sin ninguna cita o...

bayesian residuals frequentist likelihood-principle

46

¿Cuáles son las alternativas del descenso de gradiente?

Gradient Descent tiene el problema de quedarse atascado en los mínimos locales. Necesitamos correr tiempos exponenciales de descenso de gradiente para encontrar mínimos globales. ¿Alguien puede decirme acerca de las alternativas de descenso de gradiente que se aplican en el aprendizaje de redes...

machine-learning svm neural-networks

46

¿Por qué la prueba de hipótesis frecuentista se sesga hacia el rechazo de la hipótesis nula con muestras suficientemente grandes?

Estaba leyendo este artículo sobre el factor Bayes para un problema completamente no relacionado cuando me topé con este pasaje. La prueba de hipótesis con factores de Bayes es más sólida que la prueba de hipótesis frecuentista, ya que la forma bayesiana evita el sesgo de selección del modelo,...

hypothesis-testing frequentist

46

¿Por qué las redes neuronales convolucionales no utilizan una máquina de vectores de soporte para clasificar?

En los últimos años, las redes neuronales convolucionales (CNN) se han convertido en el estado del arte para el reconocimiento de objetos en la visión por computadora. Por lo general, una CNN consta de varias capas convolucionales, seguidas de dos capas completamente conectadas. Una intuición...

machine-learning neural-networks svm deep-learning conv-neural-network

46

Entendiendo que "casi todos los mínimos locales tienen un valor de función muy similar al óptimo global"

En una reciente publicación de blog de Rong Ge, se dijo que: Se cree que para muchos problemas, incluido el aprendizaje de redes profundas, casi todos los mínimos locales tienen un valor de función muy similar al óptimo global y, por lo tanto, encontrar un mínimo local es lo suficientemente...

machine-learning neural-networks optimization deep-learning

46

¿Son los residuos "predicho menos real" o "real menos predicho"

He visto "residuales" definidos de manera diversa como "pronosticados menos valores reales" o "reales menos valores pronosticados". Con fines ilustrativos, para mostrar que ambas fórmulas se usan ampliamente, compare las siguientes búsquedas web: residual "predicho menos real" residual "real...

residuals terminology error

45

Motivación para la distancia de Kolmogorov entre distribuciones

Hay muchas formas de medir cuán similares son las dos distribuciones de probabilidad. Entre los métodos que son populares (en diferentes círculos) están: la distancia de Kolmogorov: la distancia superior entre las funciones de distribución; la distancia de Kantorovich-Rubinstein: la diferencia...

distributions probability hypothesis-testing mathematical-statistics

45

Cómo realizar una prueba usando R para ver si los datos siguen una distribución normal

Tengo un conjunto de datos con la siguiente estructura: a word | number of occurrence of a word in a document | a document id ¿Cómo puedo realizar una prueba de distribución normal en R? Probablemente sea una pregunta fácil, pero soy un novato de

r distributions normality-assumption

45

¿Qué es la desviación? (específicamente en CART / rpart)

¿Qué es la "desviación", cómo se calcula y cuáles son sus usos en diferentes campos de las estadísticas? En particular, estoy personalmente interesado en sus usos en CART (y su implementación en rpart en R). Estoy preguntando esto ya que el artículo wiki parece algo deficiente y sus ideas serán...

r cart rpart deviance

45

Usando R en línea - sin instalarlo [cerrado]

¿Existe la posibilidad de usar R en una interfaz web sin la necesidad de instalarlo? Solo tengo un pequeño script que me gusta ejecutar, pero solo quiero intentarlo sin un largo procedimiento de

r

45

¿Cómo se calcula la función de densidad de probabilidad del máximo de una muestra de variables aleatorias uniformes de IID?

Dada la variable aleatoria Y=max(X1,X2,…,Xn)Y=max(X1,X2,…,Xn)Y = \max(X_1, X_2, \ldots, X_n) donde XiXiX_i son variables uniformes IID, ¿cómo calculo el PDF de YYY

pdf maximum

45

¿Cómo interpretar ANOVA y MANOVA tipo I, tipo II y tipo III?

Mi pregunta principal es cómo interpretar la salida (coeficientes, F, P) al realizar un ANOVA tipo I (secuencial). Mi problema de investigación específico es un poco más complejo, por lo que dividiré mi ejemplo en partes. Primero, si estoy interesado en el efecto de la densidad de la araña (X1)...

r hypothesis-testing anova manova sums-of-squares

45

Regresión cuando los residuos de OLS no se distribuyen normalmente

Hay varios hilos en este sitio que discuten cómo determinar si los residuos de OLS se distribuyen asintóticamente normalmente. Otra forma de evaluar la normalidad de los residuos con el código R se proporciona en este excelente respuesta . Esta es otra discusión sobre la diferencia práctica entre...

regression least-squares residuals assumptions normality-assumption

45

¿Existe algún estándar de oro para modelar series temporales espaciadas irregularmente?

En el campo de la economía (creo) tenemos ARIMA y GARCH para series de tiempo regularmente espaciadas y Poisson, Hawkes para procesos de puntos de modelado, entonces, ¿qué hay de los intentos de modelar series de tiempo espaciadas irregularmente (de manera desigual)? Existen (al menos) prácticas...

time-series garch poisson-process point-process unevenly-spaced-time-series