Estadísticas y Big Data

20

¿Qué pruebas utilizo para confirmar que los residuos se distribuyen normalmente?

Tengo algunos datos que parecen trazar una gráfica de residuos frente al tiempo casi normal, pero quiero estar seguro. ¿Cómo puedo comprobar la normalidad de los residuos de

hypothesis-testing normal-distribution assumptions

20

¿Por qué no se necesita la poda para árboles forestales al azar?

Breiman dice que los árboles se cultivan sin podar. ¿Por qué? Quiero decir que debe haber una razón sólida por la cual los árboles en un bosque aleatorio no se poden. Por otro lado, se considera muy importante podar un solo árbol de decisión para evitar un ajuste excesivo. ¿Hay alguna literatura...

machine-learning

20

Advertencia y validación cruzada de libsvm "alcanzando el número máximo de iteraciones"

Estoy usando libsvm en modo C-SVC con un núcleo polinomial de grado 2 y estoy obligado a entrenar múltiples SVM. Cada conjunto de entrenamiento tiene 10 características y 5000 vectores. Durante el entrenamiento, recibo esta advertencia para la mayoría de los SVM que entreno: WARNING: reaching max...

machine-learning cross-validation svm regularization libsvm

20

Prueba t emparejada versus no emparejada

Supongamos que tengo 20 ratones. Emparejo los ratones de alguna manera, de modo que obtengo 10 pares. Para el propósito de esta pregunta, podría ser un emparejamiento aleatorio, O podría ser un emparejamiento sensato, como tratar de emparejar ratones de la misma camada, del mismo sexo, con un peso...

t-test paired-data

20

¿Cuán robusto es el coeficiente de correlación de Pearson con las violaciones de la normalidad?

Los datos para ciertos tipos de variables tienden a ser no normales cuando se miden en poblaciones particulares (por ejemplo, niveles de depresión en una población de personas con trastorno depresivo mayor). Dado que Pearson asume la normalidad, ¿cuán robusto es el estadístico de prueba en...

correlation

20

¿Cómo funciona una distribución de Poisson al modelar datos continuos y resulta en pérdida de información?

Una compañera de trabajo está analizando algunos datos biológicos para su disertación con cierta heterocedasticidad desagradable (figura a continuación). Lo está analizando con un modelo mixto pero todavía tiene problemas con los residuos. La transformación logarítmica de las variables de...

mixed-model poisson-distribution biostatistics

20

¿Podemos ver la forma de la curva normal en algún lugar de la naturaleza?

No quiero saber si algunos fenómenos en la naturaleza tienen una distribución normal, sino si podemos ver en alguna parte la forma de la curva normal como podemos verla, por ejemplo, en el cuadro de Galton. Ver esta figura de Wikipedia. Tenga en cuenta que muchas formas o curvas matemáticas se...

distributions normality-assumption

20

¿Por qué las distribuciones de probabilidad se denotan con una tilde?

¿Cuál es el significado de la tilde al especificar distribuciones de probabilidad? Por ejemplo: Z∼Normal(0,1).Z∼Normal(0,1).Z \sim

probability distributions notation

20

Transformación para aumentar la curtosis y la asimetría de la RV normal.

Estoy trabajando en un algoritmo que se basa en el hecho de que las observaciones s se distribuyen normalmente, y me gustaría probar empíricamente la robustez del algoritmo a este supuesto.YYY Para hacer esto, yo estaba buscando una secuencia de transformaciones que pueda interrumpir...

data-transformation normality-assumption skewness kurtosis

20

¿Las variables aleatorias están correlacionadas si y solo si sus rangos están correlacionados?

Suponga que son variables aleatorias continuas con segundos momentos finitos. La versión de población del coeficiente de correlación de rango de Spearman se puede definir como el coeficiente de momento del producto de Pearson ρ de las integrales de probabilidad transforma y F_Y (Y) , donde F_X, F_Y...

correlation pearson-r spearman-rho

20

¿Por qué no funciona la propagación hacia atrás cuando inicializa los pesos con el mismo valor?

¿Por qué no funciona la propagación hacia atrás cuando inicializa todo el peso con el mismo valor (digamos 0.5), pero funciona bien cuando se le dan números aleatorios? ¿No debería el algoritmo calcular el error y trabajar desde allí, a pesar de que los pesos son inicialmente los...

machine-learning neural-networks backpropagation

20

Supervisión distante: supervisada, semi-supervisada, o ambas?

La "supervisión distante" es un esquema de aprendizaje en el que se aprende un clasificador dado un conjunto de entrenamiento débilmente etiquetado (los datos de entrenamiento se etiquetan automáticamente según la heurística / reglas). Creo que tanto el aprendizaje supervisado como el aprendizaje...

machine-learning data-mining dataset references unsupervised-learning

20

Prueba de separabilidad lineal

¿Hay alguna forma de probar la separabilidad lineal de un conjunto de datos de dos clases en altas dimensiones? Mis vectores de características son de 40 de largo. Sé que siempre puedo ejecutar experimentos de regresión logística y determinar la tasa de aciertos frente a la tasa de falsas alarmas...

machine-learning classification

20

¿Cómo interpretar el término de intercepción en un GLM?

Estoy usando R y he estado analizando mis datos con GLM con el enlace Binomial. Quiero saber cuál es el significado de la intercepción en la tabla de salida. La intercepción de uno de mis modelos es significativamente diferente, sin embargo, la variable no lo es. ¿Qué significa esto? ¿Qué es la...

r generalized-linear-model

20

Sandwich estimador intuición

Wikipedia y la viñeta del paquete sándwich R brindan buena información sobre los supuestos que respaldan los errores estándar del coeficiente MCO y los antecedentes matemáticos de los estimadores sándwich. Sin embargo, todavía no estoy claro cómo se aborda el problema de la heteroscedasticidad...

multiple-regression residuals heteroscedasticity robust-standard-error

20

Conexión entre la métrica de Fisher y la entropía relativa

¿Alguien puede probar la siguiente conexión entre la métrica de información de Fisher y la entropía relativa (o divergencia KL) de una manera puramente matemática rigurosa? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) )...

mathematical-statistics kullback-leibler fisher-information

20

¿Qué sucede cuando incluyo una variable al cuadrado en mi regresión?

Comienzo con mi regresión OLS: donde D es una variable ficticia, las estimaciones se vuelven diferentes de cero con un valor p bajo. Luego realizo una prueba Ramsey RESET y descubro que tengo alguna especificación incorrecta de la ecuación, por lo tanto, incluyo x al cuadrado: y = β 0 + β 1 x 1...

regression multiple-regression interpretation least-squares polynomial

20

Algoritmo EM implementado manualmente

Quiero implementar el algoritmo EM manualmente y luego compararlo con los resultados normalmixEMdel mixtoolspaquete. Por supuesto, sería feliz si ambos conducen a los mismos resultados. La referencia principal es Geoffrey McLachlan (2000), Modelos de mezclas finitas . Tengo una densidad de mezcla...

r expectation-maximization gaussian-mixture

20

¿Qué es el aprendizaje de refuerzo recurrente?

Recientemente me encontré con la palabra "Aprendizaje de refuerzo recurrente". Entiendo qué es "Red neuronal recurrente" y qué es "Aprendizaje de refuerzo", pero no pude encontrar mucha información sobre lo que es un "Aprendizaje de refuerzo recurrente". ¿Puede alguien explicarme qué es un...

machine-learning reinforcement-learning

20

Valor esperado y varianza de log (a)

Tengo una variable aleatoria donde a es normal distribuido . ¿Qué puedo decir sobre y ? Una aproximación también sería útil.X(a)=log(a)X(a)=log⁡(a)X(a) = \log(a)N(μ,σ2)N(μ,σ2)\mathcal

normal-distribution mathematical-statistics random-variable lognormal logarithm