No busco un método plug and play como BEST in R, sino una explicación matemática de cuáles son algunos métodos bayesianos que puedo usar para probar la diferencia entre la media de dos muestras.
No busco un método plug and play como BEST in R, sino una explicación matemática de cuáles son algunos métodos bayesianos que puedo usar para probar la diferencia entre la media de dos muestras.
Estoy tratando de entender cuál es la similitud entre la asignación de Dirichlet latente y word2vec para calcular la similitud de palabras. Según tengo entendido, LDA asigna palabras a un vector de probabilidades de temas latentes , mientras que word2vec las asigna a un vector de números reales...
Cuando llevamos a cabo una regresión lineal para adaptarse a un grupo de puntos de datos ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) , el enfoque clásico minimiza el error al cuadrado. Durante mucho tiempo me ha intrigado una pregunta que minimizará el error al cuadrado producirá el mismo...
Soy un econ / stat major. Soy consciente de que los economistas han tratado de modificar sus suposiciones sobre el comportamiento humano y la racionalidad identificando situaciones en las que las personas no se comportan racionalmente. Por ejemplo, supongamos que le ofrezco una probabilidad del...
Quiero ver cómo 7 medidas de comportamiento de corrección de texto (tiempo dedicado a corregir el texto, número de pulsaciones de teclas, etc.) se relacionan entre sí. Las medidas están correlacionadas. Ejecuté un PCA para ver cómo se proyectaban las medidas en PC1 y PC2, lo que evitó la...
En mi opinión, la divergencia KL de la distribución de la muestra a la distribución verdadera es simplemente la diferencia entre entropía cruzada y entropía. ¿Por qué utilizamos la entropía cruzada para ser la función de costo en muchos modelos de aprendizaje automático, pero utilizamos la...
¿Cuál es la diferencia entre una población y una muestra? ¿Qué variables y estadísticas comunes se utilizan para cada una y cómo se relacionan entre
¿Cuál es la diferencia entre el aprendizaje fuera de línea y en línea ? ¿Es solo una cuestión de aprender sobre todo el conjunto de datos (sin conexión) versus aprender de forma incremental (una instancia a la vez)? ¿Cuáles son ejemplos de algoritmos utilizados en
Me gustaría poder generar eficientemente matrices de correlación semidefinidas positivas (PSD). Mi método se ralentiza dramáticamente a medida que aumento el tamaño de las matrices que se generarán. ¿Podría sugerir alguna solución eficiente? Si conoce algún ejemplo en Matlab, estaría muy...
Tengo un conjunto de datos de series de tiempo. Cada serie cubre el mismo período, aunque las fechas reales en cada serie de tiempo pueden no "alinearse" exactamente. Es decir, si las series temporales se leyeran en una matriz 2D, se vería así: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01...
Sé que esto es bastante específico Rpregunta, pero puede estar pensando en proporción de varianza explicado, R2R2R^2 , de forma incorrecta. Aquí va. Estoy tratando de usar el Rpaquete randomForest. Tengo algunos datos de entrenamiento y datos de prueba. Cuando ajusto un modelo de bosque aleatorio,...
¿Existen fórmulas bien conocidas para las estadísticas de orden de ciertas distribuciones aleatorias? Particularmente las estadísticas de primer y último orden de una variable aleatoria normal, pero también se agradecería una respuesta más general. Editar: para aclarar, estoy buscando fórmulas...
Quiero buscar un archivo .rda (conjunto de datos R). Sé sobre el View(datasetname)comando. El R.app predeterminado que viene para Mac no tiene un navegador de datos muy bueno (abre una ventana en X11). Me gusta el navegador de datos RStudio que se abre con el Viewcomando. Sin embargo, muestra solo...
Estoy intentando ejecutar una regresión de OLS: DV: cambio de peso durante un año (peso inicial - peso final) IV: Si haces ejercicio o no. Sin embargo, parece razonable que las personas más pesadas pierdan más peso por unidad de ejercicio que las personas más delgadas. Por lo tanto, quería...
Sé que con un modelo que no es identificable, se puede decir que los datos son generados por múltiples asignaciones diferentes a los parámetros del modelo. Sé que a veces es posible restringir los parámetros para que todos sean identificables, como en el ejemplo de Cassella & Berger, segunda...
Los clasificadores ingenuos de Bayes son una opción popular para los problemas de clasificación. Hay muchas razones para esto, que incluyen: "Zeitgeist": conciencia generalizada después del éxito de los filtros de spam hace aproximadamente diez años Fácil de escribir El modelo clasificador es...
En las estadísticas frecuentistas, existe una estrecha conexión entre los intervalos de confianza y las pruebas. Usando la inferencia sobre en la distribución como ejemplo, el intervalo de confianza \ bar {x} \ pm t _ {\ alpha / 2} (n-1) \ cdot s / \ sqrt {n} contiene todos los valores de \ mu...
Estoy haciendo una regresión multivariada de Cox, tengo mis variables independientes significativas y valores beta. El modelo se ajusta muy bien a mis datos. Ahora, me gustaría usar mi modelo y predecir la supervivencia de una nueva observación. No tengo claro cómo hacer esto con un modelo de Cox....
He notado que en R, Poisson y las regresiones binomiales negativas (NB) siempre parecen ajustarse a los mismos coeficientes para predictores categóricos, pero no continuos. Por ejemplo, aquí hay una regresión con un predictor categórico: data(warpbreaks) library(MASS) rs1 = glm(breaks ~...
El estimador de regresión cuantil condicional de Koenker y Basset (1978) para el cuantil se define como donde \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) es una función de re-ponderación (llamada función de "verificación") de los residuos u_i