Estadísticas y Big Data

8
¿Por qué usar bayesglm?

Mi pregunta general es: ¿por qué usar en bayesglmlugar de otros métodos de clasificación? Nota: Solo me interesa la predicción. Tengo una cantidad decente de datos (~ 100,000 obs). Siento que el tamaño de la muestra es lo suficientemente grande como para que los parámetros de una regresión...

8
Buscando el 'codo' en los datos

La subitización es la enumeración rápida y precisa de las pantallas de baja numerosidad, que se distingue del conteo por una no linealidad aguda en la gráfica de tiempos de respuesta. A continuación se muestra una trama representativa, de Watson, DG, Maylor, EA y Bruce, LAM (2007). Observe que los...

8
Mapas autoorganizados versus kernel k-means

Para una aplicación, quiero agrupar datos (potencialmente de alta dimensión) y extraer la probabilidad de pertenecer a un clúster. Considero en este momento mapas autoorganizados o kernel k-means para hacer el trabajo. ¿Cuáles son los pros y los contras de cada clasificador para esta tarea? ¿Me...

8
Demostración del sesgo cuantil de muestra

Mientras hacía algunas simulaciones, me di cuenta de que el cuantil de la muestra es un estimador sesgado del verdadero cuantil. Y, según mis simulaciones, una potencialmente muy sesgada. Me sorprendió ese resultado ya que el CDF empírico no está sesgado, pero después de un poco de investigación...

8
Ejemplos para una clase SVM en R

Estoy tratando de hacer SVM de una clase en R. He estado tratando de usar el paquete kernlab e1071 / ksvm. Pero no estoy seguro si lo estoy haciendo correctamente. ¿Hay algún ejemplo de trabajo para SVM de una clase en R? También, Estoy dando una gran matriz de predictores como X. Dado que se...

8
Cuando n aumenta, el valor t aumenta en una prueba de hipótesis, pero la tabla t es todo lo contrario. ¿Por qué?

La fórmula para en una prueba de hipótesis viene dada por: tttt=X¯−μσ^/n−−√.t=X¯−μσ^/n. t=\frac{\bar{X}-\mu}{\hat \sigma/\sqrt{n}}. Cuando aumenta, el valor aumenta de acuerdo con la fórmula anterior. Pero, ¿por qué disminuye el valor crítico en la tabla cuando (que es una función de )...

8
Modelo de factorización matricial para sistemas de recomendación ¿cómo determinar el número de características latentes?

Estoy tratando de diseñar una técnica de factorización matricial para un simple sistema de recomendación de calificación de elementos de usuario. Tengo 2 preguntas sobre esto. Primero, en una implementación simple que vi de la técnica de factorización matricial para la recomendación de películas,...