Preguntas etiquetadas con large-data

9
Agrupación de espacio eficiente

La mayoría de los algoritmos de agrupación que he visto comienzan con la creación de una distancia de cada uno entre cada punto, lo que se vuelve problemático en conjuntos de datos más grandes. ¿Hay alguno que no lo haga? ¿O lo hace en algún tipo de enfoque parcial / aproximado / escalonado? ¿Qué...

9
Estimando la dimensión de un conjunto de datos

Un colega en estadísticas aplicadas me envió esto: "Me preguntaba si conoces alguna forma de descubrir la verdadera dimensión del dominio de una función. Por ejemplo, un círculo es una función unidimensional en un espacio bidimensional. Si no sé cómo dibujar, ¿hay un estadística que puedo...

9
Bootstrapping paramétrico, semiparamétrico y no paramétrico para modelos mixtos

Los siguientes injertos se toman de este artículo . Soy novato en bootstrap e intento implementar el bootstrapping paramétrico, semiparamétrico y no paramétrico para el modelo mixto lineal con R bootpaquete. Código R Aquí está mi

8
Bosque aleatorio en una configuración de Big Data

Tengo un conjunto de datos con 5.818.446 líneas y 51 columnas, de las cuales 50 son predictores. Mi respuesta es cuantitativa, así que estoy interesado en un modelo de regresión. Estoy tratando de ajustar un bosque aleatorio a mis datos usando el paquete caret. Sin embargo, no tengo suficiente RAM...

8
¿De qué sirven las matrices densas en estadística?

OK, no soy un estadístico (ni siquiera cerca). Soy un investigador de computación de alto rendimiento y quería algunos casos de prueba para matrices densas grandes (mayores de 5000x5000). Había preguntado aquí y en algunos otros lugares, pero nunca recibí respuesta de un estadístico. Estoy muy...

8
R como alternativa a SAS para datos grandes

Sé que R no es particularmente útil para analizar grandes conjuntos de datos dado que R carga todos los datos en la memoria, mientras que algo como SAS hace análisis secuenciales. Dicho esto, hay paquetes como bigmemory que permiten a los usuarios realizar análisis de datos grandes (análisis...

8
¿Por qué un modelo estadístico se sobreajusta si se le da un gran conjunto de datos?

Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación): id, age, income, gender, job category, monthly...