Preguntas etiquetadas con large-data

12
Bondad de ajuste para muestras muy grandes

Recopilo muestras muy grandes (> 1,000,000) de datos categóricos cada día y quiero ver que los datos se vean "significativamente" diferentes entre días para detectar errores en la recopilación de datos. Pensé que usar una prueba de buen ajuste (en particular, una prueba G) sería un buen ajuste...

12
¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?

Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <-...

12
Prueba de hipótesis con Big Data

¿Cómo se realizan las pruebas de hipótesis con Big Data? Escribí el siguiente script de MATLAB para enfatizar mi confusión. Todo lo que hace es generar dos series aleatorias y ejecutar una regresión lineal simple de una variable sobre la otra. Realiza esta regresión varias veces utilizando...

10
¿Tiene sentido calcular intervalos de confianza y probar hipótesis cuando hay datos disponibles de toda la población?

¿Tiene sentido calcular intervalos de confianza y probar hipótesis cuando hay datos disponibles de toda la población? En mi opinión, la respuesta es no, ya que podemos calcular con precisión los valores verdaderos de los parámetros. Pero entonces, ¿cuál es la proporción máxima de datos de la...