Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación):
id, age, income, gender, job category, monthly spend
en el cual monthly spend
está la variable de respuesta. Pero el conjunto de datos de entrenamiento contiene aproximadamente 3 millones de filas, y el conjunto de datos (que contiene id, age, income, gender, job category
pero sin variable de respuesta) para predecir contiene 1 millón de filas. Mi pregunta es: ¿hay algún problema potencial si arrojo demasiadas filas (3 millones en este caso) en un modelo estadístico? Entiendo que los gastos computacionales son una de las preocupaciones, ¿hay alguna otra preocupación? ¿Hay libros / documentos que expliquen completamente el problema del tamaño del conjunto de datos?
fuente
Respuestas:
Hay dos tipos de problemas que puede encontrar:
1) Problemas informáticos porque el conjunto de datos es demasiado grande. En estos días, unos pocos millones de filas con 6 columnas no son tan grandes. Pero, dependiendo de su programa, su computadora, su cantidad de RAM y probablemente otras cosas, podría atascarse.
2) Problemas estadísticos. Aquí, un problema como el que usted discute tendrá un "problema" que conozco: incluso los efectos pequeños serán muy significativos. Esto no es realmente un problema con la regresión, es un problema con los valores de p. Es mejor observar los tamaños de los efectos (parámetros de regresión).
3) Otro tipo de problema con su modelo no se debe al número de filas, sino a la naturaleza de la variable de respuesta (gasto mensual). Aunque la regresión OLS no hace suposiciones sobre la distribución de la respuesta (solo sobre el error), sin embargo, los modelos con dinero como variable dependiente a menudo tienen errores no normales. Además, a menudo tiene sentido, sustantivamente, tomar el registro de la respuesta. Si esto es así en su caso depende exactamente de lo que está tratando de hacer.
fuente
Lo importante es la cantidad de individuos (filas) en comparación con la cantidad de coeficientes que necesita estimar para el modelo que desea ajustar. Las reglas generales típicas sugieren como mínimo unas 20 observaciones por coeficiente, por lo que debería poder estimar hasta 150,000 coeficientes, seguramente más que adecuados para sus cuatro predictores.
De hecho, tiene una oportunidad, no un problema, en este caso: ajustar un modelo bastante complejo que incluye relaciones no lineales de la respuesta a los predictores e interacciones entre predictores; que puede predecir la respuesta mucho mejor que una simple en la que se supone que las relaciones de la respuesta a los predictores son lineales y aditivas.
fuente