Tengo un archivo bastante larege 100M filas y 30 columnas más o menos en el que me gustaría ejecutar múltiples regresiones. Tengo un código especializado para ejecutar las regresiones en todo el archivo, pero lo que me gustaría hacer es extraer muestras aleatorias del archivo y ejecutarlas en R. La estrategia es: muestrear aleatoriamente N filas del archivo sin reemplazo ejecutar una regresión y guarde los coeficientes de interés, repita este proceso M veces con diferentes muestras para cada coeficiente, calcule las medias y los errores estándar de los coeficientes sobre M corridas.
Me gustaría interpretar la media calculada sobre M como una estimación de los valores de los coeficientes calculados en todo el conjunto de datos, y los errores estándar de las medias como estimaciones de los errores estándar de los coeficientes calculados en todo el conjunto de datos.
Los experimentos muestran que esta es una estrategia prometedora, pero no estoy seguro de la teoría subyacente. ¿Son mis estimadores consistentes eficientes e imparciales? Si son consistentes, ¿qué tan rápido deberían converger? ¿Qué compensaciones de M y N son las mejores?
Le agradecería mucho que alguien pudiera señalarme los artículos, libros, etc. con la teoría relevante.
Saludos y muchas gracias.
Joe Rickert
fuente
Respuestas:
Si puede suponer que sus filas de su matriz de datos son intercambiables, entonces su estrategia de modelado debería funcionar bien. Su método debe estar bien en las condiciones establecidas anteriormente por Gaetan Lion .
La razón por la cual su método funcionará ( dado el supuesto de intercambiabilidad ) es que se toma como un caso especial de bootstrap paramétrico en el que toma muestras de N filas de muestra grande, ajusta un modelo y almacena los coeficientes y repite este M veces (en la terminología tradicional de bootstrap, su M es equivalente a B ) y tome el promedio de las estimaciones del coeficiente M. También puede verlo desde un punto de vista de prueba de permutación.
Pero todos estos resultados son verdaderos si se cumple el supuesto ( difícil de verificar ) de intercambiabilidad. Si no se cumple el supuesto de intercambiabilidad, la respuesta en ese caso se vuelve un poco complicada. Probablemente necesite cuidar los subgrupos en sus datos que son intercambiables y realizar su proceso condicionado a estos subgrupos. Básicamente, modelado jerárquico.
fuente
(1) y (2) son esquemas simples, pero no necesariamente eficientes. (Aunque puede que no importe, ya que solo tiene 30 variables). Hay mejores formas. Aquí hay un ejemplo: http://arxiv.org/abs/0710.1435
fuente
Cuanto mayor sea la muestra N, menor será el error estándar (mayor t estadística y menores los respectivos valores de p) asociados con todos sus coeficientes de regresión. Cuanto mayor sea M, más puntos de datos tendrá y menor será su error estándar de la media de los coeficientes sobre M recorridos. Tales medios deben tener un error estándar que normalmente se distribuye según el Teorema del límite central. En términos de convergencia de tales medios, no estoy seguro de que existan principios estadísticos que dicten esto. Sospecho que si su muestreo aleatorio está bien hecho (sin sesgo estructural, etc.) la convergencia debería ocurrir con bastante rapidez. Eso es algo que quizás tenga que observar empíricamente.
De lo contrario, su método parece bueno, no veo ningún problema con él.
fuente