Haciendo regresiones en muestras de un archivo muy grande: ¿son las medias y los SE de los coeficientes de la muestra estimadores consistentes?

8

Tengo un archivo bastante larege 100M filas y 30 columnas más o menos en el que me gustaría ejecutar múltiples regresiones. Tengo un código especializado para ejecutar las regresiones en todo el archivo, pero lo que me gustaría hacer es extraer muestras aleatorias del archivo y ejecutarlas en R. La estrategia es: muestrear aleatoriamente N filas del archivo sin reemplazo ejecutar una regresión y guarde los coeficientes de interés, repita este proceso M veces con diferentes muestras para cada coeficiente, calcule las medias y los errores estándar de los coeficientes sobre M corridas.

Me gustaría interpretar la media calculada sobre M como una estimación de los valores de los coeficientes calculados en todo el conjunto de datos, y los errores estándar de las medias como estimaciones de los errores estándar de los coeficientes calculados en todo el conjunto de datos.

Los experimentos muestran que esta es una estrategia prometedora, pero no estoy seguro de la teoría subyacente. ¿Son mis estimadores consistentes eficientes e imparciales? Si son consistentes, ¿qué tan rápido deberían converger? ¿Qué compensaciones de M y N son las mejores?

Le agradecería mucho que alguien pudiera señalarme los artículos, libros, etc. con la teoría relevante.

Saludos y muchas gracias.

Joe Rickert

csgillespie
fuente
Joshep, si entiendo tu pregunta, el objetivo de tu trabajo sería demostrar que ejecutando análisis de regresión en muestras aleatorias obtuviste resultados similares a los de todo el conjunto de datos si se cumple el supuesto intercambiable. Mi pregunta es si alguien conoce alguna referencia en la que se haya utilizado este método.
Manuel Ramón

Respuestas:

5

Si puede suponer que sus filas de su matriz de datos son intercambiables, entonces su estrategia de modelado debería funcionar bien. Su método debe estar bien en las condiciones establecidas anteriormente por Gaetan Lion .

La razón por la cual su método funcionará ( dado el supuesto de intercambiabilidad ) es que se toma como un caso especial de bootstrap paramétrico en el que toma muestras de N filas de muestra grande, ajusta un modelo y almacena los coeficientes y repite este M veces (en la terminología tradicional de bootstrap, su M es equivalente a B ) y tome el promedio de las estimaciones del coeficiente M. También puede verlo desde un punto de vista de prueba de permutación.

Pero todos estos resultados son verdaderos si se cumple el supuesto ( difícil de verificar ) de intercambiabilidad. Si no se cumple el supuesto de intercambiabilidad, la respuesta en ese caso se vuelve un poco complicada. Probablemente necesite cuidar los subgrupos en sus datos que son intercambiables y realizar su proceso condicionado a estos subgrupos. Básicamente, modelado jerárquico.

suncoolsu
fuente
Hola suncoolsu Sí, creo que el supuesto de intercambiabilidad es crucial. Gracias por señalar eso. ¿Conoces algún resultado sobre las tasas de convergencia?
1
n12nnMM
n1/2O(n1/2)
Hola suncoolsu Gracias por la referencia. Lo aprecio mucho. Haré mi tarea.
4

N

Nβ^β^MMβ^avgMNM

β^MNMNYXYX

(1) y (2) son esquemas simples, pero no necesariamente eficientes. (Aunque puede que no importe, ya que solo tiene 30 variables). Hay mejores formas. Aquí hay un ejemplo: http://arxiv.org/abs/0710.1435

vqv
fuente
2

Cuanto mayor sea la muestra N, menor será el error estándar (mayor t estadística y menores los respectivos valores de p) asociados con todos sus coeficientes de regresión. Cuanto mayor sea M, más puntos de datos tendrá y menor será su error estándar de la media de los coeficientes sobre M recorridos. Tales medios deben tener un error estándar que normalmente se distribuye según el Teorema del límite central. En términos de convergencia de tales medios, no estoy seguro de que existan principios estadísticos que dicten esto. Sospecho que si su muestreo aleatorio está bien hecho (sin sesgo estructural, etc.) la convergencia debería ocurrir con bastante rapidez. Eso es algo que quizás tenga que observar empíricamente.

De lo contrario, su método parece bueno, no veo ningún problema con él.

Sympa
fuente
Hola Gaten, gracias por investigar esto. Todavía no estoy seguro de entender la lógica. La muestra completa beta.hat es y una estimación de la versión beta verdadera. Mi muestra.mean.beta.hat es una estimación de beta.hat is not? ¿Es el argumento CLT que tanto beta.hat como sample.mean.beta.hat convergen entre sí?
@José. No estoy seguro de entender tu comentario. Solo usamos una sintaxis ligeramente diferente. No sé qué significa beta.hat. Mi punto fue que una muestra mayor de N le dará una mayor significación estadística (error estándar más bajo, estadística más alta, valor p más bajo) en todos los coeficientes de regresión dentro de una sola ejecución. Mientras tanto, el mayor número de iteraciones M le dará una mayor significación estadística para la media de cada coeficiente específico en todas las iteraciones. Son dos cosas diferentes.
Sympa
@Joseph, usando tu idioma. No estoy seguro de que el argumento CLT sugiera que tanto beta.hat como sample.mean.beta.hat converjan entre sí. Pero, que sus respectivas distribuciones de resultado (definidas por su error estándar alrededor de la media) se distribuirán normalmente. Creo que los dos beta.hat (s) convergerá hacia la otra, simplemente porque se vuelven más cada concretado o estadísticamente significativa cuando se utiliza una mayor N y mayor M.
Sympa