Mi pregunta podría reformularse como "cómo evaluar un error de muestreo utilizando grandes datos", especialmente para una publicación de revista. Aquí hay un ejemplo para ilustrar un desafío.
De un conjunto de datos muy grande (> 100000 pacientes únicos y sus medicamentos recetados de 100 hospitales), me interesó estimar una proporción de pacientes que toman un medicamento específico. Es sencillo obtener esta proporción. Su intervalo de confianza (p. Ej., Paramétrico o bootstrap) es increíblemente estrecho / estrecho, porque n es muy grande. Si bien es una suerte tener un gran tamaño de muestra, todavía estoy buscando una forma de evaluar, presentar y / o visualizar algunas formas de probabilidades de error. Si bien parece inútil (si no es engañoso) poner / visualizar un intervalo de confianza (p. Ej., IC 95%: .65878 - .65881), también parece imposible evitar algunas declaraciones sobre la incertidumbre.
Por favor dejame saber lo que tu piensas. Agradecería cualquier literatura sobre este tema; formas de evitar la excesiva confianza en los datos, incluso con un gran tamaño de muestra.
Respuestas:
Este problema también ha surgido en algunas de mis investigaciones (como modelador de epidemias, tengo el lujo de crear mis propios conjuntos de datos, y con computadoras lo suficientemente grandes, pueden tener un tamaño esencialmente arbitrario. Algunas ideas:
El objetivo de los grandes conjuntos de datos es proporcionar estimaciones precisas, por lo que no creo que deba evitar esa precisión. Pero debe recordar que no puede mejorar los datos incorrectos simplemente recopilando grandes volúmenes de datos incorrectos.
fuente
Este problema ha surgido en mis propios manuscritos.
1. Opciones de informes: si solo tiene uno o unos pocos elementos de configuración para informar, el informe "(por ejemplo, IC del 95%: .65878 - .65881)" no es excesivamente detallado y resalta la precisión del elemento de configuración. Sin embargo, si tiene numerosos CI, entonces una declaración general podría ser más útil para el lector. Por ejemplo, generalmente informaré algo en el sentido de "con este tamaño de muestra, el margen de error de confianza del 95% para cada proporción fue menor que +/- .010". Por lo general, informo algo así en el Método, o en el título de Tabla o Figura, o en ambos.
2. Evitar el "exceso de confianza" incluso con un tamaño de muestra grande: con una muestra de 100,000, el teorema del límite central lo mantendrá seguro cuando reporte CIs para proporciones. Por lo tanto, en la situación que describió, debería estar bien, a menos que haya otras infracciones de supuestos de las que no tenga conocimiento (por ejemplo, iid violado).
fuente
No informe los intervalos de confianza. En su lugar, informe el tamaño exacto de la muestra y las proporciones. El lector podrá calcular sus propios IC de la forma que desee.
fuente
Considere la posibilidad de que las proporciones de 100 hospitales diferentes no converjan al mismo valor medio. ¿Probó la varianza entre grupos? Si hay una diferencia medible entre los hospitales, no se admite la suposición de que las muestras se generan a partir de una distribución normal común y no debe agruparlas.
Sin embargo, si sus datos realmente provienen de una muestra grande normalmente distribuida, entonces no encontrará "declaraciones sobre la incertidumbre" útiles como una propiedad de los datos, sino al reflexionar sobre por qué o por qué sus estadísticas no deberían generalizarse, debido a algún sesgo inherente en la colección, o falta de estacionariedad, etc., que debe señalar.
fuente