En primer lugar, me gustaría disculparme por el título impreciso, en este momento no podría formular uno mejor, por favor, siéntase libre de cambiar o aconsejarme que cambie el título para que se ajuste mejor al núcleo de la pregunta. .
Ahora, sobre la pregunta en sí, he estado trabajando en un software en el que me he encontrado con la idea de usar una distribución empírica para el muestreo, sin embargo, ahora que está implementado, no estoy seguro de cómo interpretarlo todo. Permítame describir lo que he hecho y por qué:
Tengo un montón de cálculos para un conjunto de objetos, obteniendo una puntuación final. Sin embargo, el puntaje es muy ad-hoc. Entonces, para tener sentido de la puntuación de un objeto en particular, lo que hago es hacer un gran número de (N = 1000) cálculos de puntajes con valores simulados / generados aleatoriamente, produciendo 1000 puntajes simulados. La estimación de una "distribución de puntaje" empírica para ese objeto en particular se logra con estos valores de puntaje de 1000 simulacros.
He implementado esto en Java (ya que el resto del software también está escrito en un entorno Java) usando la biblioteca Apache Commons Math , en particular la EmpiricalDistImpl
clase . De acuerdo con la documentación que utiliza esta clase:
lo que equivale al Método de Kernel Variable con suavizado Gaussiano: Digestión del archivo de entrada
- Pase el archivo una vez para calcular min y max.
- Divida el rango de min-max en binCount "bins".
- Vuelva a pasar el archivo de datos, calcule los recuentos de contenedores y las estadísticas univariadas (media, desarrollo estándar) para cada uno de los contenedores
- Divida el intervalo (0,1) en subintervalos asociados con los contenedores, con la longitud del subintervalo de un contenedor proporcional a su recuento.
Ahora mi pregunta es, ¿tiene sentido tomar muestras de esta distribución para calcular algún tipo de valor esperado? En otras palabras, ¿en cuánto podría confiar / confiar en esta distribución? ¿Podría, por ejemplo, sacar conclusiones sobre la importancia de observar una puntuación al verificar la distribución?
Me doy cuenta de que esta es quizás una forma poco ortodoxa de ver un problema como este, pero creo que sería interesante comprender mejor el concepto de distribuciones empíricas y cómo se pueden / no se pueden usar en el análisis.
fuente
Respuestas:
Las distribuciones empíricas se usan todo el tiempo para inferencia, ¡así que definitivamente estás en el camino correcto! Uno de los usos más comunes de las distribuciones empíricas es para el arranque. De hecho, ni siquiera tiene que usar ninguna de las máquinas que describió anteriormente. En pocas palabras, realiza muchos sorteos (con reemplazo) de las muestras originales de manera uniforme y los resultados se pueden usar para calcular los intervalos de confianza en las cantidades estadísticas calculadas previamente. Además, estas muestras tienen propiedades de convergencia teórica bien desarrolladas. Consulte el artículo de Wikipedia sobre el tema aquí .
fuente