¿Cómo usar / interpretar la distribución empírica?

8

En primer lugar, me gustaría disculparme por el título impreciso, en este momento no podría formular uno mejor, por favor, siéntase libre de cambiar o aconsejarme que cambie el título para que se ajuste mejor al núcleo de la pregunta. .

Ahora, sobre la pregunta en sí, he estado trabajando en un software en el que me he encontrado con la idea de usar una distribución empírica para el muestreo, sin embargo, ahora que está implementado, no estoy seguro de cómo interpretarlo todo. Permítame describir lo que he hecho y por qué:

Tengo un montón de cálculos para un conjunto de objetos, obteniendo una puntuación final. Sin embargo, el puntaje es muy ad-hoc. Entonces, para tener sentido de la puntuación de un objeto en particular, lo que hago es hacer un gran número de (N = 1000) cálculos de puntajes con valores simulados / generados aleatoriamente, produciendo 1000 puntajes simulados. La estimación de una "distribución de puntaje" empírica para ese objeto en particular se logra con estos valores de puntaje de 1000 simulacros.

He implementado esto en Java (ya que el resto del software también está escrito en un entorno Java) usando la biblioteca Apache Commons Math , en particular la EmpiricalDistImplclase . De acuerdo con la documentación que utiliza esta clase:

lo que equivale al Método de Kernel Variable con suavizado Gaussiano: Digestión del archivo de entrada

  1. Pase el archivo una vez para calcular min y max.
  2. Divida el rango de min-max en binCount "bins".
  3. Vuelva a pasar el archivo de datos, calcule los recuentos de contenedores y las estadísticas univariadas (media, desarrollo estándar) para cada uno de los contenedores
  4. Divida el intervalo (0,1) en subintervalos asociados con los contenedores, con la longitud del subintervalo de un contenedor proporcional a su recuento.

Ahora mi pregunta es, ¿tiene sentido tomar muestras de esta distribución para calcular algún tipo de valor esperado? En otras palabras, ¿en cuánto podría confiar / confiar en esta distribución? ¿Podría, por ejemplo, sacar conclusiones sobre la importancia de observar una puntuación al verificar la distribución?S

Me doy cuenta de que esta es quizás una forma poco ortodoxa de ver un problema como este, pero creo que sería interesante comprender mejor el concepto de distribuciones empíricas y cómo se pueden / no se pueden usar en el análisis.

posdef
fuente
Si lo entendí correctamente, su distribución final es básicamente tan buena como sus "valores simulados / generados aleatoriamente" para los objetos. Entonces, ¿crees que has probado bien la distribución de tus "objetos"?
AVB
@AVB: no tanto la distribución del objeto sino la distribución de las puntuaciones para un objeto en particular. Supongo que mi objetivo es: A) Asegurarme de que el cálculo de la puntuación sea sólido y no sesgado hacia las diferentes propiedades de los objetos en cuestión; y B) Para poder decir algo sobre la importancia de la puntuación calculada a partir de datos experimentales reales
posdef
Podría considerar tomar más muestras de sus objetos.
John Salvatier
@John: ¿te refieres a aumentar el número de 1000 a, digamos 10K? Estaba pensando en eso también, sin embargo, no estaba seguro de qué tan bien valdría la pena, teniendo en cuenta el tiempo de cálculo. ¿Alguna idea sobre eso?
posdef
No sé de una manera fácil de cuantificar la diferencia. Puede ser instructivo mirar un montón de histogramas o densidades del núcleo (con los ojos) con diferentes números de puntos.
John Salvatier

Respuestas:

5

Las distribuciones empíricas se usan todo el tiempo para inferencia, ¡así que definitivamente estás en el camino correcto! Uno de los usos más comunes de las distribuciones empíricas es para el arranque. De hecho, ni siquiera tiene que usar ninguna de las máquinas que describió anteriormente. En pocas palabras, realiza muchos sorteos (con reemplazo) de las muestras originales de manera uniforme y los resultados se pueden usar para calcular los intervalos de confianza en las cantidades estadísticas calculadas previamente. Además, estas muestras tienen propiedades de convergencia teórica bien desarrolladas. Consulte el artículo de Wikipedia sobre el tema aquí .

Gary
fuente
Gracias por tu respuesta, Gary. Estoy familiarizado con los métodos de arranque, sin embargo, no estoy seguro de cómo (lea: en qué parte del análisis) sugiere que implemente el arranque. ¿De qué muestras originales estamos hablando?
posdef
Las muestras originales se refieren a las muestras que usó para construir su distribución empírica. Usted mencionó el uso de esta distribución para calcular estadísticas; Digamos por simplicidad la media. La forma de usar el bootstrap sería calcular una media con los puntos iniciales , llamémosla . Ahora tomamos muestras de arranque y calcular estimaciones de la media, . Luego puede solicitar este conjunto y las estadísticas de pedido le darán intervalos de confianza enN μ N M M { μ * i } M i = 1 μ NN=1000Nμ^NMM{μ^i}i=1Mμ^N
Gary
Gracias de nuevo por la explicación. Sin embargo, no estoy seguro de si esto es útil, cuando trato de estimar donde . Si quiere decir que puedo pasar de la estimación a un cálculo de probabilidad, entonces ciertamente me interesa ...x F 1000 ( x ) μ NP(x>xobs)xF^1000(x)μ^N
posdef
Creo que estoy un poco confundido por lo que estás buscando, así que haré todo lo posible para usar el ejemplo que has planteado. Para un valor fijo, digamos , deseamos estimar . Luego tomamos las muestras y obtenemos algún valor . Ahora tome replicantes de la muestra original y repita el mismo cálculo produciendo valores de , dando un CI en . El punto clave es que la muestra original puede obtener la estadística y el bootstrap le da al CI. Quizás la verdadera pregunta es qué quiere hacer con la distribución empírica. F ( y ) N = 1000 q M M q * qyF(y)N=1000q^MMq^q^
Gary