Deje que esté en . ¿Cuáles son la media y la matriz de covarianza de (con el máximo calculado por elemento)?
Esto surge, por ejemplo, porque, si usamos la función de activación ReLU dentro de una red profunda, y asumimos a través del CLT que las entradas a una capa dada son aproximadamente normales, entonces esta es la distribución de las salidas.
(Estoy seguro de que muchas personas han calculado esto antes, pero no pude encontrar el resultado enumerado en ninguna parte de una manera razonablemente legible).
Respuestas:
Primero podemos reducir esto para depender solo de ciertos momentos de distribuciones normales univariadas / bivariadas: tenga en cuenta, por supuesto, que
Usaremos algunos resultados de
Rosenbaum considera y considera el truncamiento al evento .
Específicamente, usaremos los siguientes tres resultados, his (1), (3) y (5). Primero, defina lo siguiente:
Ahora, Rosenbaum muestra que:
Será útil considerar también el caso especial de (1) y (3) con , es decir, un truncamiento 1d:ay=−∞
Ahora queremos considerar
Usaremos que son los valores de y cuando , .
Ahora, usando (*), obtenemos y usando tanto (*) como (**) produce para que
Para encontrar , necesitaremosCov(X+,Y+)
Aquí hay un código de Python para calcular los momentos:
y una prueba de Monte Carlo de que funciona:
lo que da10,000,000
0.000572145310512 0.00298692620286
, lo que indica que la expectativa y la covarianza alegadas coinciden con las estimaciones de Monte Carlo (basadas en muestras).fuente