Suponga que quiere ir a pescar al lago cercano de 8 a.m. a 8 p.m. Debido a la sobrepesca, se ha establecido una ley que dice que solo puede pescar un pez por día. Cuando pescas un pez, puedes optar por mantenerlo (y así ir a casa con ese pez), o tirarlo de vuelta al lago y continuar pescando (pero te arriesgas a establecerte más tarde con un pez más pequeño o sin pez). Quieres atrapar un pez lo más grande posible; específicamente, desea maximizar la masa esperada de pescado que lleva a casa.
Formalmente, podríamos configurar este problema de la siguiente manera: los peces se capturan a una cierta velocidad (por lo tanto, el tiempo que lleva capturar su próximo pez sigue una distribución exponencial conocida), y el tamaño de los peces capturados sigue una distribución (también conocida) . Queremos un proceso de decisión que, dada la hora actual y el tamaño de un pez que acaba de atrapar, decida si desea conservar el pez o devolverlo.
Entonces la pregunta es: ¿cómo se debe tomar esta decisión? ¿Hay alguna forma simple (o complicada) de decidir cuándo dejar de pescar? Creo que el problema es equivalente a determinar, durante un tiempo t, qué masa esperada de peces se llevaría a casa un pescador óptimo si comenzaran en el tiempo t; el proceso de decisión óptimo mantendría a un pez si y solo si el pez es más pesado que la masa esperada. Pero eso parece una especie de autorreferencial; Estamos definiendo la estrategia de pesca óptima en términos de un pescador óptimo, y no estoy muy seguro de cómo proceder.
fuente
Respuestas:
Sea la tasa del proceso de Poisson y sea donde es la función de distribución acumulativa de la distribución del tamaño de los peces.λ S(x)=1−F(x) F(x)
Deje que denote el final del día y deje que , , denote la captura esperada en el intervalo que obtenemos si usamos la estrategia óptima. Claramente . Además, si capturamos un pez de tamaño en el momento , deberíamos mantenerlo y dejar de pescar si es más grande que . Entonces esta es nuestra regla de decisión. Por lo tanto, la realización del proceso y la decisión realizada (punto verde) puede tener el siguiente aspecto:t=0 g(t) t≤0 (t,0) g(0)=0 x t g(t)
Trabajando en tiempo continuo, usando ideas de programación dinámica estocástica , el cambio en hacia atrás en el tiempo se describe mediante una ecuación diferencial simple. Considere un intervalo de tiempo infinitesimal . La probabilidad de que capturemos un pez de tamaño en este intervalo de tiempo es contrario nuestra captura esperada será .g(t) (t−dt,t) X>g(t) λdtS(g(t)), g(t)
Usando una fórmula para la vida residual media , el tamaño esperado de un pez mayor que comog(t) E(X|X>g(t))=g(t)+1S(g(t))∫∞g(t)S(x)dx.
Por lo tanto, utilizando la ley de la expectativa total, la captura esperada en el intervalo convierte en(t−dt,0) g(t−dt)=[λdtS(g(t))][g(t)+1S(g(t))∫∞g(t)S(x)dx]+[1−λdtS(g(t)]g(t).
Reorganizando, encontramos que satisface Observe cómo hacia el final del día disminuye a una tasa igual al producto de la tasa de Poisson y el tamaño medio del pez que refleja que ese punto será mejor mantener cualquier pez que podamos atraparg(t) dgdt=−λ∫∞g(t)S(x)dx.(1) g(t) λ ∫∞0S(x)dx
Ejemplo 1 : suponga que el tamaño de los peces es tal que . La ecuación (1) luego se simplifica a que es una ecuación diferencial separable. Usando la condición límite anterior, la solución es para muestra en la Figura anterior para . El siguiente código compara la captura media usando esta estrategia calculada en base a simulaciones con la media teórica .X∼exp(α) S(x)=e−αx dgdt=−λαe−αg(t) g(t)=1αln(1−λt), t≤0 α=λ=1 g(−12)
Ejemplo 2: Si una derivación similar conduce a como la solución de (1). Observe cómo tiende al tamaño máximo de pez como .X∼U(0,1) g(t)=1−11−λt/2 g(t) t→−∞
fuente