Necesito asegurarme de que mi mapa del sitio XML tenga menos del basura (enlaces rotos). La lista de URL está en los cientos de miles, e incluso si pudiera ser factible probarlos todos 1 por 1, preferiría no hacerlo, por muchas razones:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Entonces, creo que tomar un subconjunto aleatorio sería suficiente, el problema es que no sé las probabilidades.
¿Hay una función simple que pueda usar?
Si ayuda, podemos suponer que tenemos una información a priori sobre la probabilidad de que un enlace se rompa entre ejecuciones. Digamos que en las ejecuciones hay un para que se rompa cualquier enlace dado.
Respuestas:
Por lo tanto, depende de la distribución de su creencia anterior sobre la tasa de rotura, pero: alrededor de 3600.
La idea aquí es modelar roturas de enlaces como un ensayo de Bernoulli, y modelar sus creencias sobre la tasa de rotura como la distribución beta. La distribución beta se conjuga con la distribución de Bernoulli , y la forma de actualizar una distribución beta cuando ejecuta una prueba es bastante simple:
fuente
fuente