EDITAR: Estoy más interesado en los problemas técnicos y la metodología para determinar la probabilidad de un máximo "verdadero" en una población dada dada una estadística de muestra. Hay problemas para estimar la probabilidad de que los corredores sean más rápidos que el Sr. Bolt a partir de tiempos de guiones que establecen récords que son obvios y sutiles. Compláceme imaginando que este no sea el caso.
Usain Bolt es el humano más rápido medido para la carrera de 100 m. Sin embargo, dado el pequeño número de atletas, parece probable que el "verdadero" humano más rápido con vida esté sentado en un sofá en algún lugar y nunca haya intentado una carrera competitiva.
Estoy tratando de usar el hecho de que la diferencia entre las muestras en las colas de la distribución normal se hace cada vez más pequeña. Estoy usando esto para calcular la probabilidad de que exista alguien más rápido que Usain Bolt al comparar a Usain con el segundo más rápido, el tercero más rápido, etc.
Para hacer esto, yo estoy tratando de calcular el valor más grande que existe más allá "Usain Bolt" tomando la derivada de CDF de la distribución normal con respecto a , levantando eso al º (donde es de aproximadamente 7000 millones o el número de muestras menos que el "máximo" - la lógica detrás de esto se describe en la página de Wikipedia sobre problemas de tanques alemanes que se generaliza entre diferentes distribuciones), por ejemplo:
¿Es esta una forma válida de calcular la probabilidad de que exista alguien más rápido que Usain Bolt?
¿Hay un nombre para este tipo de pregunta fuera del "Problema del tanque alemán para otras distribuciones"
¿Hay una buena manera de estimar la desviación estándar de las muestras extremas de una distribución? Encontrar información sobre los 100m más rápidos de todos los tiempos es fácil, encontrar promedios y variaciones es difícil)
Gracias por su paciencia al tratar con un programador sin experiencia en el tema.
Respuestas:
Al contrario de otras respuestas, argumentaría que puedes decir algo sobre las habilidades de los Bolts dados los datos disponibles. En primer lugar, reduzcamos su pregunta. Estás preguntando por el humano más rápido, pero dado que hay una diferencia en la distribución de las velocidades de carrera para hombres y mujeres, donde las mejores corredoras parecen ser un poco más lentas que las mejores corredoras, debemos centrarnos en los corredores masculinos. Para obtener algunos datos, podemos ver las mejores actuaciones anuales en 100 carreras de los últimos 45 años . Hay varias cosas que notar sobre estos datos:
Primero, analicemos cómo no analizar estos datos. Se podría notar que si graficamos los tiempos de ejecución contra el tiempo, observaríamos una fuerte relación lineal.
Esto podría llevarlo a usar la regresión lineal para pronosticar cuánto mejor corredores podríamos observar en los próximos años. Sin embargo, esto sería una muy mala idea, que inevitablemente lo llevaría a la conclusión de que en aproximadamente dos mil años los humanos podrían correr 100 metros en cero segundos, ¡y luego comenzarían a alcanzar los tiempos de ejecución negativos! Esto es obviamente absurdo, ya que podemos imaginar que existe algún tipo de límite biológico y físico de nuestras capacidades, que desconocemos.
X 1 , X 2 , … , X n Y i Z 1 , Z 2 , … , Z k - Z iY=max(X1,X2,…,Xn) X1,X2,…,Xn Yi Z1,Z2,…,Zk −Zi Siga una distribución de GEV para minimas. Por lo tanto, podemos adaptar la distribución de GEV a los datos de velocidad de funcionamiento, lo que conduce a un ajuste bastante agradable (ver más abajo).
Si observa la distribución acumulativa sugerida por el modelo, notará que el mejor tiempo de ejecución de Usain Bolt está en el más bajo1% cola de la distribución. Entonces, si nos atenemos a estos datos y a este análisis de ejemplo de juguete, concluiríamos que los tiempos de ejecución mucho más pequeños son poco probables (pero obviamente posibles). El problema obvio con este análisis es que ignora el hecho de que vimos mejoras anuales de los mejores tiempos de ejecución. Esto nos lleva de vuelta al problema descrito en la primera parte de la respuesta, es decir, asumir que un modelo de regresión aquí es arriesgado. Otra cosa que podría mejorarse es que podríamos usar el enfoque bayesiano y asumir información previa que explicaría algún conocimiento fuera de los datos sobre los tiempos de ejecución fisiológicamente posibles, que aún no se han observado (pero, hasta donde yo sé, esto es desconocido en este momento). Finalmente, la teoría del valor extremo similar ya se usó en la investigación deportiva, por ejemplo, por Einmahl y Magnus (2008) en elExpedientes en atletismo a través de la teoría del valor extremo .
Podrías protestar porque no preguntaste sobre la probabilidad del tiempo de carrera más rápido, sino sobre la probabilidad de observar al corredor más rápido. Desafortunadamente, aquí no podemos hacer mucho ya que no sabemos cuál es la probabilidad de que un corredor se convierta en un atleta profesional y los tiempos de carrera registrados estarán disponibles para él. Esto no sucede al azar y hay muchos factores que contribuyen al hecho de que algunos corredores se convierten en atletas profesionales y otros no (o incluso que a alguien le gusta correr y correr). Para esto, tendríamos que tener datos detallados de toda la población sobre los corredores, además, dado que usted está preguntando sobre los extremos de la distribución, los datos tendrían que ser muy grandes. Entonces en esto, estoy de acuerdo con las otras respuestas.
fuente
Mi primer instinto es que esta es una mala idea, pero déjenme explicar un poco por qué.
1) Desea medir una variable no observable, habilidad de carrera latente, con una observable, tiempos de ejecución registrados. Eso está bien, pero: en el problema del tanque alemán, los números de serie se generan a partir de la misma distribución uniforme. En su problema, debe inferir la habilidad variable latente (de 7 mil millones de personas) a partir de los tiempos de ejecución variables observables. En el GTP, se conocen múltiples números de serie. En su problema, no ha recopilado datos en absoluto y solo está llegando al máximo (Bolt). Además, parece suponer que esta habilidad latente no observable no está correlacionada con los tiempos de ejecución reales hasta el punto en que es posible que alguien que nunca ha corrido sea mejor que Bolt. ¡Simplemente parece absurdo!
2) Los atletas no son muestras aleatorias de la población. Son seleccionados cuidadosamente por múltiples ensayos. Si asumimos que todos los que son capaces de correr probablemente han competido con alguien al menos una vez en su vida y que cada persona ha tomado una decisión sobre si deben continuar a un nivel más alto de competencia en función de la frecuencia o de cuánto ganan razas --- entonces no parece tan inverosímil que Bolt sea realmente el ser humano más rápido que existe.
Estas son solo las primeras razones que me vienen a la mente. Honestamente, estás haciendo un poco de tontería con esto. No hay forma de medir la "probabilidad" del tipo de cosas de las que estás hablando.
fuente
La respuesta es no.
Supone que hay una muestra de la población (atletas) y que Bolt es el máximo en esta muestra. Entonces, está buscando la probabilidad de que el máximo de población sea mayor que el máximo de muestra. Esa es tu hipótesis.
¿Qué pasa si su suposición es errónea y la muestra era de hecho la población?
Puedo hacer un argumento razonable de que cada persona que puede correr tuvo la oportunidad de vencerlo. Nadie lo hizo, así que él es el verdadero máximo de la población de la Tierra.
Está claro que los atletas no son una muestra aleatoria. Espero que no haya dudas sobre esto. Hay un grado de aleatoriedad en cómo uno se convierte en atleta, por supuesto. Por otro lado, si uno no es un atleta, entonces sus habilidades y logros atléticos no se compararán con el atleta. Puedo asumir que alguien PODRÍA CORRER POTENCIALMENTE más rápido que Bolt dadas todas las condiciones para entrenar Y HABER entrenado tan duro como Bolt. Sin embargo, es cero la probabilidad de que atraigas a un no atleta y este le gana a Bolt en 100 metros en condiciones de pista y campo.
fuente