Supongamos que tengo muestras de dos poblaciones distintas. Si mido cuánto tiempo le toma a cada miembro hacer una tarea, puedo estimar fácilmente la media y la varianza de cada población.
Si ahora planteo una combinación aleatoria con un individuo de cada población, ¿puedo estimar la probabilidad de que el primero sea más rápido que el segundo?
Tengo un ejemplo concreto en mente: las mediciones son tiempos para mí ciclismo de A a B y las poblaciones representan diferentes rutas que podría tomar; Estoy tratando de averiguar cuál es la probabilidad de que elegir la ruta A para mi próximo ciclo sea más rápido que elegir la ruta B. Cuando realmente hago el ciclo, tengo otro punto de datos para mi conjunto de muestras :).
Soy consciente de que esta es una forma terriblemente simplista de tratar de resolver esto, sobre todo porque en cualquier día dado es más probable que el viento afecte mi tiempo que cualquier otra cosa, así que avísame si crees que estoy preguntando la pregunta equivocada ...
fuente
Respuestas:
Solución
Deje que las dos medias sean y μ y y sus desviaciones estándar sean σ x y σ y , respectivamente. La diferencia en los tiempos entre dos atracciones ( Y - X ), por lo tanto, tiene una media μ y - μ x y una desviación estándar √μX μy σX σy Y- X μy- μX . La diferencia estandarizada ("puntaje z") esσ2X+ σ2y------√
A menos que los tiempos de viaje tengan distribuciones extrañas, la posibilidad de que el viaje tarde más que el viaje X es aproximadamente la distribución acumulativa Normal, Φ , evaluada en z .Y X Φ z
Cálculo
Puede calcular esta probabilidad en uno de sus viajes porque ya tiene estimaciones de etc. :-). Para este propósito es fácil de memorizar unos valores clave de Φ : Φ ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) ≈ 0,16 ≈ 1 / 6 , Φ ( - 2 ) ≈ 0,022 ≈ 1 / 40 , y Φ ( - 3 ) ≈μx Φ Φ(0)=.5=1/2 Φ(−1)≈0.16≈1/6 Φ(−2)≈0.022≈1/40 . (La aproximación puede ser pobre para | z | mucho más grande que 2 , pero saber Φ ( - 3 ) ayuda con la interpolación.) En conjunción con Φ ( z ) = 1 - Φ ( - z ) y un poco de interpolación, usted puede estimar rápidamente la probabilidad a una cifra significativa, que es más que suficientemente precisa dada la naturaleza del problema y los datos.Φ(−3)≈0.0013≈1/750 |z| 2 Φ(−3) Φ(z)=1−Φ(−z)
Ejemplo
Suponga que la ruta tarda 30 minutos con una desviación estándar de 6 minutos y la ruta Y tarda 36 minutos con una desviación estándar de 8 minutos. Con suficientes datos que cubren una amplia gama de condiciones, los histogramas de sus datos eventualmente podrían aproximarse a estos:X Y
(Estas son funciones de densidad de probabilidad para las variables Gamma (25, 30/25) y Gamma (20, 36/20). Observe que están decididamente sesgadas hacia la derecha, como cabría esperar para los tiempos de recorrido.
Luego
De dónde
Tenemos
Por lo tanto, estimamos que la respuesta es 0.6 del camino entre 0.5 y 0.84: 0.5 + 0.6 * (0.84 - 0.5) = aproximadamente 0.70. (El valor correcto pero demasiado preciso para la distribución Normal es 0.73.)
Hay una probabilidad del 70% de esa ruta tomará más tiempo que la ruta X . Hacer este cálculo en tu cabeza te distraerá de la próxima colina. :-)Y X
(La probabilidad correcta de los histogramas mostrados es del 72%, aunque ninguno de los dos es Normal: esto ilustra el alcance y la utilidad de la aproximación Normal para la diferencia en los tiempos de viaje).
fuente
Mi enfoque instintivo puede no ser el más sofisticado estadísticamente, pero puede ser más divertido :)
Conseguiría una hoja de papel cuadriculado de tamaño decente y dividiría las columnas en bloques de tiempo. Dependiendo de la duración de sus viajes, estamos hablando de un tiempo medio de 5 minutos o una hora, puede usar bloques de diferentes tamaños. Digamos que cada columna es un bloque de dos minutos. Elija un color para la ruta A y un color diferente para la ruta B, y después de cada recorrido, haga un punto en la columna correspondiente. Si ya hay un punto de ese color, sube una fila. En otras palabras, esto sería un histograma en números absolutos.
Luego, estaría construyendo un histograma divertido con cada viaje que realice, y podrá ver visualmente la diferencia entre las dos rutas.
Mi sentido basado en mi propia experiencia como viajero en bicicleta (no verificado a través de la cuantificación) es que los tiempos no se distribuirán normalmente: tendrían un sesgo positivo o, en otras palabras, una larga cola de tiempos superiores. Mi tiempo típico no es mucho más largo que el tiempo más corto posible, pero de vez en cuando parece que apago todas las luces rojas, y hay un extremo superior mucho más alto. Tu experiencia puede ser diferente. Es por eso que creo que el enfoque del histograma podría ser mejor, para que pueda observar la forma de la distribución usted mismo.
PD: No tengo suficiente representante para comentar en este foro, ¡pero me encanta la respuesta de Whuber! Él aborda mi preocupación sobre la asimetría de manera bastante efectiva con un análisis de muestra. Y me gusta la idea de calcular en tu cabeza para no pensar en la próxima colina :)
fuente
fuente
for
bucle: letx1 = sample(X, 10000, replace = TRUE)
andy1 = sample(Y, 10000, replace = TRUE)
y luego calcularmean(x1 > y1)
junto conmean(x1 == y1)
- para tener una idea del número de veces que los valores son iguales.