¿Cómo puedo estimar la probabilidad de que un miembro aleatorio de una población sea "mejor" que un miembro aleatorio de una población diferente?

15

Supongamos que tengo muestras de dos poblaciones distintas. Si mido cuánto tiempo le toma a cada miembro hacer una tarea, puedo estimar fácilmente la media y la varianza de cada población.

Si ahora planteo una combinación aleatoria con un individuo de cada población, ¿puedo estimar la probabilidad de que el primero sea más rápido que el segundo?

Tengo un ejemplo concreto en mente: las mediciones son tiempos para mí ciclismo de A a B y las poblaciones representan diferentes rutas que podría tomar; Estoy tratando de averiguar cuál es la probabilidad de que elegir la ruta A para mi próximo ciclo sea más rápido que elegir la ruta B. Cuando realmente hago el ciclo, tengo otro punto de datos para mi conjunto de muestras :).

Soy consciente de que esta es una forma terriblemente simplista de tratar de resolver esto, sobre todo porque en cualquier día dado es más probable que el viento afecte mi tiempo que cualquier otra cosa, así que avísame si crees que estoy preguntando la pregunta equivocada ...

Andrew Aylett
fuente
Esto se puede hacer mediante pruebas binomiales simples y @Macro tiene una buena respuesta. Sin embargo, un problema es con las muestras mismas: ¿hay algo que pueda afectar su decisión de tomar la ruta A o la ruta B? En particular, ¿te gusta tomar la ruta A cuando las carreteras están secas, el viento está a tu espalda y la cena está esperando? :) Solo tenga cuidado con cualquier cosa que pueda afectar los valores atípicos en cualquier conjunto o que pueda sesgar las muestras de alguna manera. Por ejemplo, intente configurar su plan de muestreo con anticipación, considerando cualquier necesidad de variar (por ejemplo, seguridad).
Iterator
Otra consideración: suponga que tiene dos rutas con medios muy similares y ninguna domina a la otra en términos de la probabilidad de que sea más rápida. Por ejemplo, uno siempre dura 10 o 20 minutos, mientras que el otro siempre es exactamente 15 minutos. Puede que le resulte mejor penalizar una mayor incertidumbre (por ejemplo, desviación estándar) o favorecer una que sea más probable que tome menos de un umbral de tiempo. Su pregunta como está está bien; Simplemente estoy sugiriendo un refinamiento futuro.
Iterator
La pregunta estadística está bien, pero si desea calcular la probabilidad de qué ruta es más rápida, sugiero medir las longitudes de las rutas. Si el terreno no es montañoso, la ruta más corta siempre será más rápida.
mpiktas
Si el viento es un factor importante, y si las velocidades del viento están relacionadas para las dos rutas, parecería que una persona necesitaría información sobre la dependencia entre A y B para responder la pregunta con precisión. Necesitaría datos bivariados para eso, y es difícil recorrer dos caminos al mismo tiempo. Puede alistar a otra persona para que lo ayude a recopilar datos, pero luego deberá tener en cuenta la variabilidad entre los pasajeros. En el caso de que A y B sean independientes, las respuestas a continuación son excelentes.
Dicho de otra manera: si estoy tratando de decidir qué camino tomar, uno a través de un túnel, otro a través de un campo y el viento sopla como loco, es muy posible que elija el campo, incluso si en promedio es peor.

Respuestas:

12

Solución

Deje que las dos medias sean y μ y y sus desviaciones estándar sean σ x y σ y , respectivamente. La diferencia en los tiempos entre dos atracciones ( Y - X ), por lo tanto, tiene una media μ y - μ x y una desviación estándar μXμyσXσyY-Xμy-μX . La diferencia estandarizada ("puntaje z") esσX2+σy2

z=μy-μXσX2+σy2.

A menos que los tiempos de viaje tengan distribuciones extrañas, la posibilidad de que el viaje tarde más que el viaje X es aproximadamente la distribución acumulativa Normal, Φ , evaluada en z .YXΦz

Cálculo

Puede calcular esta probabilidad en uno de sus viajes porque ya tiene estimaciones de etc. :-). Para este propósito es fácil de memorizar unos valores clave de Φ : Φ ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) 0,16 1 / 6 , Φ ( - 2 ) 0,022 1 / 40 , y Φ ( - 3 ) μxΦΦ(0)=.5=1/2Φ(1)0.161/6Φ(2)0.0221/40 . (La aproximación puede ser pobre para | z | mucho más grande que 2 , pero saber Φ ( - 3 ) ayuda con la interpolación.) En conjunción con Φ ( z ) = 1 - Φ ( - z ) y un poco de interpolación, usted puede estimar rápidamente la probabilidad a una cifra significativa, que es más que suficientemente precisa dada la naturaleza del problema y los datos.Φ(3)0.00131/750|z|2Φ(3)Φ(z)=1Φ(z)

Ejemplo

Suponga que la ruta tarda 30 minutos con una desviación estándar de 6 minutos y la ruta Y tarda 36 minutos con una desviación estándar de 8 minutos. Con suficientes datos que cubren una amplia gama de condiciones, los histogramas de sus datos eventualmente podrían aproximarse a estos:XY

Dos histogramas

(Estas son funciones de densidad de probabilidad para las variables Gamma (25, 30/25) y Gamma (20, 36/20). Observe que están decididamente sesgadas hacia la derecha, como cabría esperar para los tiempos de recorrido.

Luego

μx=30,μy=36,σx=6,σy=8.

De dónde

z=363062+82=0.6.

Tenemos

Φ(0)=0.5;Φ(1)=1Φ(1)10.16=0.84.

Por lo tanto, estimamos que la respuesta es 0.6 del camino entre 0.5 y 0.84: 0.5 + 0.6 * (0.84 - 0.5) = aproximadamente 0.70. (El valor correcto pero demasiado preciso para la distribución Normal es 0.73.)

Hay una probabilidad del 70% de esa ruta tomará más tiempo que la ruta X . Hacer este cálculo en tu cabeza te distraerá de la próxima colina. :-)YX

(La probabilidad correcta de los histogramas mostrados es del 72%, aunque ninguno de los dos es Normal: esto ilustra el alcance y la utilidad de la aproximación Normal para la diferencia en los tiempos de viaje).

whuber
fuente
si tiene realizaciones iid de cada distribución, ¿cuál es la ventaja de usar la aproximación normal en lugar de un enfoque de muestreo de monte carlo (mi respuesta) para estimar ? P(X>Y)
Macro
@Macro: si los datos pueden reducirse a estadísticas resumidas para la Q de interés, uno puede almacenar menos datos ... solo una idea.
Iterator
Lo siento, mi cerebro estaba frito por el calor y perdí la respuesta obvia. Cada uno de ustedes responde preguntas diferentes. El método de arranque que proporcionó estimó , mientras que @whuber está considerando la diferencia en los tiempos medios, que no es lo mismo. No es demasiado difícil construir un caso en el que la opción Y sea ​​más corta que la opción X el 60% del tiempo, pero la media de Y es mayor que la media deP(X>Y)YXY . X
Iterator
FWIW: @whuber está describiendo la prueba t de Student para la diferencia de medias entre dos muestras con diferentes desviaciones estándar.
Iterador
1
Gracias, @whuber, esta es la respuesta a la pregunta que había estado tratando de hacer :).
Andrew Aylett
6

Mi enfoque instintivo puede no ser el más sofisticado estadísticamente, pero puede ser más divertido :)

Conseguiría una hoja de papel cuadriculado de tamaño decente y dividiría las columnas en bloques de tiempo. Dependiendo de la duración de sus viajes, estamos hablando de un tiempo medio de 5 minutos o una hora, puede usar bloques de diferentes tamaños. Digamos que cada columna es un bloque de dos minutos. Elija un color para la ruta A y un color diferente para la ruta B, y después de cada recorrido, haga un punto en la columna correspondiente. Si ya hay un punto de ese color, sube una fila. En otras palabras, esto sería un histograma en números absolutos.

Luego, estaría construyendo un histograma divertido con cada viaje que realice, y podrá ver visualmente la diferencia entre las dos rutas.

Mi sentido basado en mi propia experiencia como viajero en bicicleta (no verificado a través de la cuantificación) es que los tiempos no se distribuirán normalmente: tendrían un sesgo positivo o, en otras palabras, una larga cola de tiempos superiores. Mi tiempo típico no es mucho más largo que el tiempo más corto posible, pero de vez en cuando parece que apago todas las luces rojas, y hay un extremo superior mucho más alto. Tu experiencia puede ser diferente. Es por eso que creo que el enfoque del histograma podría ser mejor, para que pueda observar la forma de la distribución usted mismo.

PD: No tengo suficiente representante para comentar en este foro, ¡pero me encanta la respuesta de Whuber! Él aborda mi preocupación sobre la asimetría de manera bastante efectiva con un análisis de muestra. Y me gusta la idea de calcular en tu cabeza para no pensar en la próxima colina :)

Jonathan
fuente
1
+1 Para la creatividad. En realidad, su idea está en el camino hacia la utilidad práctica. Sería un poco más interesante usar uno de los sitios de seguimiento de ciclismo (ahora me olvido de cuál, pero agrego, si lo sabe) para rastrear los tiempos de los segmentos. Si el OP volviera a CV o StackOverflow con una pregunta sobre cómo trazar el tiempo del segmento y obtener una densidad asociada con él, sería un ejercicio estadístico fabuloso: SIG, visualización estadística y funciones de densidad, ¡ay! :)
Iterator
1
He usado Google MyTracks en mi teléfono para rastrear segmentos de bicicleta. Me parece que el teléfono no es bueno ya que tiende a ser una fuente de alimentación en un dispositivo que no está optimizado para ello. Garmin (y otros) fabrican dispositivos GPS específicamente dirigidos a corredores y ciclistas para rastrear el tiempo dedicado a las rutas y proporcionar mapas precisos en una interfaz en línea. Yo no uso un dispositivo GPS dedicado, pero algunos de mis amigos los usan para compartir rutas en Facebook.
Jonathan
1
Aquí hay un ejemplo de lo que produce el dispositivo Garmin. El problema con los gráficos es que ya están muy preprocesados, suavizados, etc. Además, no hay una forma conveniente de importar los datos a R, por ejemplo. Pero como dispositivo dedicado hace su trabajo espléndidamente, no puedo imaginar correr o andar en bicicleta sin él.
mpiktas
+1 Tenga en cuenta que no se produce mucha distorsión al encender las luces rojas (a menos que estén cronometradas): colectivamente, generalmente solo agregan algo de ruido gaussiano a la distribución del tiempo. (Calcular su varianza es otro ejercicio mental que puede hacer en la próxima colina.) En la práctica, el sesgo proviene de la variación no gaussiana en los pocos factores importantes que controlan todo el viaje: el clima, cómo se siente, con quién ' volver a montar, y ocasionalmente accidentes / desvíos / atascos, etc.
whuber
Ahora que lo pienso un poco más, otro factor muy importante es la hora del día. Los semáforos actúan de manera muy diferente en las horas pico de tráfico: greens mucho más largos para la carretera de mayor tráfico. En las horas de menor actividad, las luces tienden a circular rápidamente, por defecto en verde para la carretera de alto tráfico, pero cambian rápidamente cuando presiono el botón de cruce o un automóvil activa el sensor.
Jonathan
5

XYX,yX>yPAG(Xyo>Yj) dónde yo,json sujetos seleccionados al azar de las dos poblaciones, respectivamente. En R, el código sería algo así como:

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)
Macro
fuente
Esta es una buena respuesta, pero podría simplificarla eliminando el forbucle: let x1 = sample(X, 10000, replace = TRUE)and y1 = sample(Y, 10000, replace = TRUE)y luego calcular mean(x1 > y1)junto con mean(x1 == y1)- para tener una idea del número de veces que los valores son iguales.
Iterator
Gracias. Sabía que el ciclo era innecesario, pero quería que la lógica subyacente al enfoque fuera muy clara. Su código ciertamente produciría los mismos resultados.
Macro