Descargo de responsabilidad: no soy un estadístico sino un ingeniero de software. La mayor parte de mi conocimiento en estadística proviene de la autoeducación, por lo que todavía tengo muchas lagunas en la comprensión de conceptos que pueden parecer triviales para otras personas aquí. Así que estaría muy agradecido si las respuestas incluyeran términos menos específicos y más explicaciones. Imagina que estás hablando con tu abuela :)
Estoy tratando de comprender la naturaleza de la distribución beta : para qué se debe usar y cómo interpretarla en cada caso. Si estuviéramos hablando de, digamos, distribución normal, uno podría describirlo como la hora de llegada de un tren: con mayor frecuencia llega justo a tiempo, un poco menos frecuente es 1 minuto antes o 1 minuto tarde y muy raramente llega con diferencia de 20 minutos de la media. La distribución uniforme describe, en particular, la posibilidad de cada boleto en la lotería. La distribución binomial se puede describir con lanzamientos de monedas, etc. ¿Pero hay una explicación tan intuitiva de la distribución beta ?
Digamos, y . La distribución beta en este caso se ve así (generada en R):β = .5 B ( α , β )
Pero, ¿qué significa realmente? El eje Y es obviamente una densidad de probabilidad, pero ¿qué hay en el eje X?
Agradecería cualquier explicación, ya sea con este ejemplo o con cualquier otro.
Respuestas:
La versión corta es que la distribución Beta puede entenderse como una distribución de probabilidades , es decir, representa todos los valores posibles de una probabilidad cuando no sabemos cuál es esa probabilidad. Aquí está mi explicación intuitiva favorita de esto:
Cualquiera que siga el béisbol está familiarizado con los promedios de bateo : simplemente la cantidad de veces que un jugador recibe un golpe base dividido por la cantidad de veces que sube al bate (por lo que es solo un porcentaje entre
0
y1
)..266
en general se considera un promedio de bateo promedio, mientras que.300
se considera excelente.Imagine que tenemos un jugador de béisbol y queremos predecir cuál será su promedio de bateo de toda la temporada. Se podría decir que podemos usar su promedio de bateo hasta ahora, ¡pero esta será una medida muy pobre al comienzo de una temporada! Si un jugador sube al bate una vez y obtiene un sencillo, su promedio de bateo es brevemente
1.000
, mientras que si se poncha, su promedio de bateo es0.000
. No mejora mucho si subes a batear cinco o seis veces, podrías obtener una racha de suerte y obtener un promedio de1.000
, o una racha de mala suerte y obtener un promedio de0
, ninguno de los cuales es un predictor remotamente bueno de cómo Batearás esa temporada.¿Por qué su promedio de bateo en los primeros golpes no es un buen indicador de su promedio de bateo eventual? Cuando el primer turno al bate de un jugador es un ponche, ¿por qué nadie predice que nunca recibirá un golpe en toda la temporada? Porque vamos con expectativas previas. Sabemos que en la historia, la mayoría de los promedios de bateo durante una temporada han oscilado entre algo así
.215
como.360
, con algunas excepciones extremadamente raras en ambos lados. Sabemos que si un jugador obtiene algunos ponches seguidos al inicio, eso podría indicar que terminará un poco peor que el promedio, pero sabemos que probablemente no se desviará de ese rango.Dado nuestro problema de promedio de bateo, que puede representarse con una distribución binomial (una serie de éxitos y fracasos), la mejor manera de representar estas expectativas previas (lo que en estadística llamamos un prior ) es con la distribución Beta: es decir, antes de ver al jugador dar su primer golpe, lo que más o menos esperamos sea su promedio de bateo. El dominio de la distribución Beta es
(0, 1)
, como una probabilidad, por lo que ya sabemos que estamos en el camino correcto, pero la idoneidad de la Beta para esta tarea va mucho más allá de eso.Esperamos que el promedio de bateo de toda la temporada del jugador sea más probableα = 81 β= 219
.27
, pero que podría variar razonablemente de.21
a.35
. Esto se puede representar con una distribución Beta con los parámetros y β = 219 :Se me ocurrieron estos parámetros por dos razones:
(.2, .35)
del rango razonable para un promedio de bateo.Usted preguntó qué representa el eje x en un diagrama de densidad de distribución beta, aquí representa su promedio de bateo. Por lo tanto, observe que en este caso, no solo el eje y es una probabilidad (o más precisamente una densidad de probabilidad), sino también el eje x (¡el promedio de bateo es solo la probabilidad de un golpe, después de todo)! La distribución Beta representa una distribución de probabilidad de probabilidades .
Pero he aquí por qué la distribución Beta es tan apropiada. Imagina que el jugador recibe un solo golpe. Su récord para la temporada es ahora
1 hit; 1 at bat
. Luego tenemos que actualizar nuestras probabilidades; queremos cambiar toda esta curva solo un poco para reflejar nuestra nueva información. Si bien las matemáticas para probar esto son un poco complicadas ( se muestra aquí ), el resultado es muy simple . La nueva distribución Beta será:Tenga en cuenta que apenas ha cambiado, ¡el cambio es realmente invisible a simple vista! (Eso es porque un golpe realmente no significa nada).
Observe que la curva ahora es más delgada y desplazada hacia la derecha (mayor promedio de bateo) de lo que solía ser: tenemos una mejor idea de cuál es el promedio de bateo del jugador.
Por lo tanto, la distribución Beta es mejor para representar una distribución probabilística de probabilidades , el caso en el que no sabemos cuál es la probabilidad de antemano, pero tenemos algunas conjeturas razonables.
fuente
Una distribución Beta se usa para modelar cosas que tienen un rango limitado, como 0 a 1.
Algunos ejemplos son la probabilidad de éxito en un experimento que solo tiene dos resultados, como el éxito y el fracaso. Si realiza un número limitado de experimentos, y algunos tienen éxito, puede representar lo que eso le dice mediante una distribución beta.
Otro ejemplo son las estadísticas de pedidos . Por ejemplo, si genera varios (digamos 4) números aleatorios 0,1 uniformes y los ordena, ¿cuál es la distribución del tercero?
Más sobre eso ...
fuente
Este resultado muestra que las distribuciones Beta aparecen naturalmente en matemáticas, y tiene algunas aplicaciones interesantes en matemáticas.
fuente
Hay dos motivaciones principales:
Primero, la distribución beta se conjuga antes de la distribución de Bernoulli. Eso significa que si tiene una probabilidad desconocida como el sesgo de una moneda que está estimando mediante lanzamientos de monedas repetidos, entonces la probabilidad inducida en el sesgo desconocido por una secuencia de lanzamientos de monedas está distribuida en beta.
La distribución beta no es especial para modelar cosas en general sobre [0,1] ya que muchas distribuciones pueden truncarse a ese soporte y son más aplicables en muchos casos.
fuente
Supongamos que un vendedor en un sitio web de comercio electrónico recibe 500 calificaciones, de las cuales 400 son buenas y 100 son malas.
La calidad ingenua en términos de calificaciones del vendedor es del 80% porque 0.8 = 400 / 500. Pero la calidad "verdadera" en términos de calificaciones no la conocemos.
http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/
fuente
Hasta ahora, la preponderancia de las respuestas cubría la justificación de que los RV Beta se generaban como anteriores para una muestra de proporciones, y una respuesta inteligente ha relacionado los RV Beta con las estadísticas de pedidos.
Las distribuciones beta también surgen de una relación simple entre dos RV Gamma (k_i, 1), i = 1,2 los llaman X e Y. X / (X + Y) tiene una distribución Beta.
Los Gamma RV ya tienen su fundamento en el modelado de tiempos de llegada para eventos independientes, por lo que no abordaré eso ya que no es su pregunta. Pero una "fracción de tiempo" invertida en completar una de las dos tareas realizadas en secuencia se presta naturalmente a una distribución Beta.
fuente
fuente
En el ejemplo citado, los parámetros son alfa = 81 y beta = 219 del año anterior [81 aciertos en 300 al bate o (81 y 300 - 81 = 219)]
No sé cómo llaman la suposición previa de 81 hits y 219 outs, pero en inglés, esa es la suposición a priori.
Observe cómo a medida que avanza la temporada la curva se desplaza hacia la izquierda o hacia la derecha y la probabilidad modal se desplaza hacia la izquierda o hacia la derecha, pero todavía hay una curva.
Me pregunto si la Laa de los grandes números finalmente se afianza y lleva el promedio de bateo a .270.
Para adivinar el alfa y el beta en general, se tomaría el número completo de ocurrencias anteriores (en los murciélagos), el promedio de bateo como se conoce, se obtendrían los golpes totales (el alfa), el beta o el gran total menos las fallas) y listo. Tienes tu fórmula. Luego, trabaje los datos adicionales como se muestra.
fuente
Por cierto, ¿qué pasa si produce una distribución de tamaño a partir de una observación microscópica y tiene una distribución de partículas en número, y su objetivo es trabajar con una distribución de volumen? Es casi obligatorio obtener la distribución original en número limitado a la derecha. Entonces, la transformación es más consistente porque está seguro de que en la nueva distribución de volumen no aparece ningún modo, ni la mediana ni el tamaño medio fuera del intervalo en el que está trabajando. Además, evitas el efecto de Groenlandia África.
La transformación es muy fácil si tiene formas regulares, es decir, una esfera o un prisma. Debería agregar tres unidades al parámetro alfa de la distribución beta del número y obtener la distribución del volumen.
fuente
¡Creo que NO hay intuición detrás de la distribución beta! ¡La distribución beta es solo una distribución muy flexible con el rango FIX! Y para el entero ayb es incluso fácil de tratar. También muchos casos especiales de la versión beta tienen su significado nativo, como la distribución uniforme. Entonces, si los datos deben modelarse de esta manera, o con un poco más de flexibilidad, entonces la versión beta es una muy buena opción.
fuente
En otra pregunta sobre la distribución beta, se proporciona la siguiente intuición detrás de la beta:
Para obtener detalles, consulte la respuesta completa en https://stats.stackexchange.com/a/429754/142758
fuente