Me encontré con el término perplejidad que se refiere a la probabilidad inversa promediada logarítmica en datos no vistos. El artículo de Wikipedia sobre perplejidad no da un significado intuitivo para lo mismo.
Esta medida de perplejidad se utilizó en pLSA papel .
¿Alguien puede explicar la necesidad y el significado intuitivo de la medida de perplejidad ?
measurement
perplexity
Aprendiz
fuente
fuente
Respuestas:
Has mirado el artículo de Wikipedia sobre perplejidad . Da la perplejidad de una distribución discreta como
que también podría escribirse como
es decir, como un promedio geométrico ponderado de las inversas de las probabilidades. Para una distribución continua, la suma se convertiría en una integral.
El artículo también ofrece una forma de estimar la perplejidad de un modelo utilizando piezas de datos de prueba.N
que también podría escribirse
o en una variedad de otras formas, y esto debería aclarar aún más de dónde proviene la "probabilidad inversa promedio logarítmica".
fuente
Encontré esto bastante intuitivo:
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
fuente
Me he preguntado esto también. La primera explicación no es mala, pero aquí están mis 2 nats para lo que sea que valga la pena.
En primer lugar, la perplejidad no tiene nada que ver con caracterizar con qué frecuencia adivina algo bien. Tiene más que ver con caracterizar la complejidad de una secuencia estocástica.
Estamos viendo una cantidad,2−∑xp(x)log2p(x)
Primero cancelemos el registro y la exponenciación.
Creo que vale la pena señalar que la perplejidad es invariable con la base que usas para definir la entropía. Entonces, en este sentido, la perplejidad es infinitamente más única / menos arbitraria que la entropía como medida.
Relación con los dados
Juguemos un poco con esto. Digamos que solo estás mirando una moneda. Cuando la moneda es justa, la entropía es máxima y la perplejidad es máxima de11212×1212=2
Ahora, ¿qué pasa cuando miramos un dado deN lados? La perplejidad es 1(1N1N)N=N
Entonces, la perplejidad representa el número de lados de un dado justo que, cuando se tira, produce una secuencia con la misma entropía que la distribución de probabilidad dada.
Numero de Estados
In the limit asϵ→0 , this quantity approaches 1∏Nxpxpx
So as you make make rolling one side of the die increasingly unlikely, the perplexity ends up looking as though the side doesn't exist.
fuente
There is actually a clear connection between perplexity and the odds of correctly guessing a value from a distribution, given by Cover's Elements of Information Theory 2ed (2.146): IfX and X′ are iid variables, then
To explain, perplexity of a uniform distribution X is just |X|, the number of elements. If we try to guess the values that iid samples from a uniform distribution X will take by simply making iid guesses from X, we will be correct 1/|X|=1/perplexity of the time. Since the uniform distribution is the hardest to guess values from, we can use 1/perplexity as a lower bound / heuristic approximation for how often our guesses will be right.
fuente