42

Me encontré con el término perplejidad que se refiere a la probabilidad inversa promediada logarítmica en datos no vistos. El artículo de Wikipedia sobre perplejidad no da un significado intuitivo para lo mismo.

Esta medida de perplejidad se utilizó en pLSA papel .

¿Alguien puede explicar la necesidad y el significado intuitivo de la medida de perplejidad ?

measurement perplexity Aprendiz
fuente

¿Cómo calculo la perplejidad para pLSA? Tengo datamatrix

X

$X$ que tiene la cuenta y por el algoritmo TEM

p (d)

$p(d)$ y

p (w | d)

$p(w|d)$ se calculan.

Estudiante

3

Revisé los índices de 5 libros de minería de datos / aprendizaje automático / análisis predictivo de Nisbett, Larose, Witten, Torgo y Shemueli (más coautores) y este término no aparece en ninguno de ellos. Estoy perplejo :)

zbicyclist

1

Perplejidad es otro nombre elegante para la incertidumbre. Se puede considerar como una evaluación intrínseca frente a la evaluación extrínseca. Jan Jurafsky lo explica elegantemente con ejemplos de acuerdo con el modelado de idiomas aquí en youtube.com/watch?v=BAN3NB_SNHY

bicepjai

2

@zbicyclist, si está buscando ejemplos en la naturaleza, es particularmente común en PNL, y específicamente para la evaluación de cosas como modelos de lenguaje.

Matt Krause

En algunos campos (por ejemplo, economía), la gente habla sobre los números equivalentes, de modo que, por ejemplo,

donde

es entropía basada en logaritmos naturales es un número equivalente de categorías igualmente comunes. Entonces, dos categorías cada una con probabilidad 0.5 producen entropía de

y la exponenciación regresa a 2 como el número de categorías igualmente comunes. Para probabilidades desiguales, los números equivalentes no son en general un número entero.

\exp (H)

$\exp(H)$

H

$H$

\ln 2

$\ln 2$

Nick Cox

21

Has mirado el artículo de Wikipedia sobre perplejidad . Da la perplejidad de una distribución discreta como

2^{- \sum_{x} p (x) \log_{2} p (x)}

$2^{-\sum_x p(x)\log_2 p(x)}$

que también podría escribirse como

\exp (\sum_{x} p (x) \log_{e} \frac{1}{p (x)})

$\exp\left({\sum_x p(x)\log_e \frac{1}{p(x)}}\right)$

es decir, como un promedio geométrico ponderado de las inversas de las probabilidades. Para una distribución continua, la suma se convertiría en una integral.

El artículo también ofrece una forma de estimar la perplejidad de un modelo utilizando piezas de datos de prueba. $N$

2^{- \sum_{i = 1}^{N} \frac{1}{N} \log_{2} q (x_{i})}

$2^{-\sum_{i=1}^N \frac{1}{N} \log_2 q(x_i)}$

que también podría escribirse

\exp (\frac{\sum_{i = 1}^{N} \log_{e} (\frac{1}{q (x_{i})})}{N}) or \sqrt[N]{\prod_{i = 1}^{N} \frac{1}{q (x_{i})}}

$\exp\left(\frac{{\sum_{i=1}^N \log_e \left(\dfrac{1}{q(x_i)}\right)}}{N}\right) \text{ or } \sqrt[N]{\prod_{i=1}^N \frac{1}{q(x_i)}}$

o en una variedad de otras formas, y esto debería aclarar aún más de dónde proviene la "probabilidad inversa promedio logarítmica".

Enrique
fuente

¿Hay alguna distinción particular entre cuando e se usa como exponente en lugar de 2?

Henry E

2

@HenryE: no, y los logaritmos comunes de base

también funcionarían: los logaritmos en diferentes bases son proporcionales entre sí y claramente

10

$10$

a^{\log_{a} x} = b^{\log_{b} x}

$a^{\log_a x} = b^{\log_b x}$

Henry

Me imaginé tanto. Encontré esta respuesta cuando estaba tratando de entender por qué un código usaba e para calcular la perplejidad cuando todas las otras formulaciones que había visto anteriormente habían estado usando 2. Ahora me doy cuenta de lo importante que es saber qué valor tiene un marco utiliza como base para el cálculo de pérdida de registro

Henry E

27

Encontré esto bastante intuitivo:

La perplejidad de lo que sea que esté evaluando, en los datos en los que lo está evaluando, de alguna manera le dice "esto es lo correcto con la frecuencia con la que estaría un dado del lado x".

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

pandas en todas partes
fuente

Ese es un artículo interesante; tal vez no tan en profundidad, pero una buena lectura introductoria.

Monica Heddneck

1

También encontré útil este artículo, jamesmccaffrey.wordpress.com/2016/08/16/…

user2561747

11

Me he preguntado esto también. La primera explicación no es mala, pero aquí están mis 2 nats para lo que sea que valga la pena.

En primer lugar, la perplejidad no tiene nada que ver con caracterizar con qué frecuencia adivina algo bien. Tiene más que ver con caracterizar la complejidad de una secuencia estocástica.

Estamos viendo una cantidad,

2^{- \sum_{x} p (x) \log_{2} p (x)}

$2^{-\sum_x p(x)\log_2 p(x)}$

Primero cancelemos el registro y la exponenciación.

2^{- \sum_{x} p (x) \log_{2} p (x)} = \frac{1}{\prod_{x} p (x)^{p (x)}}

$2^{-\sum_{x} p(x)\log_2 p(x)}=\frac{1}{\prod_{x} p(x)^{p(x)}}$

Creo que vale la pena señalar que la perplejidad es invariable con la base que usas para definir la entropía. Entonces, en este sentido, la perplejidad es infinitamente más única / menos arbitraria que la entropía como medida.

Relación con los dados

Juguemos un poco con esto. Digamos que solo estás mirando una moneda. Cuando la moneda es justa, la entropía es máxima y la perplejidad es máxima de

\frac{1}{{\frac{1}{2}}^{\frac{1}{2}} \times {\frac{1}{2}}^{\frac{1}{2}}} = 2

$\frac{1}{\frac{1}{2}^\frac{1}{2}\times\frac{1}{2}^\frac{1}{2}}=2$

Ahora, ¿qué pasa cuando miramos un dado de $N$ lados? La perplejidad es

\frac{1}{{({\frac{1}{N}}^{\frac{1}{N}})}^{N}} = N

$\frac{1}{\left(\frac{1}{N}^\frac{1}{N}\right)^N}=N$

Entonces, la perplejidad representa el número de lados de un dado justo que, cuando se tira, produce una secuencia con la misma entropía que la distribución de probabilidad dada.

Numero de Estados

$N$ $N+1$ $N$ $\epsilon$ $N$ $N + 1$ $\epsilon$ $N$ $x$ $p_x$ $N$

p_{x}^{'} = p_{x} (1 - ϵ)

$p^\prime_x=p_x\left(1-\epsilon\right)$

\frac{1}{ϵ^{ϵ} \prod_{x}^{N} {p_{x}^{'}}^{p_{x}^{'}}} = \frac{1}{ϵ^{ϵ} \prod_{x}^{N} {(p_{x} (1 - ϵ))}^{p_{x} (1 - ϵ)}} = \frac{1}{ϵ^{ϵ} \prod_{x}^{N} p_{x}^{p_{x} (1 - ϵ)} {(1 - ϵ)}^{p_{x} (1 - ϵ)}} = \frac{1}{ϵ^{ϵ} {(1 - ϵ)}^{(1 - ϵ)} \prod_{x}^{N} p_{x}^{p_{x} (1 - ϵ)}}

$\frac{1}{\epsilon^\epsilon\prod_x^N {p^\prime_x}^{p^\prime_x}}=\frac{1}{\epsilon^\epsilon\prod_x^N {\left(p_x\left(1-\epsilon\right)\right)}^{p_x\left(1-\epsilon\right)}} = \frac{1}{\epsilon^\epsilon\prod_x^N p_x^{p_x\left(1-\epsilon\right)} {\left(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}} = \frac{1}{\epsilon^\epsilon{\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}\prod_x^N p_x^{p_x\left(1-\epsilon\right)}}$

In the limit as $\epsilon\rightarrow 0$ , this quantity approaches

\frac{1}{\prod_{x}^{N} {p_{x}}^{p_{x}}}

$\frac{1}{\prod_x^N {p_x}^{p_x}}$

So as you make make rolling one side of the die increasingly unlikely, the perplexity ends up looking as though the side doesn't exist.

Alex Eftimiades
fuente

3

Surely that's only ~1.39 nats worth?

Matt Krause

Can you elaborate how you get

\prod_{x}^{N} {p_{x}^{'}}^{p_{x}^{'}} = (1 - ϵ)^{1 - ϵ} \prod_{x}^{N} {p_{x}}^{p_{x} (1 - ϵ)}

$\prod_x^N {p^\prime_x}^{p^\prime_x} = (1-\epsilon)^{1-\epsilon}\prod_x^N {p_x}^{p_x(1-\epsilon)}$ ? I can only do

\prod_{x}^{N} {p_{x}^{'}}^{p_{x}^{'}} = \prod_{x}^{N} {(p_{x} (1 - ϵ))}^{p_{x} (1 - ϵ)} = \prod_{x}^{N} {(1 - ϵ)}^{p_{x} (1 - ϵ)} \prod_{x}^{N} {p_{x}}^{p_{x} (1 - ϵ)}

$\prod_x^N {p^\prime_x}^{p^\prime_x} = \prod_x^N {(p_x (1-\epsilon)) }^{p_x(1-\epsilon)} = \prod_x^N {(1-\epsilon) }^{p_x(1-\epsilon)} \prod_x^N {p_x }^{p_x(1-\epsilon)}$

user2740

\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}

$\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}$

Alex Eftimiades

5

There is actually a clear connection between perplexity and the odds of correctly guessing a value from a distribution, given by Cover's Elements of Information Theory 2ed (2.146): If $X$ and $X'$ are iid variables, then

$P(X=X') \ge 2^{-H(X)} = \frac{1}{2^{H(X)}} = \frac{1}{\text{perplexity}}$ (1)

To explain, perplexity of a uniform distribution X is just |X|, the number of elements. If we try to guess the values that iid samples from a uniform distribution X will take by simply making iid guesses from X, we will be correct 1/|X|=1/perplexity of the time. Since the uniform distribution is the hardest to guess values from, we can use 1/perplexity as a lower bound / heuristic approximation for how often our guesses will be right.

user49404
fuente

¿Qué es la perplejidad?

Respuestas:

Relación con los dados

Numero de Estados