Cuando se trata una función de utilidad relativa normalizada como un pmf, ¿cuál es la interpretación de la entropía de Shannon o la información de Shannon?

10

Suponga que $\Omega$ es un conjunto de resultados mutuamente excluyentes de una variable aleatoria discreta $f$ es una función de utilidad donde $0 < f(\omega) \leq 1$ , $\sum_\Omega f(\omega) = 1$ , etc.

Cuando $f$ se distribuye uniformemente sobre $\Omega$ y $f$ es una función de masa de probabilidad , la entropía de Shannon $H(\Omega) = \sum_{\Omega}f(\omega)log\frac{1}{f(\omega)}$ se maximiza ( $=log|\Omega|)$ , y cuando un elemento en $\Omega$ tiene todala masade $f$ , la entropía de Shannon se minimiza ( $0$ , de hecho). Esto corresponde a intuiciones sobresorpresa(oreducción de la incertidumbre) y resultados eincertidumbre(osorpresa esperada) y variables aleatorias:

Cuando $f$ se distribuye uniformemente, la incertidumbre se maximiza, y cuantos más resultados haya para que la masa se distribuya uniformemente, más inciertos somos.
Cuando $f$ tiene toda su masa concentrada en un resultado, no tenemos incertidumbre.
Cuando asignamos a un resultado una probabilidad de $1$ , no obtenemos información ("no nos sorprende") cuando realmente la observamos.
Cuando asignamos a un resultado una probabilidad cada vez más cercana a $0$ , la observación de que realmente ocurre se vuelve más y más informativa ("sorprendente").

(Todo esto no dice nada sobre la interpretación de codificación mucho más concreta, pero menos epistémica, de la información / entropía de Shannon, por supuesto).

Sin embargo, cuando $f$ tiene la interpretación de una función de utilidad , ¿hay una interpretación sensorial de o $log\frac{1}{f(\omega)}$ ? Me parece que puede haber: $\sum f(\omega)log\frac{1}{f(\omega)}$

si como PMF representa una distribución uniforme sobre , entonces como función de utilidad corresponde a la indiferencia sobre los resultados que no podrían ser mayores * $f$ $\Omega$ $f$
una función de utilidad en la que un resultado tiene toda la utilidad y el resto no tiene ninguna (tan sesgada de una utilidad como podría existir) corresponde a preferencias relativas muy fuertes : una falta de indiferencia.

¿Hay alguna referencia que se expanda sobre esto? ¿Me he perdido algo acerca de las limitaciones en la comparación de funciones de masa de probabilidad y utilidades relativas normalizadas sobre variables aleatorias discretas?

* Soy consciente de las curvas de indiferencia y no veo cómo podrían ser relevantes para mi pregunta por una variedad de razones, comenzando con mi enfoque en un espacio muestral categórico y con el hecho de que no estoy interesado en la 'indiferencia' per se, sino más bien cómo interpretar las utilidades como probabilidades y cómo interpretar los funcionales en las probabilidades cuando la 'distribución de probabilidad' (discreta) en cuestión en realidad o (adicionalmente) tiene la interpretación de una función de utilidad.

utility decision-theory preferences probability EM23
fuente

No tengo una respuesta, pero su pregunta me hace pensar en usar la entropía en el problema del corte de pastel justo: en.wikipedia.org/wiki/Fair_cake-cutting El modelo estándar es que el pastel es un intervalo [0, 1], y hay

agentes con diferentes medidas de valor normalizado en el intervalo. Se supone que las medidas no son atómicas, pero no hay más suposiciones sobre su "entropía". Puede ser interesante pensar qué podemos decir acerca de los problemas de corte de torta donde las funciones de utilidad han limitado la entropía.

n

$n$

Erel Segal-Halevi

3

Antes de discutir la entropía de Shannon, hay otro punto que debería discutirse: parece que tienes en mente la utilidad cardinal en lugar del ordinal .

Las funciones de utilidad "normalizadas" pueden derivarse, por supuesto, en ambos casos. Pero el concepto de "preferencia relativa" puede definirse y medirse solo en el contexto de la utilidad cardinal.

Y el problema no surge en los dos extremos que usted describe, sino en todos los casos intermedios posibles.

Un ejemplo simple: suponga que hay tres "resultados", (por ejemplo, niveles de consumo o tres bienes diferentes cada uno en cierta cantidad). Su función de utilidad les asignó los valores $A, B, C$

V (A) = 1, V (B) = 9, V (C) = 90

$V(A) = 1, \;\;V(B) = 9,\;\; V(C) = 90$

Bajo la utilidad ordinal, esto solo nos dice que

A <_{p r} B <_{p r} C

$A <_{pr} B <_{pr} C$

Ciertamente podemos normalizarlos dividiendo por para obtener $100$

y la clasificación de los tres resultados se conserva

U_{V} (A) = 0.01, U_{V} (B) = 0.09, U_{V} (C) = 0.9

$U_V(A)=0.01, \;\; U_V(B) = 0.09,\;\; U_V(C) =0.9$

Pero bajo la utilidad ordinal, podríamos usar otra función de utilidad que asignaría

W (A) = 31, W (B) = 32, W (C) = 37

$W(A) = 31, \;\;W(B) = 32,\;\; W(C) = 37$

y obtener

U_{W} (A) = 0.31, U_{W} (B) = 0.32, U_{W} (C) = 0.37

$U_W(A)=0.31, \;\; U_W(B) = 0.32,\;\; U_W(C) =0.37$

$V$ $W$

$W$ $V$

¿Está familiarizado con los problemas relacionados con la utilidad cardinal?

Alecos Papadopoulos
fuente

V

$V$

U

$U$

3

Después del intercambio con el OP en mi otra respuesta, trabajemos un poco con su enfoque.

$X$ $X = \{x_1,...,x_k\}$ $\Pr(X=x_i)=p_i, i=1,...,k$

Los valores en el soporte de también son entradas en una función de utilidad cardinal de valor real , . Luego consideramos la función de utilidad normalizada $X$ $u(x_i) > 0\; \forall i$

\begin{matrix} (1) & w (X) : w (x_{i}) = \frac{u (x_{i})}{\sum_{i = 1}^{k} u (x_{i})}, i = 1, . . ., k \end{matrix}

$w(X): w(x_i) = \frac {u(x_i)}{\sum_{i=1}^ku(x_i)},\;\;i=1,...,k \tag{1}$

y nos dicen que

\begin{matrix} (2) & w (x_{i}) = p_{i} \end{matrix}

$w(x_i) = p_i \tag{2}$

Tenga en cuenta que no solo hacemos la observación de que una función discreta no negativa normalizada de dominio finito, satisface las propiedades de una función de masa de probabilidad en general, asumimos específicamente que tiene la forma funcional de la PMF del azar variable cuyos valores toma como entradas. $w(x_i)$ $w(x_i)$

Como es una función medible de una variable aleatoria, también es una variable aleatoria. Entonces podemos considerar significativamente cosas como su valor esperado. Usando la Ley del Estadístico Inconsciente tenemos $w(x_i)$

\begin{matrix} (3) & E [w (X)] = \sum_{i = 1}^{k} p_{i} w (x_{i}) = \sum_{i = 1}^{k} p_{i}^{2} \end{matrix}

$E[w(X)] = \sum_{i=1}^kp_iw(x_i) = \sum_{i=1}^kp_i^2 \tag{3}$

Esta es una función convexa, y si intentamos extremizarla sobre los bajo la restricción obtenemos fácilmente $p_i$ $\sum_{i=1}^kp_i=1$

\begin{matrix} (4) & argmin E [w (X)] = p^{*} : p_{1} = p_{2} = . . . = p_{k} = 1 / k \end{matrix}

$\text{argmin} E[w(X)] = \mathbf p^*: p_1=p_2=...=p_k=1/k \tag {4}$

y hemos obtenido un resultado general:

La función de utilidad normalizada como se definió anteriormente tiene un valor mínimo esperado si la distribución de es uniforme. $X$

Obviamente, en tal caso, será una función constante , una variable aleatoria degenerada con y varianza cero. $w(X)$ $E[w(X)]=1/k$

Pasemos a la Entropía de Shannon, que es el foco del OP. Para ser calculado, la Entropía de Shannon necesita la función de masa de probabilidad de la variable aleatoria ... por lo que deberíamos encontrar el PMF de la variable aleatoria ... $w(X)$

Pero tengo la impresión de que esto no es lo que el OP tiene en mente. Más bien, ve a la Entropía de Shannon como una métrica que tiene algunas propiedades algebraicas deseables y tal vez pueda medir de manera compacta algo significativo.

Esto se ha hecho antes en Economía, específicamente en Organización Industrial, donde se han construido los Índices de Concentración de Mercado ("grado de competencia / estructura monopolística de un mercado"). Noto dos que parecen particularmente relevantes aquí.

A) El índice Herfindahl tiene como argumentos las cuotas de mercado de las compañías que operan en un mercado, , por lo que suman unidad por construcción. Su versión sin escala es $n$ $s_i$

H = \sum_{i = 1}^{n} s_{i}^{2}

$H = \sum_{i=1}^n s_i^2$

que es una expresión que tiene exactamente la misma estructura con el valor esperado de derivado anteriormente. $w(X)$

B) El índice de entropía que tiene la forma matemática exacta con la entropía de Shannon.

R_{e} = - \sum_{i = 1}^{n} s_{i} \ln s_{i}

$R_e = -\sum_{i=1}^n s_i\ln s_i$

Encaoua, D. y Jacquemin, A. (1980). Grado de monopolio, índices de concentración y amenaza de entrada. Revista Económica Internacional, 87-105. , proporcionan una derivación axiomática de los índices de concentración "permitidos", es decir, definen las propiedades que dicho índice debe poseer. Dado que su enfoque es abstracto, creo que puede ser útil para lo que el OP desea explorar y atribuir significado.

Alecos Papadopoulos
fuente

1

Parece que la función de utilidad no solo es cardinal aquí, sino que incluso se define en una escala de relación. Considere dos resultados con las utilidades 1/4 y 3/4. Claramente, podemos aplicar la transformación afín: en cuyo caso las utilidades se convierten en 0 y 1. ¡Sin embargo, ahora hemos cambiado la entropía de un valor estrictamente positivo a cero! $v=v*2-0.5$

Por lo tanto, primero debe proporcionar una escala de proporción significativa para su utilidad. Una forma de hacerlo es interpretar el nivel de utilidad 0 natural. Sin esta especificación, la entropía no tiene sentido.

HRSE
fuente

Cuando se trata una función de utilidad relativa normalizada como un pmf, ¿cuál es la interpretación de la entropía de Shannon o la información de Shannon?

Respuestas: