Suponga que es un conjunto de resultados mutuamente excluyentes de una variable aleatoria discreta es una función de utilidad donde , , etc.
Cuando se distribuye uniformemente sobre y es una función de masa de probabilidad , la entropía de Shannon se maximiza (, y cuando un elemento entiene todala masade, la entropía de Shannon se minimiza (, de hecho). Esto corresponde a intuiciones sobresorpresa(oreducción de la incertidumbre) y resultados eincertidumbre(osorpresa esperada) y variables aleatorias:
- Cuando se distribuye uniformemente, la incertidumbre se maximiza, y cuantos más resultados haya para que la masa se distribuya uniformemente, más inciertos somos.
- Cuando tiene toda su masa concentrada en un resultado, no tenemos incertidumbre.
- Cuando asignamos a un resultado una probabilidad de , no obtenemos información ("no nos sorprende") cuando realmente la observamos.
- Cuando asignamos a un resultado una probabilidad cada vez más cercana a , la observación de que realmente ocurre se vuelve más y más informativa ("sorprendente").
(Todo esto no dice nada sobre la interpretación de codificación mucho más concreta, pero menos epistémica, de la información / entropía de Shannon, por supuesto).
Sin embargo, cuando tiene la interpretación de una función de utilidad , ¿hay una interpretación sensorial de o∑f(ω)log1 ? Me parece que puede haber:
- si como PMF representa una distribución uniforme sobre Ω , entonces f como función de utilidad corresponde a la indiferencia sobre los resultados que no podrían ser mayores *
- una función de utilidad en la que un resultado tiene toda la utilidad y el resto no tiene ninguna (tan sesgada de una utilidad como podría existir) corresponde a preferencias relativas muy fuertes : una falta de indiferencia.
¿Hay alguna referencia que se expanda sobre esto? ¿Me he perdido algo acerca de las limitaciones en la comparación de funciones de masa de probabilidad y utilidades relativas normalizadas sobre variables aleatorias discretas?
* Soy consciente de las curvas de indiferencia y no veo cómo podrían ser relevantes para mi pregunta por una variedad de razones, comenzando con mi enfoque en un espacio muestral categórico y con el hecho de que no estoy interesado en la 'indiferencia' per se, sino más bien cómo interpretar las utilidades como probabilidades y cómo interpretar los funcionales en las probabilidades cuando la 'distribución de probabilidad' (discreta) en cuestión en realidad o (adicionalmente) tiene la interpretación de una función de utilidad.
Respuestas:
Antes de discutir la entropía de Shannon, hay otro punto que debería discutirse: parece que tienes en mente la utilidad cardinal en lugar del ordinal .
Las funciones de utilidad "normalizadas" pueden derivarse, por supuesto, en ambos casos. Pero el concepto de "preferencia relativa" puede definirse y medirse solo en el contexto de la utilidad cardinal.
Y el problema no surge en los dos extremos que usted describe, sino en todos los casos intermedios posibles.
Un ejemplo simple: suponga que hay tres "resultados", (por ejemplo, niveles de consumo o tres bienes diferentes cada uno en cierta cantidad). Su función de utilidad les asignó los valoresA,B,C
Bajo la utilidad ordinal, esto solo nos dice que
Ciertamente podemos normalizarlos dividiendo por para obtener100
y la clasificación de los tres resultados se conserva
Pero bajo la utilidad ordinal, podríamos usar otra función de utilidad que asignaría
y obtener
¿Está familiarizado con los problemas relacionados con la utilidad cardinal?
fuente
Después del intercambio con el OP en mi otra respuesta, trabajemos un poco con su enfoque.
Los valores en el soporte de también son entradas en una función de utilidad cardinal de valor real , . Luego consideramos la función de utilidad normalizadaX u(xi)>0∀i
y nos dicen que
Tenga en cuenta que no solo hacemos la observación de que una función discreta no negativa normalizada de dominio finito, satisface las propiedades de una función de masa de probabilidad en general, asumimos específicamente que tiene la forma funcional de la PMF del azar variable cuyos valores toma como entradas.w(xi) w(xi)
Como es una función medible de una variable aleatoria, también es una variable aleatoria. Entonces podemos considerar significativamente cosas como su valor esperado. Usando la Ley del Estadístico Inconsciente tenemosw(xi)
Esta es una función convexa, y si intentamos extremizarla sobre los bajo la restricción obtenemos fácilmentepi ∑ki=1pi=1
y hemos obtenido un resultado general:
Obviamente, en tal caso, será una función constante , una variable aleatoria degenerada con y varianza cero.w(X) E[w(X)]=1/k
Pasemos a la Entropía de Shannon, que es el foco del OP. Para ser calculado, la Entropía de Shannon necesita la función de masa de probabilidad de la variable aleatoria ... por lo que deberíamos encontrar el PMF de la variable aleatoria ...w(X)
Pero tengo la impresión de que esto no es lo que el OP tiene en mente. Más bien, ve a la Entropía de Shannon como una métrica que tiene algunas propiedades algebraicas deseables y tal vez pueda medir de manera compacta algo significativo.
Esto se ha hecho antes en Economía, específicamente en Organización Industrial, donde se han construido los Índices de Concentración de Mercado ("grado de competencia / estructura monopolística de un mercado"). Noto dos que parecen particularmente relevantes aquí.
A) El índice Herfindahl tiene como argumentos las cuotas de mercado de las compañías que operan en un mercado, , por lo que suman unidad por construcción. Su versión sin escala esn si
que es una expresión que tiene exactamente la misma estructura con el valor esperado de derivado anteriormente.w(X)
B) El índice de entropía que tiene la forma matemática exacta con la entropía de Shannon.
Encaoua, D. y Jacquemin, A. (1980). Grado de monopolio, índices de concentración y amenaza de entrada. Revista Económica Internacional, 87-105. , proporcionan una derivación axiomática de los índices de concentración "permitidos", es decir, definen las propiedades que dicho índice debe poseer. Dado que su enfoque es abstracto, creo que puede ser útil para lo que el OP desea explorar y atribuir significado.
fuente
Parece que la función de utilidad no solo es cardinal aquí, sino que incluso se define en una escala de relación. Considere dos resultados con las utilidades 1/4 y 3/4. Claramente, podemos aplicar la transformación afín: en cuyo caso las utilidades se convierten en 0 y 1. ¡Sin embargo, ahora hemos cambiado la entropía de un valor estrictamente positivo a cero!v=v∗2−0.5
Por lo tanto, primero debe proporcionar una escala de proporción significativa para su utilidad. Una forma de hacerlo es interpretar el nivel de utilidad 0 natural. Sin esta especificación, la entropía no tiene sentido.
fuente