Uso de la teoría de la información en la ciencia de datos aplicados.

9

Hoy me encontré con el libro "Teoría de la información: una introducción tutorial" de James Stone y pensé por un momento o dos sobre el alcance del uso de la teoría de la información en la ciencia de datos aplicada (si no se siente cómodo con este término todavía algo confuso, pensar en el análisis de datos , del cual la ciencia de datos de mi humilde opinión es una versión glorificada de). Soy muy consciente del uso significativo de los enfoques , métodos y medidas basados ​​en la teoría de la información , especialmente la entropía , bajo el capó de varias técnicas estadísticas y métodos de análisis de datos.

Sin embargo, tengo curiosidad acerca de la extensión / nivel de conocimiento que se necesita para que un científico social aplicado seleccione y aplique con éxito esos conceptos, medidas y herramientas sin profundizar demasiado en los orígenes matemáticos de la teoría. Espero sus respuestas, que podrían abordar mi preocupación dentro del contexto del libro mencionado anteriormente (u otros libros similares, no dude en recomendarlo) o en general.

También agradecería algunas recomendaciones para fuentes impresas o en línea que analicen la teoría de la información y sus conceptos, enfoques, métodos y medidas en el contexto (en comparación con) otros (más) enfoques estadísticos tradicionales ( frecuentista y bayesiano ).

Aleksandr Blekh
fuente
2
Quizás uno de los casos de uso de entropía más conocidos y "aplicados" se produce al construir un árbol. Una de las posibilidades cuando el algoritmo se divide es tomar la métrica de ganancia de información, que es la diferencia entre la entropía entre el nivel superior y el nivel inferior. Tienes más información aquí en.wikipedia.org/wiki/Information_gain_in_decision_trees
D.Castro
@ D.Castro: Gracias por su comentario, estoy al tanto de ese caso (e incluso publiqué una respuesta sobre este tema exacto, ya sea aquí en Cross Validated o en el sitio Data Science SE). Espero una cobertura / discusión más completa del tema.
Aleksandr Blekh
1
Para mí, y en gran parte, es una cuestión de disciplina o campo en el que uno está capacitado, así como el continente geográfico. En mi opinión, los físicos, matemáticos y profesionales del aprendizaje automático puro son mucho más propensos a recibir una exposición profunda a la teoría de la información que, por ejemplo, estadísticos, economistas o analistas financieros cuantitativos. Además, duplicaría esto para las personas capacitadas en Europa, es decir, los europeos tienen muchas más probabilidades de estar familiarizados con TI. Sin embargo, el advenimiento de modelos para el aprendizaje estadístico está cambiando el de los científicos de datos en los Estados Unidos.
Mike Hunter
@DJohnson Minutest de minutos, pero en Gran Bretaña y quizás en otros lugares IT == tecnología de la información. De lo contrario, tus impresiones se parecen a las mías.
Nick Cox
@ NickCox Gracias, su punto también es válido para los Estados Unidos. Fue un comentario largo y, si el espacio lo permite, habría deletreado las palabras o, mejor aún, habría introducido el significado del acrónimo en un punto anterior.
Mike Hunter

Respuestas:

4

Entonces, la primera parte de la pregunta: ¿necesitan los científicos de datos conocer la teoría de la información ? Pensé que la respuesta es no hasta hace muy poco. La razón por la que cambié de opinión es un componente crucial: el ruido.

Muchos modelos de aprendizaje automático (tanto estocásticos como no) usan el ruido como parte de su proceso de codificación y transformación y en muchos de estos modelos, debe inferir la probabilidad de que el ruido afecte después de decodificar la salida transformada del modelo. Creo que esta es una parte central de la teoría de la información. No solo eso, en el aprendizaje profundo, la divergencia de KL es una medida muy importante utilizada que también proviene de la teoría de la información.

Segunda parte de la pregunta: creo que la mejor fuente es la teoría de la información, la inferencia y los algoritmos de aprendizaje de David MacKay . Comienza con la teoría de la información y toma esas ideas en inferencia e incluso en redes neuronales. El PDF es gratuito en el sitio web de Dave y las conferencias son en línea, lo cual es genial

Ambodi
fuente
3
Es un excelente libro. Cualquier persona interesada también debería echar un vistazo a en.wikipedia.org/wiki/David_J._C._MacKay
Nick Cox
Gracias por su respuesta (+1 y aceptación potencial, si no aparecerán respuestas más completas lo suficientemente pronto). Agradecimiento especial por las referencias. Me sorprende que te hayas encontrado con esta pregunta casi olvidada, pero importante. :-)
Aleksandr Blekh
Sí, es interesante Nunca debes rendirte ante una pregunta. Llegó a mí después de asistir a NIPS2016 y vi todas esas conversaciones sobre la divergencia de KL y el impacto del ruido en los codificadores.
Ambodi