Hoy me encontré con el libro "Teoría de la información: una introducción tutorial" de James Stone y pensé por un momento o dos sobre el alcance del uso de la teoría de la información en la ciencia de datos aplicada (si no se siente cómodo con este término todavía algo confuso, pensar en el análisis de datos , del cual la ciencia de datos de mi humilde opinión es una versión glorificada de). Soy muy consciente del uso significativo de los enfoques , métodos y medidas basados en la teoría de la información , especialmente la entropía , bajo el capó de varias técnicas estadísticas y métodos de análisis de datos.
Sin embargo, tengo curiosidad acerca de la extensión / nivel de conocimiento que se necesita para que un científico social aplicado seleccione y aplique con éxito esos conceptos, medidas y herramientas sin profundizar demasiado en los orígenes matemáticos de la teoría. Espero sus respuestas, que podrían abordar mi preocupación dentro del contexto del libro mencionado anteriormente (u otros libros similares, no dude en recomendarlo) o en general.
También agradecería algunas recomendaciones para fuentes impresas o en línea que analicen la teoría de la información y sus conceptos, enfoques, métodos y medidas en el contexto (en comparación con) otros (más) enfoques estadísticos tradicionales ( frecuentista y bayesiano ).
fuente
Respuestas:
Entonces, la primera parte de la pregunta: ¿necesitan los científicos de datos conocer la teoría de la información ? Pensé que la respuesta es no hasta hace muy poco. La razón por la que cambié de opinión es un componente crucial: el ruido.
Muchos modelos de aprendizaje automático (tanto estocásticos como no) usan el ruido como parte de su proceso de codificación y transformación y en muchos de estos modelos, debe inferir la probabilidad de que el ruido afecte después de decodificar la salida transformada del modelo. Creo que esta es una parte central de la teoría de la información. No solo eso, en el aprendizaje profundo, la divergencia de KL es una medida muy importante utilizada que también proviene de la teoría de la información.
Segunda parte de la pregunta: creo que la mejor fuente es la teoría de la información, la inferencia y los algoritmos de aprendizaje de David MacKay . Comienza con la teoría de la información y toma esas ideas en inferencia e incluso en redes neuronales. El PDF es gratuito en el sitio web de Dave y las conferencias son en línea, lo cual es genial
fuente