Propósito de visualizar datos de alta dimensión?

23

Existen muchas técnicas para visualizar conjuntos de datos de alta dimensión, como T-SNE, isomap, PCA, PCA supervisada, etc. Y hacemos los movimientos de proyectar los datos en un espacio 2D o 3D, por lo que tenemos "imágenes bonitas ". Aquí se describen algunos de estos métodos de inclusión (aprendizaje múltiple) .

ingrese la descripción de la imagen aquí

Pero, ¿es esta "imagen bonita" realmente significativa? ¿Qué posibles ideas puede obtener alguien tratando de visualizar este espacio incrustado?

Pregunto porque la proyección hacia este espacio incrustado generalmente no tiene sentido. Por ejemplo, si proyecta sus datos a componentes principales generados por PCA, esos componentes principales (vectores específicos) no corresponden a las características del conjunto de datos; son su propio espacio de características.

Del mismo modo, t-SNE proyecta sus datos en un espacio, donde los elementos están cerca uno del otro si minimizan alguna divergencia de KL. Este ya no es el espacio de características original. (Corríjame si me equivoco, pero ni siquiera creo que la comunidad de ML haga un gran esfuerzo para usar t-SNE para ayudar a la clasificación; sin embargo, ese es un problema diferente al de la visualización de datos).

Estoy muy confundido por qué las personas hacen tanto alboroto por algunas de estas visualizaciones.

hlin117
fuente
No se trata solo de la "imagen bonita", sino que el propósito de visualizar datos de alta dimensión es similar para visualizar datos regulares de 2/3 dimensiones. Por ejemplo, correlación, límites y valores atípicos.
eliasah
@eliasah: Entiendo eso. Pero el espacio en el que proyecta sus datos ya no es el espacio original, lo que puede distorsionar algunas de las formas en las dimensiones altas. Digamos que tienes una gota en 4 dimensiones. Tan pronto como lo proyecte a 2D o 3D, su estructura ya está destruida.
hlin117
No si los datos se encuentran en una variedad de baja dimensión, como en su ilustración. Determinar esta variedad es el objetivo del aprendizaje múltiple.
Emre

Respuestas:

9

Tomo el procesamiento del lenguaje natural como ejemplo porque ese es el campo en el que tengo más experiencia, por lo que animo a otros a compartir sus ideas en otros campos, como visión artificial, bioestadística, series de tiempo, etc. Estoy seguro de que en esos campos hay ejemplos similares

Estoy de acuerdo en que a veces las visualizaciones de modelos pueden no tener sentido, pero creo que el objetivo principal de las visualizaciones de este tipo es ayudarnos a verificar si el modelo realmente se relaciona con la intuición humana o algún otro modelo (no computacional). Además, el análisis exploratorio de datos se puede realizar en los datos.

Supongamos que tenemos un modelo de incrustación de palabras construido a partir del corpus de Wikipedia usando Gensim

model = gensim.models.Word2Vec(sentences, min_count=2)

Entonces tendríamos un vector de 100 dimensiones para cada palabra representada en ese corpus que está presente al menos dos veces. Entonces, si quisiéramos visualizar estas palabras, tendríamos que reducirlas a 2 o 3 dimensiones usando el algoritmo t-sne. Aquí es donde surgen características muy interesantes.

Toma el ejemplo:

vector ("rey") + vector ("hombre") - vector ("mujer") = vector ("reina")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

Aquí cada dirección codifica ciertas características semánticas. Lo mismo se puede hacer en 3d

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(fuente: tensorflow.org )

Vea cómo en este ejemplo el tiempo pasado está ubicado en una posición determinada, respectiva a su participio. Lo mismo para el género. Lo mismo con países y capitales.

En el mundo de la incrustación de palabras, los modelos más antiguos e ingenuos no tenían esta propiedad.

Vea esta conferencia de Stanford para más detalles. Representaciones simples de vectores de palabras: word2vec, GloVe

Solo se limitaron a agrupar palabras similares sin tener en cuenta la semántica (el género o el tiempo verbal no se codificaron como direcciones). Como era de esperar, los modelos que tienen una codificación semántica como direcciones en dimensiones más bajas son más precisos. Y lo que es más importante, se pueden usar para explorar cada punto de datos de una manera más apropiada.

En este caso particular, no creo que t-SNE se use para ayudar a la clasificación per se, es más como un control de cordura para su modelo y, a veces, para obtener información sobre el corpus particular que está utilizando. En cuanto al problema de que los vectores ya no están en el espacio de características original. Richard Socher explica en la conferencia (enlace de arriba) que los vectores de baja dimensión comparten distribuciones estadísticas con su propia representación más grande, así como otras propiedades estadísticas que hacen posible analizar visualmente en vectores de incrustación de dimensiones más bajas.

Recursos adicionales y fuentes de imágenes:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

wacax
fuente
11

En primer lugar, su explicación sobre los métodos es correcta. El punto es que los algoritmos de incrustación no son solo para visualizar, sino que básicamente reducen la dimensionalidad para hacer frente a dos problemas principales en el análisis estadístico de datos, a saber, la maldición de la dimensión y el problema de tamaño de muestra bajo para que no se suponga que representen características entendidas físicamente y ¡no solo son significativos sino también necesarios para el análisis de datos!

En realidad, la visualización es casi el último uso de los métodos de incrustación. Proyectar datos de alta dimensión en un espacio de menor dimensión ayuda a preservar las distancias reales en pares (principalmente la euclidiana) que se distorsionan en las altas dimensiones o capturan la mayor cantidad de información incrustada en la variación de las diferentes características.

Kasra Manshaei
fuente
10

A Richard Hamming se le atribuye la frase: "El propósito de la informática es la percepción, no los números". En este artículo académico de 1973 (ver discusión en ¿Cuál es el famoso conjunto de datos que se ve totalmente diferente pero tiene estadísticas de resumen similares?), Francis Anscombe argumenta que "los gráficos son esenciales para un buen análisis estadístico". El cuarteto de Anscombe es un favorito desde hace mucho tiempo: mismas estadísticas y regresión, baja dimensión, pero con un comportamiento muy diferente con respecto al ruido, los valores atípicos y la dependencia. La proyección de datos en 11 dimensiones en las dos dimensiones que se muestran a continuación es bastante engañosa: una tiene correlación y dispersión, la segunda (de abajo hacia abajo) tiene una coincidencia exacta, excepto una atípica. El tercero tiene una relación clara, pero no lineal. El cuarto muestra que las variables potencialmente no están relacionadas, excepto por un umbral.

ingrese la descripción de la imagen aquí

En el libro Análisis multivariado para las ciencias bioconductuales y sociales de Bruce L. Brown et al. , podemos encontrar:

En su trabajo de 1990 "Dibujando cosas juntos", Latour afirma que la mentalidad de los científicos duros es una intensa "obsesión" con el grafismo.

Ya sea limitado al espacio 3D, hasta seis gráficos de dimensiones (espacio, color, forma y tiempo), o incluso imaginando la décima dimensión , los humanos tienen vistas limitadas. Relaciones entre fenómenos observables: no.

Además, la maldición de las dimensiones está clasificada incluso con paradojas de baja dimensión, para dar algunas:

Incluso si todas las normas son equivalentes en dimensiones finitas, las relaciones entre variables pueden ser engañosas. Esta es una razón para preservar distancias de un espacio a otro. Tales conceptos están en el corazón de las incrustaciones de dimensiones inferiores para señales (como la detección de compresión y el lema de Johnson-Lindenstauss sobre incrustaciones de puntos de baja distorsión desde el espacio euclidiano de alta dimensión a baja dimensión) o características ( transformaciones de dispersión para clasificaciones) .

Por lo tanto, la visualización es otra ayuda para obtener información sobre los datos, y va de la mano con los cálculos, incluida la reducción de dimensiones.

Último ejemplo: poner tocar norte-esferas en un norte-cubo (la burbuja dentro de la caja, tomada de ¿Los buenos matemáticos visualizan todo (incluso el álgebra)? ):

Paradoja de la caja de pizza

En dos dimensiones, la bola azul central es pequeña. En 3D también. Pero muy rápidamente, la bola central crece y su radio excede el del cubo. Esta idea es vital y agrupada, por ejemplo.

Laurent Duval
fuente
4

Basado en las declaraciones y las discusiones, creo que hay un punto importante para distinguir. Una transformación a un espacio dimensional inferior puede reducir la información, que es algo diferente de hacer que la información carezca de sentido . Permítanme usar una siguiente analogía:

Observar imágenes (2D) de nuestro mundo (3D) es una práctica habitual. Un método de visualización proporciona solo "anteojos" diferentes para ver un espacio de alta dimensión.

Una buena cosa para "confiar" en un método de visualización es comprender lo interno. Mi ejemplo favorito es el MDS . Es fácil implementar este método por su cuenta utilizando alguna herramienta de optimización (por ejemplo, R optim ). Para que pueda ver cómo funciona el método, puede medir el error del resultado, etc.

Al final, obtiene una imagen que conserva la similitud de los datos originales con cierto grado de precisión. No más, pero no menos.

Bombardero Marmite
fuente
4

A veces, es significativo visualizar datos de alta dimensión, ya que puede decirnos física.

Hay al menos un ejemplo en astrofísica en el que proyecta sus datos a los componentes principales generados por PCA y esos componentes principales corresponden a mucha información física sobre las galaxias. Para más detalles, vea la última figura en http://www.astroml.org/sklearn_tutorial/dimensionality_reduction.html#id2

y el papel en

http://iopscience.iop.org/article/10.1086/425626/pdf

Aquí está la idea básica. Los autores aplican PCA a muchos espectros (por ejemplo, 10,000) desde un telescopio. Cada espectro tiene ~ 1000 atributos. Dado que este conjunto de datos tiene grandes dimensiones, es difícil visualizarlo. Sin embargo, los primeros 4 componentes de PCA revelan mucha física sobre los espectros (ver secciones 4.1-4.4 en el documento anterior).

Yuqian
fuente
4

Tomando un enfoque ligeramente diferente a las otras excelentes respuestas aquí, la "imagen bonita" vale más que mil palabras. En última instancia, deberá transmitir sus hallazgos a alguien que no sepa leer tanto o que simplemente no tenga el tiempo, el interés o lo que sea, para comprender la situación completa. Eso no significa que no podamos ayudar a la persona a comprender, al menos un concepto general o una parte de la realidad. Esto es lo que hacen libros como Freakonomics: hay poco o nada de matemática, no hay conjuntos de datos y, sin embargo, los hallazgos aún se presentan.

Desde las artes, mira al mariscal Ney en Retreat en Rusia . Sin embargo, esta simplificación masiva de las guerras napoleónicas transmite un gran significado y permite a las personas con el conocimiento más ignorante de la guerra comprender la brutalidad, el clima, el paisaje, la muerte y el decoro que impregna la invasión de Rusia.

En última instancia, los gráficos son simplemente comunicación, y para bien o para mal, la comunicación humana a menudo se centra en la fusión, la simplificación y la brevedad.

Dave
fuente
3

Excelente pregunta En el capítulo 4 de "Iluminando el camino, la agenda de investigación y desarrollo para el análisis visual" de James J. Thomas y Kristin A. Cook, se trata una discusión sobre representaciones de datos y transformaciones de datos. En mi investigación, he abordado esta cuestión en el contexto de la PCA y el análisis factorial. Mi breve respuesta es que las visualizaciones son útiles si uno tiene la transformación de datos para pasar del espacio de visualización al espacio de datos original. Esto también se llevaría a cabo dentro de un marco de análisis visual.

Hariz Naam
fuente
Tener un mapeo del espacio proyectado al espacio original tiene sentido. Sin embargo, ¿hay otros casos de uso?
hlin117
También miré el capítulo 4 de "Iluminando el camino, la agenda de investigación y desarrollo para el análisis visual". No menciona nada sobre visualizaciones de alta dimensión en un subespacio visible.
hlin117