Estimando la dimensión de un conjunto de datos

9

Un colega en estadísticas aplicadas me envió esto:

"Me preguntaba si conoces alguna forma de descubrir la verdadera dimensión del dominio de una función. Por ejemplo, un círculo es una función unidimensional en un espacio bidimensional. Si no sé cómo dibujar, ¿hay un estadística que puedo calcular que me dice que es un objeto unidimensional en un espacio bidimensional. Tengo que hacer esto en situaciones de alta dimensión, así que no puedo hacer dibujos. Cualquier ayuda será muy apreciada ".

La noción de dimensión aquí está obviamente mal definida. Quiero decir, podría correr una curva a través de cualquier colección finita de puntos en un espacio de alta dimensión y decir que mis datos son unidimensionales. Pero, dependiendo de la configuración, puede haber una manera más fácil o más eficiente de describir los datos como un conjunto de dimensiones superiores.

Tales temas deben haber sido considerados en la literatura estadística, pero no estoy familiarizado con ellos. ¿Alguna sugerencia o sugerencia? ¡Gracias!


fuente

Respuestas:

7

Ver

Levina, E. y Bickel, P. (2004) "Estimación de máxima verosimilitud de la dimensión intrínseca". Avances en los sistemas de procesamiento de información neuronal 17

http://books.nips.cc/papers/files/nips17/NIPS2004_0094.pdf

Su idea es que si los datos se muestrean a partir de una densidad uniforme en incrustada en con , entonces localmente el número de puntos de datos en una pequeña bola de radio comporta más o menos como un proceso de Poisson. La velocidad del proceso está relacionada con el volumen de la pelota, que a su vez está relacionado con la dimensión intrínseca.RmRpm<pt

vqv
fuente
1
+1 ¡Buen hallazgo! El documento también tiene una breve discusión sobre el enfoque de PCA (así como algunos otros métodos).
whuber
Muchas gracias, creo que esto es lo más parecido a lo que estaba buscando mi colega.
7

Componentes principales El análisis de datos locales es un buen punto de partida. Sin embargo, debemos tener cuidado para distinguir la dimensión local (intrínseca) de la dimensión global (extrínseca). En el ejemplo de puntos en un círculo, la dimensión local es 1, pero en general los puntos dentro del círculo se encuentran en un espacio 2D. Para aplicar PCA a esto, el truco es localizar : seleccione un punto de datos y extraiga solo los que están cerca de él. Aplique PCA a este subconjunto. El número de valores propios grandes sugerirá la dimensión intrínseca. Repetir esto en otros puntos de datos indicará si los datos exhiben una dimensión intrínseca constante en todo momento. Si es así, cada uno de los resultados de PCA proporciona un atlas parcial de la variedad.

whuber
fuente
Muchas gracias por tu respuesta. Se lo pasaré a mi colega.
3

No estoy seguro acerca de la parte 'dominio de una función', pero Hausdorff Dimension parece responder a esta pregunta. Tiene la extraña propiedad de estar de acuerdo con ejemplos simples ( por ejemplo, el círculo tiene la Dimensión 1 de Hausdorff), pero de dar resultados no integrales para algunos conjuntos ('fractales').

shabbychef
fuente
1
Incluso diría la dimensión de conteo de cajas para una estadística más práctica.
Raskolnikov
2

Recomiendo leer esta encuesta: Camastra, F. (2003). Métodos de estimación de dimensionalidad de datos: una encuesta. Reconocimiento de patrones , 36 (12), 2945-2954 .

Para realizar esta estimación, encontré una muy buena caja de herramientas en Matlab Matlab Toolbox for Dimensionality Reduction . Además de las técnicas para la reducción de la dimensionalidad, la caja de herramientas contiene implementaciones de 6 técnicas para la estimación intrínseca de la dimensionalidad.

Serenidad
fuente