Un colega en estadísticas aplicadas me envió esto:
"Me preguntaba si conoces alguna forma de descubrir la verdadera dimensión del dominio de una función. Por ejemplo, un círculo es una función unidimensional en un espacio bidimensional. Si no sé cómo dibujar, ¿hay un estadística que puedo calcular que me dice que es un objeto unidimensional en un espacio bidimensional. Tengo que hacer esto en situaciones de alta dimensión, así que no puedo hacer dibujos. Cualquier ayuda será muy apreciada ".
La noción de dimensión aquí está obviamente mal definida. Quiero decir, podría correr una curva a través de cualquier colección finita de puntos en un espacio de alta dimensión y decir que mis datos son unidimensionales. Pero, dependiendo de la configuración, puede haber una manera más fácil o más eficiente de describir los datos como un conjunto de dimensiones superiores.
Tales temas deben haber sido considerados en la literatura estadística, pero no estoy familiarizado con ellos. ¿Alguna sugerencia o sugerencia? ¡Gracias!
Componentes principales El análisis de datos locales es un buen punto de partida. Sin embargo, debemos tener cuidado para distinguir la dimensión local (intrínseca) de la dimensión global (extrínseca). En el ejemplo de puntos en un círculo, la dimensión local es 1, pero en general los puntos dentro del círculo se encuentran en un espacio 2D. Para aplicar PCA a esto, el truco es localizar : seleccione un punto de datos y extraiga solo los que están cerca de él. Aplique PCA a este subconjunto. El número de valores propios grandes sugerirá la dimensión intrínseca. Repetir esto en otros puntos de datos indicará si los datos exhiben una dimensión intrínseca constante en todo momento. Si es así, cada uno de los resultados de PCA proporciona un atlas parcial de la variedad.
fuente
No estoy seguro acerca de la parte 'dominio de una función', pero Hausdorff Dimension parece responder a esta pregunta. Tiene la extraña propiedad de estar de acuerdo con ejemplos simples ( por ejemplo, el círculo tiene la Dimensión 1 de Hausdorff), pero de dar resultados no integrales para algunos conjuntos ('fractales').
fuente
Recomiendo leer esta encuesta: Camastra, F. (2003). Métodos de estimación de dimensionalidad de datos: una encuesta. Reconocimiento de patrones , 36 (12), 2945-2954 .
Para realizar esta estimación, encontré una muy buena caja de herramientas en Matlab Matlab Toolbox for Dimensionality Reduction . Además de las técnicas para la reducción de la dimensionalidad, la caja de herramientas contiene implementaciones de 6 técnicas para la estimación intrínseca de la dimensionalidad.
fuente