Los datos gaussianos distribuidos en una sola dimensión requieren dos parámetros para caracterizarlo (media, varianza), y se rumorea que alrededor de 30 muestras seleccionadas al azar suelen ser suficientes para estimar estos parámetros con una confianza razonablemente alta. Pero, ¿qué sucede a medida que aumenta el número de dimensiones?
En dos dimensiones (por ejemplo, altura, peso) se necesitan 5 parámetros para especificar una elipse de "mejor ajuste". En tres dimensiones, esto se eleva a 9 parámetros para describir un elipsoide, y en 4-D se necesitan 14 parámetros. Estoy interesado en saber si el número de muestras requeridas para estimar estos parámetros también aumenta a una tasa comparable, a una tasa más lenta o (¡por favor no!) A una tasa más alta. Mejor aún, si hubiera una regla general ampliamente aceptada que sugiera cuántas muestras se requieren para caracterizar una distribución gaussiana en un número dado de dimensiones, sería bueno saberlo.
Para ser más precisos, supongamos que queremos definir un límite simétrico de "mejor ajuste" centrado en el punto medio dentro del cual podemos estar seguros de que caerá el 95% de todas las muestras. Quiero saber cuántas muestras pueden tomar para encontrar los parámetros para aproximar este límite (intervalo en 1-D, elipse en 2-D, etc.) con una confianza adecuadamente alta (> 95%), y cómo ese número varía a medida que El número de dimensiones aumenta.
Respuestas:
La cantidad de datos necesarios para estimar los parámetros de una distribución Normal multivariada dentro de una precisión especificada a una confianza dada no varía con la dimensión, todas las demás cosas son iguales. Por lo tanto, puede aplicar cualquier regla general para dos dimensiones a problemas de dimensiones superiores sin ningún cambio en absoluto.
¿Por qué debería hacerlo? Solo hay tres tipos de parámetros: medias, variaciones y covarianzas. El error de estimación en una media depende solo de la varianza y la cantidad de datos, . Por lo tanto, cuando tiene una distribución Normal multivariada y tiene varianzas , entonces las estimaciones de dependen solo de y . Por lo tanto, para lograr una precisión adecuada en la estimación de todos los , solo necesitamos considerar la cantidad de datos necesarios para que tenga el mayor den (X1,X2,…,Xd) Xi σ2i E[Xi] σi n E[Xi] Xi σi . Por lo tanto, cuando contemplamos una sucesión de problemas de estimación para aumentar las dimensiones , todo lo que tenemos que considerar es cuánto aumentará la más grande . Cuando estos parámetros están limitados anteriormente, concluimos que la cantidad de datos necesarios no depende de la dimensión.d σi
Consideraciones similares se aplican a la estimación de las varianzas y covarianzas : si una cierta cantidad de suficientes datos para estimar uno de covarianza (o coeficiente de correlación) a una precisión deseada, a continuación, - proporciona la distribución normal subyacente tiene similares valores de parámetros: la misma cantidad de datos será suficiente para estimar cualquier covarianza o coeficiente de correlación.σ2i σij
Para ilustrar y proporcionar soporte empírico para este argumento, estudiemos algunas simulaciones. Lo siguiente crea parámetros para una distribución multinormal de dimensiones especificadas, extrae muchos conjuntos independientes de vectores idénticamente distribuidos de esa distribución, estima los parámetros de cada muestra y resume los resultados de esas estimaciones de parámetros en términos de (1) sus promedios. -para demostrar que son imparciales (y el código funciona correctamente) y (2) sus desviaciones estándar, que cuantifican la precisión de las estimaciones. (No confunda estas desviaciones estándar, que cuantifican la cantidad de variación entre las estimaciones obtenidas en múltiples iteraciones de la simulación, con las desviaciones estándar utilizadas para definir la distribución multinormal subyacente!d cambia, siempre que cambie, no introducimos variaciones mayores en la distribución multinormal subyacente.d
Los tamaños de las variaciones de la distribución subyacente se controlan en esta simulación haciendo que el valor propio más grande de la matriz de covarianza sea igual a . Esto mantiene la densidad de probabilidad "nube" dentro de los límites a medida que aumenta la dimensión, sin importar cuál sea la forma de esta nube. Las simulaciones de otros modelos de comportamiento del sistema a medida que aumenta la dimensión se pueden crear simplemente cambiando la forma en que se generan los valores propios; un ejemplo (usando una distribución Gamma) se muestra comentado en el siguiente código.1
R
Lo que estamos buscando es verificar que las desviaciones estándar de las estimaciones de los parámetros no cambien apreciablemente cuando se cambia la dimensión . Por lo tanto, muestran los resultados para dos extremos, y , utilizando la misma cantidad de datos ( ) en ambos casos. Es de destacar que el número de parámetros estimados cuando , igual a , supera con creces el número de vectores ( ) y excede incluso los números individuales ( ) en todo el conjunto de datos.d d=2 d=60 30 d=60 1890 30 30∗60=1800
Comencemos con dos dimensiones, . Hay cinco parámetros: dos variaciones (con desviaciones estándar de y en esta simulación), una covarianza (SD = ) y dos medias (SD = y ). Con diferentes simulaciones (que se pueden obtener cambiando el valor inicial de la semilla aleatoria), éstas variarán un poco, pero serán consistentemente de un tamaño comparable cuando el tamaño de la muestra sea . Por ejemplo, en la siguiente simulación, las SD son , , , yd=2 0.097 0.182 0.126 0.11 0.15 n=30 0.014 0.263 0.043 0.04 0.18 , respectivamente: todos cambiaron pero son de órdenes de magnitud comparables.
(Estas afirmaciones pueden apoyarse teóricamente, pero el punto aquí es proporcionar una demostración puramente empírica).
Ahora nos movemos a , manteniendo el tamaño de la muestra en . Específicamente, esto significa que cada muestra consta de vectores, cada uno con componentes. En lugar de enumerar todas las desviaciones estándar de , solo veamos imágenes de ellas usando histogramas para representar sus rangos.d=60 n=30 30 60 1890
Los diagramas de dispersión en la fila superior comparan los parámetros realesσ μ 104
sigma
( ) y ( ) con las estimaciones promedio realizadas durante las iteraciones en esta simulación. Las líneas de referencia grises marcan el lugar de la igualdad perfecta: claramente las estimaciones funcionan según lo previsto y son imparciales.mu
Los histogramas aparecen en la fila inferior, por separado para todas las entradas en la matriz de covarianza (izquierda) y para las medias (derecha). Las SD de las variaciones individuales tienden a estar entre y mientras que las SD de las covarianzas entre componentes separados tienden a estar entre y : exactamente en el rango alcanzado cuando . De manera similar, las DE de las estimaciones medias tienden a estar entre y , lo cual es comparable a lo que se vio cuando . Ciertamente, no hay indicios de que las SD hayan aumentado a medida que0.08 0.12 0.04 0.08 d=2 0.08 0.13 d=2 d subió de a .2 60
El código sigue.
fuente
Algunos números breves proporcionan las siguientes distribuciones de error para el ajuste de 30 muestras creadas a partir de una distribución normal estándar y luego se ajustan a un Gaussiano univariado.
Los cuartiles están indicados. Se supone que este nivel de variación se desea en el caso multidimensional.
No tengo tiempo para golpear a MatLab para obtener el resultado total, así que compartiré mi "regla de oro". El 30 se proporciona como regla general o heurística, por lo que se supone que las heurísticas no son inaceptables.
Mi heurística es usar el triángulo de Pascal multiplicado por el caso univariante.
Si estoy usando datos 2D, entonces voy a la segunda fila y lo sumo para obtener el doble de muestras, o 60 muestras. Para los datos en 3D, voy a la tercera fila y lo sumo para obtener 4 veces el número de muestras o 120 muestras. Para los datos 5d, voy a la quinta fila y lo sumo para obtener 16 veces el número de muestras, o 480 muestras.
La mejor de las suertes.
EDITAR:
Era intuitivo, pero todo tiene que ser defendido en matemáticas. No puedo simplemente dar saltos de la formulación de formas polinómicas de elementos finitos con experiencia para obtener un estadio.
La ecuación para la suma de la fila del triángulo de Pascal es . 2 kkth 2k
Mi idea para el enfoque aquí es equiparar el AIC de una distribución de dimensiones superiores con más muestras a una distribución dimensional reducida con menos muestras.
El Criterio de información de Akaike (AIC) se define como donde es la suma residual de cuadrados, es el recuento de muestras y es el recuento de parámetros para el modelo . RSSnkAIC=nlog(RSSn)+2∗k RSS n k
Para cada dimensión que eliminamos, esto significa que la media pierde una fila y la covarianza pierde tanto una fila como una columna. Podemos decir esto como
de
Suponiendo que el error por punto de muestra es constante, relaciona la suma residual de los cuadrados con el recuento de la muestra, y el término en el logaritmo permanece constante. La diferencia en el recuento de muestras se convierte en una constante de escala.
entonces tenemos:
Resolver para el aumento de muestras con dimensión da:
Entonces, ¿cuál es la función de escala? Supongamos que para un Gaussiano multivariado bidimensional, el número de muestras requeridas es 15 por parámetro. Hay 2 medias y 4 elementos de la covarianza, por lo tanto, 6 parámetros o 90 muestras. La diferencia es de 60 muestras, el valor de .A−1=5
En este punto, diría que la heurística comienza un poco baja pero termina siendo aproximadamente el doble de la cantidad de muestras requeridas. Su rango de mejor utilidad, en mi opinión personal, es de alrededor de 4 dimensiones más o menos.
EDITAR:
Así que he leído la respuesta de @whuber y me gusta. Es empírico, y en este caso es autoritario. Yo voté por su respuesta.
A continuación, intento discutir y espero poder utilizar más de ~ 300 caracteres, y espero poder incrustar imágenes. Por lo tanto, estoy discutiendo dentro de los límites de la respuesta. Espero que esté bien.
En este momento no estoy convencido de que el uso de AIC para esto, o cómo se usaron el tamaño de la muestra y los tamaños de los parámetros, fuera incorrecto.
Próximos pasos:
Comentarios y sugerencias bienvenidos.
fuente