¿Hay alguna serie numérica pregenerada con propiedades estadísticas conocidas?

8

Estoy tratando de probar un programa que dice calcular algunas propiedades estadísticas de una secuencia numérica (como media, mediana, desviación estándar, etc.). Las secuencias simples y cortas pasan bien la prueba, pero me gustaría desafiar el programa con secuencias largas o secuencias con valores grandes y pequeños (para probar desbordamientos / desbordamientos), etc. Entonces, ¿hay algún software o recurso en línea u otro fuente de diferentes secuencias numéricas con propiedades estadísticas conocidas?

mbaitoff
fuente

Respuestas:

9

El Instituto Nacional de Estándares y Tecnología de EE. UU. Tiene un conjunto de conjuntos de datos de referencia estadística "que proporciona conjuntos de datos de referencia con valores certificados para una variedad de métodos estadísticos", incluido un conjunto etiquetado como 'estadísticas de resumen univariadas' con valores certificados para la media, la desviación estándar y lag-1 autocorrelación.

No parece incluir valores de la mediana, pero el cálculo preciso de la mediana no debería ser un problema. El cálculo eficiente de la mediana de la muestra es un poco más difícil.

una parada
fuente
Esos conjuntos de datos parecen ser bastante cortos: varios miles de valores como máximo. ¿Hay secuencias largas y secuencias con algunos valores extremos para probar desbordamientos y pérdida de precisión? Además, ¿hay propiedades estadísticas del "orden superior" disponibles para estos conjuntos, como asimetría, curtosis, etc.?
mbaitoff
1

Puede tomar su caja de herramientas de estadísticas favorita (la mía es R) y usarla para comenzar a generar largas series de datos. En R, por ejemplo, es posible generar datos de todo tipo de distribuciones. De esta manera, puede validar que este programa que está probando está en línea con su otro programa de estadísticas. Eso solo compara el rendimiento con, por ejemplo, R, pero confiaría en R a este respecto :).

Paul Hiemstra
fuente
Estoy buscando no solo secuencias, sino secuencias con posibles dificultades. El tipo de distribución no es muy relevante aquí.
mbaitoff