¿Cuáles son los conjuntos de datos disponibles gratuitamente para la clasificación con más de 1000 características (o puntos de muestra si contiene curvas)?
Ya existe un wiki comunitario sobre conjuntos de datos gratuitos: ubicación de muestras de datos disponibles gratuitamente
Pero aquí, sería bueno tener una lista más enfocada que pueda usarse de manera más conveniente , también propongo las siguientes reglas:
- Una publicación por conjunto de datos
- Sin enlace al conjunto de conjunto de datos
cada conjunto de datos debe estar asociado con
un nombre (para averiguar de qué se trata) y un enlace al conjunto de datos (los conjuntos de datos R se pueden nombrar con el nombre del paquete)
el número de características (digamos que es p ) el tamaño del conjunto de datos (digamos que es n ) y el número de etiquetas / clase (digamos que es k )
una tasa de error típica de su experiencia (indique el algoritmo utilizado en palabras) o de la literatura (en este último caso, enlace el documento)
fuente
Respuestas:
Dorothea
n = 1950
p = 100000 (0.1M, la mitad es ruido agregado artificialmente)
k = 2 (~ 10x desequilibrado)
De NIPS2003 .
fuente
Gisette
n = 13500
p = 5000 (la mitad es ruido añadido artificialmente)
k = 2 (equilibrado)
De NIPS2003 .
fuente
Dexter
n = 2600
p = 20000 (10k + 53 es ruido artificial)
k = 2 (balanceado)
De NIPS2003 .
fuente
Arcene
n = 900
p = 10000 (3k es ruido añadido artificialmente)
k = 2 (~ balanceado)
De NIPS2003 .
fuente
Prostate (gene expression array)
Available via (among other) R package spls name of the dataset: prostate
tasa de error = 3/102 (ver aquí ) también creo que hay documentos que muestran la tasa de error 1/102. Yo diría que este es un caso de prueba fácil.
fuente