¿Qué aspectos del conjunto de datos "Iris" lo hacen tan exitoso como un conjunto de datos de ejemplo / enseñanza / prueba

El conjunto de datos "Iris" es probablemente familiar para la mayoría de las personas aquí: es uno de los conjuntos de datos de prueba canónicos y un conjunto de datos de ejemplo para todo, desde la visualización de datos hasta el aprendizaje automático. Por ejemplo, todos en esta pregunta terminaron usándolo para una discusión de diagramas de dispersión separados por tratamiento.

¿Qué hace que el conjunto de datos de Iris sea tan útil? ¿Solo que estaba allí primero? Si alguien intentara crear un conjunto de datos de prueba / ejemplo útil, ¿qué lecciones podrían extraer de él?

dataset Fomite
fuente

Pequeño pero no trivial. Simple pero desafiante. Datos reales La reputación de Fisher, aunque no son sus datos. Tradicion. Inercia. Continuidad. Puedes encontrar fotos de flores para explicarlo.

Nick Cox

Y ahora funciona como un reloj.

Michael M

Yo diría que @NickCox está justo en la marca.

Marc Claesen

@NickCox ¿Desea ampliar eso un poco como respuesta?

Fomite

El conjunto de datos 'iris' se puede utilizar para análisis discriminante, así como para la clasificación no supervisada (agrupación basada en modelos o sin modelos) con fines ilustrativos. Esta pregunta merece una referencia cruzada a ¿Cuáles son los buenos conjuntos de datos para ilustrar aspectos particulares del análisis estadístico?

chl

Respuestas:

El conjunto de datos Iris es merecidamente ampliamente utilizado en toda la ciencia estadística, especialmente para ilustrar varios problemas en gráficos estadísticos, estadísticas multivariadas y aprendizaje automático.

Con 150 observaciones, es pequeño pero no trivial.
La tarea que plantea discriminar entre tres especies de Iris de las medidas de sus pétalos y sépalos es simple pero desafiante.
Los datos son datos reales, pero aparentemente de buena calidad. En principio y en la práctica, los conjuntos de datos de prueba podrían ser sintéticos y eso podría ser necesario o útil para hacer un punto. Sin embargo, pocas personas se oponen a los datos reales.
Los datos fueron utilizados por el célebre estadístico británico Ronald Fisher en 1936. (Más tarde fue nombrado caballero y se convirtió en Sir Ronald). Al menos a algunos maestros les gusta la idea de un conjunto de datos con un enlace a alguien tan conocido en el campo. Los datos fueron publicados originalmente por el botánico de mentalidad estadística Edgar S. Anderson, pero ese origen anterior no disminuye la asociación.
El uso de algunos conjuntos de datos famosos es una de las tradiciones que transmitimos, como decirle a cada nueva generación que Student trabajó para Guinness o que muchos estadísticos famosos se pelearon entre sí. Eso puede sonar como inercia, pero al comparar métodos antiguos y nuevos, y al evaluar cualquier método, a menudo se considera útil probarlos en conjuntos de datos conocidos, manteniendo así cierta continuidad en la forma en que evaluamos los métodos.
Por último, pero no menos importante, el conjunto de datos de Iris se puede combinar de forma agradable con imágenes de las flores en cuestión, como, por ejemplo, la útil entrada de Wikipedia en el conjunto de datos .

Nota. Haga su parte para la corrección biológica al citar cuidadosamente las plantas en cuestión. Iris setosa , Iris versicolor e Iris virginica son tres especies (no variedades, como en algunas cuentas estadísticas); sus binominales deben presentarse en cursiva, como aquí; e Iris como nombre del género y los otros nombres que indican especies particulares deben comenzar con mayúsculas y minúsculas, respectivamente.

Nick Cox
fuente

(+1) Gracias por ampliar tu comentario en una respuesta.

cardenal

Daría un +1 adicional si pudiera por una postura de principios para la corrección biológica.

Fomite

El conjunto de datos es lo suficientemente grande e interesante como para no ser trivial, pero lo suficientemente pequeño como para "caber en su bolsillo" y no ralentizar la experimentación con él.

Creo que un aspecto clave es que también enseña sobre el ajuste excesivo. No hay suficientes columnas para dar una puntuación perfecta: vemos esto inmediatamente cuando miramos los diagramas de dispersión, y se superponen y se topan. Por lo tanto, cualquier enfoque de aprendizaje automático que obtenga una puntuación perfecta puede considerarse sospechoso.

Darren Cook
fuente