El conjunto de datos "Iris" es probablemente familiar para la mayoría de las personas aquí: es uno de los conjuntos de datos de prueba canónicos y un conjunto de datos de ejemplo para todo, desde la visualización de datos hasta el aprendizaje automático. Por ejemplo, todos en esta pregunta terminaron usándolo para una discusión de diagramas de dispersión separados por tratamiento.
¿Qué hace que el conjunto de datos de Iris sea tan útil? ¿Solo que estaba allí primero? Si alguien intentara crear un conjunto de datos de prueba / ejemplo útil, ¿qué lecciones podrían extraer de él?
Respuestas:
El conjunto de datos Iris es merecidamente ampliamente utilizado en toda la ciencia estadística, especialmente para ilustrar varios problemas en gráficos estadísticos, estadísticas multivariadas y aprendizaje automático.
Con 150 observaciones, es pequeño pero no trivial.
La tarea que plantea discriminar entre tres especies de Iris de las medidas de sus pétalos y sépalos es simple pero desafiante.
Los datos son datos reales, pero aparentemente de buena calidad. En principio y en la práctica, los conjuntos de datos de prueba podrían ser sintéticos y eso podría ser necesario o útil para hacer un punto. Sin embargo, pocas personas se oponen a los datos reales.
Los datos fueron utilizados por el célebre estadístico británico Ronald Fisher en 1936. (Más tarde fue nombrado caballero y se convirtió en Sir Ronald). Al menos a algunos maestros les gusta la idea de un conjunto de datos con un enlace a alguien tan conocido en el campo. Los datos fueron publicados originalmente por el botánico de mentalidad estadística Edgar S. Anderson, pero ese origen anterior no disminuye la asociación.
El uso de algunos conjuntos de datos famosos es una de las tradiciones que transmitimos, como decirle a cada nueva generación que Student trabajó para Guinness o que muchos estadísticos famosos se pelearon entre sí. Eso puede sonar como inercia, pero al comparar métodos antiguos y nuevos, y al evaluar cualquier método, a menudo se considera útil probarlos en conjuntos de datos conocidos, manteniendo así cierta continuidad en la forma en que evaluamos los métodos.
Por último, pero no menos importante, el conjunto de datos de Iris se puede combinar de forma agradable con imágenes de las flores en cuestión, como, por ejemplo, la útil entrada de Wikipedia en el conjunto de datos .
Nota. Haga su parte para la corrección biológica al citar cuidadosamente las plantas en cuestión. Iris setosa , Iris versicolor e Iris virginica son tres especies (no variedades, como en algunas cuentas estadísticas); sus binominales deben presentarse en cursiva, como aquí; e Iris como nombre del género y los otros nombres que indican especies particulares deben comenzar con mayúsculas y minúsculas, respectivamente.
fuente
El conjunto de datos es lo suficientemente grande e interesante como para no ser trivial, pero lo suficientemente pequeño como para "caber en su bolsillo" y no ralentizar la experimentación con él.
Creo que un aspecto clave es que también enseña sobre el ajuste excesivo. No hay suficientes columnas para dar una puntuación perfecta: vemos esto inmediatamente cuando miramos los diagramas de dispersión, y se superponen y se topan. Por lo tanto, cualquier enfoque de aprendizaje automático que obtenga una puntuación perfecta puede considerarse sospechoso.
fuente