Me doy cuenta de que esto es subjetivo, pero pensé que sería bueno hablar sobre nuestros conjuntos de datos favoritos y lo que creemos que los hace interesantes. Hay una gran cantidad de datos, y con todas las API (por ejemplo, Datamob ) junto con los conjuntos de datos clásicos (por ejemplo, datos R ), creo que esto podría tener algunas respuestas muy interesantes.
Por ejemplo, siempre me han gustado los conjuntos de datos como el conjunto de datos "Boston Housing" (a pesar de las desafortunadas implicaciones) y los "mtcars" por su versatilidad. Desde un punto de vista pedagógico, uno puede mostrar los méritos de una amplia variedad de técnicas estadísticas que los utilizan; y el conjunto de datos de iris de Anderson / Fisher siempre tendrá un lugar en mi corazón.
Pensamientos?
Respuestas:
El estudio de bajo peso al nacer
Este es uno de los conjuntos de datos del libro de texto de Hosmer y Lemeshow sobre Regresión logística aplicada (2000, Wiley, 2ª ed.). El objetivo de este estudio prospectivo fue identificar los factores de riesgo asociados con el nacimiento de un bebé con bajo peso al nacer (que pesa menos de 2,500 gramos). Se recopilaron datos sobre 189 mujeres, 59 de las cuales tenían bebés con bajo peso al nacer y 130 de los cuales tenían bebés con peso normal al nacer. Cuatro variables que se consideraron importantes fueron la edad, el peso del sujeto en su último período menstrual, la raza y el número de visitas al médico durante el primer trimestre del embarazo.
Está disponible en R como
data(birthwt, package="MASS")
o en Stata conwebuse lbw
. Aquí aparece una versión de texto: lowbwt.dat ( descripción ). Cabe destacar que hay varias versiones de este conjunto de datos porque se extendió a un estudio de casos y controles (1-1 o 1-3, según la edad), como lo ilustran Hosmer y Lemeshow en el capítulo 7 de ALR.Solía enseñar cursos introductorios basados en este conjunto de datos por las siguientes razones:
Otros puntos que se pueden enfatizar, dependiendo de la audiencia y el nivel de experiencia con el software estadístico, o las estadísticas en general.
En cuanto al conjunto de datos disponible en R, los predictores categóricos se puntúan como enteros (por ejemplo, para la etnia de la madre tenemos '1' = blanco, '2' = negro, '3' = otro), a pesar del hecho de que el orden natural para algunos predictores (p. ej., número de trabajos prematuros previos o número de visitas al médico) o el uso de etiquetas explícitas (siempre es una buena idea usar 'sí' / 'no' en lugar de 1/0 para variables binarias, incluso si eso no ' ¡No cambie nada en la matriz de diseño!) simplemente están ausentes. Como tal, es fácil discutir qué problemas pueden surgir al ignorar los niveles o las unidades de medida en el análisis de datos.
Las variables de tipos mixtos son interesantes cuando se trata de hacer un análisis exploratorio y discutir qué tipo de pantallas gráficas son apropiadas para resumir relaciones univariadas, bivariadas o trivariadas. Del mismo modo, producir tablas de resumen agradables y, en general, informes, es otro aspecto interesante de este conjunto de datos (pero el
Hmisc::summary.formula
comando lo hace tan fácil bajo R).Hosmer y Lemeshow informaron que los datos reales fueron modificados para proteger la confidencialidad del sujeto (p. 25). Puede ser interesante discutir temas de confidencialidad de datos, como se hizo en uno de nuestros anteriores Journal Club , pero ver su transcripción . (Debo admitir que nunca entraré en muchos detalles con eso).
Es fácil introducir algunos valores faltantes o valores erróneos (que son problemas comunes en la vida real de un estadístico), que conducen a discutir (a) su detección a través del libro de códigos (
Hmisc::describe
o Statacodebook
) o gráficos exploratorios (¡siempre grafica tus datos primero!) y (b) posible remedio (imputación de datos, eliminación por listas o medida de asociación por pares, etc.).fuente
Por supuesto, los conjuntos de datos Anscombe 4 son muy buenos para la enseñanza: se ven muy diferentes, pero tienen propiedades estadísticas simples idénticas.
También sugiero los conjuntos de datos de la Copa KDD http://www.kdd.org/kddcup/ porque han sido bien estudiados y hay muchas soluciones, para que los estudiantes puedan comparar sus resultados y ver cómo se clasifican.
En mi curso de minería de datos, proporcioné un concurso de conjuntos de datos de microarrays que pueden usar los profesores http://www.kdnuggets.com/data_mining_course/
fuente
Muchos de mis cursos de Análisis Estadístico en Cal Poly han utilizado el conjunto de datos "Iris" que ya está en R. Tiene variables categóricas y variables altamente correlacionadas.
fuente
El conjunto de datos Titanic utilizado por Harrell en "Estrategias de modelado de regresión". Utilizo una versión simplificada de su análisis al explicar la regresión logística, explicando la supervivencia usando sexo, clase y edad.
El conjunto de datos de Loyn discutido en "Diseño experimental y análisis de datos para biólogos" por Gerry Quinn y Mick Keough contiene buenos problemas que requieren transformación para la regresión lineal múltiple.
fuente