¿Cuáles son buenos conjuntos de datos para ilustrar aspectos particulares del análisis estadístico?

16

Me doy cuenta de que esto es subjetivo, pero pensé que sería bueno hablar sobre nuestros conjuntos de datos favoritos y lo que creemos que los hace interesantes. Hay una gran cantidad de datos, y con todas las API (por ejemplo, Datamob ) junto con los conjuntos de datos clásicos (por ejemplo, datos R ), creo que esto podría tener algunas respuestas muy interesantes.

Por ejemplo, siempre me han gustado los conjuntos de datos como el conjunto de datos "Boston Housing" (a pesar de las desafortunadas implicaciones) y los "mtcars" por su versatilidad. Desde un punto de vista pedagógico, uno puede mostrar los méritos de una amplia variedad de técnicas estadísticas que los utilizan; y el conjunto de datos de iris de Anderson / Fisher siempre tendrá un lugar en mi corazón.

Pensamientos?

DA
fuente
2
El que se usa para mi disertación, porque me dará un doctorado si lo analizo bien>.>
Fomite
33
Bienvenido a Cross Validated! Está diseñado como un sitio de preguntas y respuestas para preguntas con respuestas reales, no como un foro de discusión. Como tal, no creo que este sea el tipo de pregunta que queremos en este sitio. Por favor, consulte las preguntas frecuentes .
Michael McGowan
44
Soy consciente de que está diseñado como un Q&A, pero con preguntas como "¿Cuál es tu dibujo animado de estadísticas favorito?" siendo votado altamente, pensé que esto no sería terriblemente inapropiado. Especialmente pedagógicamente, si alguien está tratando de aprender sobre análisis de datos y técnicas exploratorias, podría ser útil obtener algunos comentarios sobre los conjuntos de datos públicos que ofrecen una estructura rica y tienen una gran cantidad de historia e investigación detrás de ellos.
DA
44
Me inclino a dejar que la comunidad decida si esto debe cerrarse (como no constructivo) o no, aunque agregaría que las respuestas exhaustivas y argumentativas podrían servir como soporte para futuras preguntas sobre aspectos particulares del análisis de datos. Mientras tanto, estoy convirtiendo esto a CW porque, obviamente, no hay una mejor respuesta.
chl
2
Esta pregunta y sus respuestas son muy útiles para mí. Por favor no lo elimine.
dsign

Respuestas:

12

El estudio de bajo peso al nacer

Este es uno de los conjuntos de datos del libro de texto de Hosmer y Lemeshow sobre Regresión logística aplicada (2000, Wiley, 2ª ed.). El objetivo de este estudio prospectivo fue identificar los factores de riesgo asociados con el nacimiento de un bebé con bajo peso al nacer (que pesa menos de 2,500 gramos). Se recopilaron datos sobre 189 mujeres, 59 de las cuales tenían bebés con bajo peso al nacer y 130 de los cuales tenían bebés con peso normal al nacer. Cuatro variables que se consideraron importantes fueron la edad, el peso del sujeto en su último período menstrual, la raza y el número de visitas al médico durante el primer trimestre del embarazo.

Está disponible en R como data(birthwt, package="MASS")o en Stata con webuse lbw. Aquí aparece una versión de texto: lowbwt.dat ( descripción ). Cabe destacar que hay varias versiones de este conjunto de datos porque se extendió a un estudio de casos y controles (1-1 o 1-3, según la edad), como lo ilustran Hosmer y Lemeshow en el capítulo 7 de ALR.

Solía ​​enseñar cursos introductorios basados ​​en este conjunto de datos por las siguientes razones:

  • Es interesante desde una perspectiva histórica y epidemiológica (los datos se recopilaron en 1986); No se requiere experiencia previa en medicina o estadística para comprender las ideas principales y qué preguntas se pueden hacer de ese estudio.
  • χ2
  • Permite discutir diferentes perspectivas de modelado (enfoques explicativos o predictivos) y la implicación del esquema de muestreo al desarrollar modelos (estratificación / casos coincidentes).

Otros puntos que se pueden enfatizar, dependiendo de la audiencia y el nivel de experiencia con el software estadístico, o las estadísticas en general.

  1. En cuanto al conjunto de datos disponible en R, los predictores categóricos se puntúan como enteros (por ejemplo, para la etnia de la madre tenemos '1' = blanco, '2' = negro, '3' = otro), a pesar del hecho de que el orden natural para algunos predictores (p. ej., número de trabajos prematuros previos o número de visitas al médico) o el uso de etiquetas explícitas (siempre es una buena idea usar 'sí' / 'no' en lugar de 1/0 para variables binarias, incluso si eso no ' ¡No cambie nada en la matriz de diseño!) simplemente están ausentes. Como tal, es fácil discutir qué problemas pueden surgir al ignorar los niveles o las unidades de medida en el análisis de datos.

  2. Las variables de tipos mixtos son interesantes cuando se trata de hacer un análisis exploratorio y discutir qué tipo de pantallas gráficas son apropiadas para resumir relaciones univariadas, bivariadas o trivariadas. Del mismo modo, producir tablas de resumen agradables y, en general, informes, es otro aspecto interesante de este conjunto de datos (pero el Hmisc::summary.formulacomando lo hace tan fácil bajo R).

  3. Hosmer y Lemeshow informaron que los datos reales fueron modificados para proteger la confidencialidad del sujeto (p. 25). Puede ser interesante discutir temas de confidencialidad de datos, como se hizo en uno de nuestros anteriores Journal Club , pero ver su transcripción . (Debo admitir que nunca entraré en muchos detalles con eso).

  4. Es fácil introducir algunos valores faltantes o valores erróneos (que son problemas comunes en la vida real de un estadístico), que conducen a discutir (a) su detección a través del libro de códigos ( Hmisc::describeo Stata codebook) o gráficos exploratorios (¡siempre grafica tus datos primero!) y (b) posible remedio (imputación de datos, eliminación por listas o medida de asociación por pares, etc.).

chl
fuente
+1 Gracias por proporcionar una respuesta ejemplar que muestra que este hilo puede ser útil y proporciona un estándar de exposición al que otras respuestas pueden (y deben) aspirar.
whuber
Esto es fantástico y exactamente lo que estaba buscando al hacer la pregunta. Te agradezco por tu valioso conocimiento.
DA
5

Por supuesto, los conjuntos de datos Anscombe 4 son muy buenos para la enseñanza: se ven muy diferentes, pero tienen propiedades estadísticas simples idénticas.

También sugiero los conjuntos de datos de la Copa KDD http://www.kdd.org/kddcup/ porque han sido bien estudiados y hay muchas soluciones, para que los estudiantes puedan comparar sus resultados y ver cómo se clasifican.

En mi curso de minería de datos, proporcioné un concurso de conjuntos de datos de microarrays que pueden usar los profesores http://www.kdnuggets.com/data_mining_course/

Gregory Piatetsky
fuente
Para otros conjuntos de datos que han sido diseñados para un propósito pedagógico de manera similar al Cuarteto Anscombe, vea esta pregunta .
Silverfish
3

Muchos de mis cursos de Análisis Estadístico en Cal Poly han utilizado el conjunto de datos "Iris" que ya está en R. Tiene variables categóricas y variables altamente correlacionadas.

Kurtis Voris
fuente
¿Le importaría expandir sus últimos puntos: cómo este conjunto de datos ayuda a enseñar estadísticas? (AFAICT, el conjunto de datos de iris solo tiene una variable categórica, a saber, la clase de iris.)
chl
Aquí hay un hilo relacionado completamente con el uso del conjunto de datos Iris en la enseñanza .
Silverfish
3

El conjunto de datos Titanic utilizado por Harrell en "Estrategias de modelado de regresión". Utilizo una versión simplificada de su análisis al explicar la regresión logística, explicando la supervivencia usando sexo, clase y edad.

El conjunto de datos de Loyn discutido en "Diseño experimental y análisis de datos para biólogos" por Gerry Quinn y Mick Keough contiene buenos problemas que requieren transformación para la regresión lineal múltiple.

Luis Apiolaza
fuente