Un curso de diseño experimental para mineros de datos.

11

Soy un informático que trabaja en minería de datos. No es ningún secreto decir que los científicos informáticos son bastante pobres en el diseño y evaluación experimental sistemática: el uso de valores p y estimaciones de confianza se considera avanzado :).

Lo que me gustaría saber si hay buenos cursos / material para enseñar a los informáticos sobre un buen diseño experimental. Para hacer esto más específico, agregaré la siguiente información:

  • El curso debe estar dirigido a estudiantes de posgrado que puedan asumir que tienen una comprensión razonable de la probabilidad, pero antecedentes limitados en estadística.
  • El curso debería centrarse en el diseño experimental en "entornos no naturales no controlados": en otras palabras, no existe una verdad física subyacente ni una forma de controlar el proceso de recopilación de datos (como con los sujetos humanos). Por supuesto, un buen curso se centrará en los fundamentos, pero debería abordar este escenario de manera significativa.
  • Un elemento computacional sería una bonificación pero no es obligatorio. Nos ocupamos de una gran cantidad de datos, pero podemos resolver problemas computacionales nosotros mismos si es necesario.
Suresh Venkatasubramanian
fuente
1
Todas las condiciones del experimento que describe me recuerdan las pruebas A / B ... ¿coincidencia? :)
steffen

Respuestas:

5

[Noah Smith] [1] y [David Smith] [2] ofrecieron un curso hace algún tiempo en JHU con motivaciones similares.

Contorno:

  • Lección 1: introducción, revisión de estadísticas, prueba de hipótesis, muestreo
  • Lección 2: estadísticas de interés: medias, cuantiles, varianza
  • Conferencias 3–4: experimentos con tiempo de ejecución y "espacio"
  • Lección 5: análisis exploratorio de datos
  • Lección 6: modelado paramétrico, regresión y clasificación.
  • Lección 7: depuración estadística y perfiles
  • Lección 8: resumen y revisión

Para obtener más información, consulte Métodos de investigación empírica en informática (600.408) http://www.cs.jhu.edu/~nasmith/erm/

Delip
fuente
3

Buena pregunta. Tengo muchas ganas de ver las respuestas.

Desde un punto de vista estadístico, deben abordarse dos cuestiones: la mayoría de las estadísticas y los diseños estadísticos discuten estadísticas de muestras pequeñas y la mayoría de las metodologías utilizadas por los ingenieros no son estadísticas "modernas".

No tengo una sugerencia inmediata para el primer problema más allá de una buena escolaridad en minería / exploración de datos y el significado de estadísticamente diferente cuando me enfrento al análisis de estadísticas de población (o muestra grande).

Sin embargo, dos libros de interés para presentar a los estudiantes las estadísticas serían de Rand Wilcox (un psicólogo):

Wilcox, RR (2012). Introducción a la prueba robusta de estimación e hipótesis, 3ª ed. Prensa Académica

Wilcox, RR (2010). Fundamentos de los métodos estadísticos modernos: mejora sustancial del poder y la precisión, Springer, 2ª ed.

Jason Morrison
fuente
2
Me parece que el primer tema es de investigación, y puede que todavía no tenga "mejores prácticas". Es muy posible que el mejor lugar para comenzar sea una introducción sólida a las pruebas básicas y la perforación del problema de hipótesis múltiples.
Suresh Venkatasubramanian