Métodos estadísticos en línea escalables

12

Esto se inspiró en la regresión lineal en línea eficiente , que me pareció muy interesante. ¿Existe algún texto o recurso dedicado a la computación estadística a gran escala, mediante la cual la computación con conjuntos de datos es demasiado grande para caber en la memoria principal, y tal vez demasiado variada para submuestrar efectivamente? Por ejemplo, ¿es posible adaptar modelos de efectos mixtos en línea? ¿Alguien ha estudiado los efectos de reemplazar las técnicas estándar de optimización de segundo orden para MLE con técnicas de primer orden, tipo SGD?

grg
fuente
Creo que la respuesta es sí". Por supuesto, hay un pequeño problema de definiciones aquí. Lo que una persona considera "a gran escala" a veces es muy diferente de la otra. Mi impresión es que, por ejemplo, muchos investigadores académicos consideran el conjunto de datos de Netflix "a gran escala", mientras que en muchos entornos industriales se consideraría "insignificante". En cuanto a las técnicas de estimación, generalmente con datos muy grandes, la eficiencia computacional supera la eficiencia estadística. Por ejemplo, el método de los momentos, en muchos casos, funcionará (casi) tan bien como MLE en estas configuraciones y puede ser mucho más fácil de calcular.
cardenal
2
también puede buscar el Taller sobre algoritmos para conjuntos de datos masivos modernos (MMDS). Es joven, pero atrae a un conjunto impresionante de oradores en las interfaces de estadística, ingeniería y ciencias de la computación, así como entre la academia y la industria.
cardenal
Han pasado solo unas pocas décadas desde que la mayoría de los conjuntos de datos eran demasiado grandes para caber en la memoria principal, y la elección de los algoritmos utilizados en los primeros programas estadísticos lo reflejaba. Sin embargo, dichos programas no tenían instalaciones para modelos de efectos mixtos.
parada
¿Puede calcular estadísticas para el conjunto de datos? digamos, por ejemplo, la suma o promedios de elementos de datos?
probabilityislogic

Respuestas:

5

Puede investigar el proyecto Vowpal Wabbit , de John Langford en Yahoo! Investigación . Es un alumno en línea que realiza un descenso gradiente especializado en algunas funciones de pérdida. VW tiene algunas características asesinas:

  • Se instala en Ubuntu de manera trivial, con "sudo apt-get install votepal-wabbit".
  • Utiliza el truco de hash para espacios de características realmente enormes.
  • Pesos adaptativos específicos de la característica.
  • Lo más importante es que hay una lista de correo activa y una comunidad que desconecta el proyecto.

El libro Bianchi & Lugosi Prediction, Learning and Games ofrece una base sólida y teórica para el aprendizaje en línea. Una lectura pesada, pero vale la pena!

someben
fuente