Tengo un curso de Machine Learning este semestre y el profesor nos pidió que encontremos un problema del mundo real y lo resolvamos con uno de los métodos de machine learning introducidos en la clase, como:
- Árboles de decisión
- Redes neuronales artificiales
- Máquinas de vectores de soporte
- Aprendizaje basado en instancias ( kNN , LWL )
- Redes Bayesianas
- Aprendizaje reforzado
Soy uno de los fanáticos de stackoverflow y stackexchange y sé que los volcados de la base de datos de estos sitios web se proporcionan al público porque son increíbles. Espero poder encontrar un buen desafío de aprendizaje automático sobre estas bases de datos y resolverlo.
Mi idea
Se me ocurrió una idea al predecir etiquetas para preguntas basadas en las palabras ingresadas en el cuerpo de la pregunta. Creo que la red bayesiana es la herramienta adecuada para aprender etiquetas para una pregunta, pero necesito más investigación. De todos modos, después de la fase de aprendizaje cuando el usuario termina de ingresar la pregunta, se le deben sugerir algunas etiquetas.
Por favor, dime :
Quiero preguntar a la comunidad de estadísticas como personas experimentadas acerca de dos preguntas sobre el aprendizaje automático:
¿Crees que la sugerencia de etiquetas es al menos un problema que tiene alguna posibilidad de resolver? ¿Tienes algún consejo al respecto? Estoy un poco preocupado porque stackexchange aún no implementa dicha característica.
¿Tiene alguna otra / mejor idea para el proyecto ML que se basa en la base de datos stackexchange? Me resulta muy difícil encontrar algo que aprender de las bases de datos de stackexchange.
Consideración acerca de los errores de la base de datos: me gustaría señalar que, aunque las bases de datos son enormes y tienen muchas instancias, no son perfectas y pueden eliminar errores. La obvia es la edad de los usuarios que no es confiable. Incluso las etiquetas seleccionadas para la pregunta no son 100% correctas. De todos modos, debemos considerar el porcentaje de exactitud de los datos al seleccionar un problema.
Consideración sobre el problema en sí: mi proyecto no debería ser sobre data-mining
algo como esto. Simplemente debería ser una aplicación de métodos de ML en el mundo real.
fuente
Estaba pensando en la predicción de etiquetas, también, me gusta la idea. Tengo la sensación de que es posible, pero es posible que deba superar muchos problemas antes de llegar a su conjunto de datos final. Así que especulo que la predicción de la etiqueta puede necesitar mucho tiempo. Además de las etiquetas incorrectas, el límite de un máximo de 5 etiquetas puede desempeñar un papel. Además, algunas etiquetas son subcategorías de otras (por ejemplo, las "comparaciones múltiples" se pueden ver como una subcategoría de "pruebas de significación").
No verifiqué si los tiempos de votación positiva están incluidos en la base de datos descargable, pero un proyecto más simple y aún interesante podría ser predecir el número "final" de votos (tal vez después de 5 meses) en una pregunta dependiendo de los votos iniciales, y el momento de aceptar una respuesta.
fuente
Esta es una buena pregunta. Yo también he pensado que los conjuntos de datos StackExchange disponibles públicamente serían buenos temas para el análisis. Estos son lo suficientemente inusuales como para que también puedan ser buenos bancos de pruebas para nuevos métodos estadísticos. Tener una cantidad tan grande de datos bien estructurados es inusual, en cualquier caso.
cardinal sugirió un montón de cosas que en realidad serían útiles para StackExchange. No me limitaré a esto.
Aquí hay un candidato obvio para el análisis, aunque no tiene un uso obvio que se le ocurra. Es un efecto notable que los usuarios de altas repeticiones tienen más probabilidades de obtener votos a favor, en igualdad de condiciones. Sin embargo, este efecto probablemente no sea trivial para el modelo. Dado que no podemos comparar la utilidad entre los usuarios muy fácilmente, un enfoque obvio sería asumir que las respuestas de los usuarios siempre fueron igualmente útiles (no es cierto en general, pero uno tiene que comenzar en alguna parte) y luego agregar un término inflacionario para explicar su creciente reputación . Uno podría entonces (supongo) agregar en algunos términos que justifiquen que sus respuestas mejoren con el aumento de la experiencia. Tal vez esto podría ser manejado por algún tipo de serie temporal. No estoy seguro de cómo afectaría esto el intervalo de datos. Puede ser un ejercicio interesante.
Agregaré más ejemplos si / cuando pienso en ellos.
¿Alguien sabe de trabajos de investigación estadística basados en datos de SE? Además, Isaac mencionó que los datos tienen errores. ¿Alguien sabe algo más sobre esto?
fuente