Nunca lo usé directamente, por lo que solo puedo compartir algunos documentos que tuve y pensamientos generales sobre esa técnica (que abordan principalmente sus preguntas 1 y 3).
Mi comprensión general de biclustering proviene principalmente de estudios genéticos (2-6) en los que buscamos dar cuenta de los grupos de genes y la agrupación de individuos: en resumen, estamos buscando grupos de muestras que compartan un perfil similar de expresión génica (esto podría estar relacionado al estado de la enfermedad, por ejemplo) y genes que contribuyen a este patrón de perfil de genes. Una encuesta sobre el estado del arte de los conjuntos de datos biológicos "masivos" está disponible en las diapositivas de Pardalos , Biclustering . Tenga en cuenta que hay un paquete R, biclust , con aplicaciones para microarrays de datos.
De hecho, mi idea inicial era aplicar esta metodología al diagnóstico clínico, ya que permite poner características o variables en más de un grupo, lo cual es interesante desde una perspectiva semeiológica porque los síntomas que agrupan juntos permiten definir el síndrome , pero algunos síntomas pueden superposición en diferentes enfermedades. Se puede encontrar una buena discusión en Cramer et al., Comorbidity: A network perspective (Behavioral and Brain Sciences 2010, 33, 137-193).
Una técnica algo relacionada es el filtrado colaborativo . Su y Khoshgoftaar ( Advances in Artificial Intelligence , 2009) pusieron a disposición una buena revisión : Una encuesta sobre técnicas de filtrado colaborativo . Otras referencias se enumeran al final. Tal vez el análisis del conjunto de elementos frecuentes , como se ejemplifica en el problema de la cesta de la compra , también está vinculado a él, pero nunca investigué esto. Otro ejemplo de co-agrupamiento es cuando queremos agrupar simultáneamente palabras y documentos, como en la minería de textos, por ejemplo, Dhillon (2001). Co-agrupación de documentos y palabras usando partición de gráficos espectrales bipartitos . Proc. KDD , págs. 269–274.
Acerca de algunas referencias generales, aquí hay una lista no muy exhaustiva que espero sea de utilidad:
- Jain, AK (2010). Agrupación de datos: 50 años más allá de K-means . Cartas de reconocimiento de patrones , 31 , 651–666
- Carmona-Saez y col. (2006) Biclustering de datos de expresión génica por factorización de matriz no negativa y no uniforme . BMC Bioinformática , 7 , 78.
- Prelic y col. (2006) Una comparación sistemática y evaluación de métodos biclustering para datos de expresión génica . Bioinformática , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
- DiMaggio y col. (2008) Biclustering a través de un reordenamiento óptimo de matrices de datos en biología de sistemas: métodos rigurosos y estudios comparativos . BMC Bioinformática , 9 , 458.
- Santamaria y col. (2008) BicOverlapper: una herramienta para la visualización de bicluster . Bioinformática , 24 (9) , 1212-1213.
- Madeira, SC y Oliveira, AL (2004) Algoritmos bicluster para análisis de datos biológicos: una encuesta . IEEE Trans. Comput Biol. Bioinform. , 1 , 24–45.
- Badea, L. (2009). Clustergramas generalizados para biclusters superpuestos . IJCAI
- Symeonidis, P. (2006). Filtrado colaborativo de biclusters más cercano . WEBKDD
Aquí hay una buena encuesta / revisión:
Stanislav Busygin, Oleg Prokopyev y Panos M. Pardalos. Biclustering en minería de datos . Computers & Operations Research, 35 (9): 2964–2987, septiembre de 2008.
fuente