¿Qué significa que todos los bordes en una red / gráfico del mundo real son estadísticamente igual de probables por casualidad?

11

He estado utilizando el método de extracción de red troncal descrito en este documento: http://www.pnas.org/content/106/16/6483.abstract

Básicamente, los autores proponen un método basado en estadísticas que produce una probabilidad, para cada borde en el gráfico, de que el borde podría haber sucedido por casualidad. Yo uso el típico corte de significación estadística de 0.05.

He estado aplicando este método a varias redes del mundo real y, curiosamente, algunas redes terminan sin bordes tan significativos. Estoy tratando de entender lo que esto implica para la red. La única otra vez que apliqué el método a una red y no tuve bordes significativos fue cuando apliqué el método a redes aleatorias que generé, que es exactamente lo que esperaríamos.

Como ejemplo de red del mundo real, es posible que haya visto la visualización de la red reciente que apareció en The Economist mostrando la polarización del Senado de los Estados Unidos en los últimos 25 años: http://www.economist.com/news/united-states/21591190 Estados Unidos ameba . Apliqué el método de extracción de red troncal a esas redes y no aparecieron bordes tan significativos. A pesar de que los bordes sin procesar aparentemente muestran un apego y agrupamiento preferenciales, ¿es esto solo por casualidad? ¿La red de la red de votación del Senado es esencialmente aleatoria?

Randy Olson
fuente

Respuestas:

6

La hipótesis nula detrás de los métodos troncales es

[Los] pesos normalizados que corresponden a las conexiones de un determinado nodo de grado k se producen mediante una asignación aleatoria a partir de una distribución uniforme.

Si no hay bordes "significativos", la hipótesis nula es válida para todo el gráfico, es decir, los pesos de los bordes resultan de la propensión nodal a enviar y recibir vínculos.

Dependiendo de las relaciones que esté analizando, el método de red troncal puede no ser apropiado. El método funciona mejor para redes que son conceptualmente redes ponderadas de un modo. Las redes de dos modos se pueden proyectar como una red ponderada de un modo, pero a menudo no tiene sentido hacerlo.

Basándose en su ejemplo en The Economist, no tiene sentido analizar la votación en el Senado como una red de modo único ponderada por el número de votos compartidos. Votar en el Senado es una relación firmada de dos modos. Los senadores (i) tienen relaciones con una legislación (j) y se abstienen de votar (0) o votan a favor (+1) o en contra (-1) de la legislación. Para transformar la red en una red ponderada de acuerdo de modo único, luego realizar un análisis de red troncal sería una reducción severa de los datos. Algunos textos legislativos son más divisivos políticamente y algunos tienen más votos que otros; los métodos principales no capturarían estos mecanismos.

Es posible que desee considerar las pruebas de Gráficos uniformes condicionales (CUG) en lugar de los métodos de red troncal. La idea detrás de estas pruebas es determinar si ciertas propiedades de nivel de gráfico (p. Ej., Agrupación, longitud de ruta promedio, centralización, homofilia) resultan del azar. El proceso es el siguiente:

  1. Tome la medida f del gráfico observado
  2. Genere un gráfico aleatorio que controle ciertas propiedades del gráfico observado (por ejemplo, tamaño, número de aristas, distribución de grados, etc.)
  3. Toma la medida f del gráfico aleatorio
  4. Repita los pasos 2 y 3 muchas veces (por ejemplo, 1000) para producir una distribución nula
  5. Compare la medida observada con la distribución nula

Para redes de dos modos, tendría sentido crear el gráfico aleatorio permutando el gráfico observado (tanto tnet como statnet en R tienen rutinas para permutar redes de dos modos). Si la medición f requiere una red de un modo, el proceso de aleatorización debe realizarse en la red de dos modos antes de proyectarla como una red de un modo.

BenjaminLind
fuente
4

En el artículo que cita, los autores consideran que, en una red compleja, "[los] nodos representan los elementos del sistema [modelado] y los bordes ponderados identifican la presencia de una interacción y su fuerza relativa" (énfasis por mí) .

En la red que estudias, si entiendo correctamente el artículo de The Economist, hay un vínculo entre 2 senadores si votaron de manera similar al menos 100 veces. Por lo tanto, los enlaces no modelan interacciones, sino similitudes (entre el comportamiento de votación de los senadores). Desde mi experiencia, las redes de similitud no exhiben la misma distribución de grados que las redes de interacción, en el sentido de que no es tan heterogénea. Además, el parámetro de umbral utilizado al extraer la red (aquí: 100) a veces tiene un fuerte efecto en la distribución de grados.

Además, no pude encontrar la mención de ningún peso en el artículo de The Economist. Sin embargo, la presencia de pesas parece ser un punto importante en el método descrito en el trabajo de Ángeles Serrano et al . Citas en tu pregunta.

A partir de estas dos observaciones, parece posible que el método no funcione con precisión en estos datos porque no fue diseñado para procesar redes de este tipo. Quizás pueda verificar la distribución de grados: ¿está centrada en un valor característico o es heterogénea? ¿Y qué hay de los pesos, hay alguno?

Vincent Labatut
fuente
Yo mismo reproduje los datos del sitio web de origen, así que incluí pesos y no apliqué el umbral de corte arbitrario. Por lo tanto, creo que los datos a los que apliqué el método de red troncal no deberían haberse visto afectados por estos problemas. Buena idea para verificar la distribución de títulos: ¡tendré que echar un vistazo!
Randy Olson