Interpretación de la diferencia entre la distribución de la ley lognormal y de la ley de potencia (distribución de grados de red)

22

En primer lugar, no soy un estadístico. Sin embargo, he estado haciendo análisis estadísticos de red para mi doctorado.

Como parte del análisis de red, tracé una Función de distribución acumulativa complementaria (CCDF) de grados de red. Lo que encontré fue que, a diferencia de las distribuciones de red convencionales (por ejemplo, WWW), la distribución se ajusta mejor a una distribución lognormal. Intenté ajustarlo a una ley de poder y usando los scripts de Matlab de Clauset et al., Descubrí que la cola de la curva sigue una ley de poder con un corte.

ingrese la descripción de la imagen aquí

La línea de puntos representa el ajuste de la ley de potencia. La línea púrpura representa el ajuste log-normal. La línea verde representa ajuste exponencial.

Lo que me cuesta entender es qué significa todo esto. He leído este artículo de Newman que trata un poco sobre este tema: http://arxiv.org/abs/cond-mat/0412004

A continuación se muestra mi conjetura salvaje:

Si la distribución de grados sigue una distribución de la ley de potencia, entiendo que significa que hay un apego preferencial lineal en la distribución de enlaces y el grado de red (el rico se hace más rico o el proceso de Yules).

¿Estoy en lo cierto al decir que con la distribución lognormal que estoy presenciando, hay una unión preferencial sublineal al comienzo de la curva y se vuelve más lineal hacia la cola donde puede ser ajustada por una ley de potencia?

Además, dado que una distribución logarítmica normal ocurre cuando el logaritmo de la variable aleatoria (digamos X) se distribuye normalmente, esto significa que en una distribución logarítmica normal, hay valores más pequeños de X y valores menos grandes de X que un ¿Qué variable aleatoria que sigue una distribución de ley de poder tendría?

Más importante aún, con respecto a la distribución de grados de la red, ¿una conexión preferencial log-normal todavía sugiere una red libre de escala? Mi instinto me dice que, dado que la cola de la curva puede ser ajustada por una ley de potencia, la red aún puede concluirse como exhibiendo características sin escala.

curve-fitting networks lognormal power-law Micro
fuente

2

Mike, creo que sería muy interesante ver la trama que estás viendo. ¿Te importaría editar tu respuesta para incluirla? Una cosa que noté de inmediato es que la implicación con respecto a las leyes de poder y el apego preferencial es al revés. Si bien (algunos) esquemas de apego preferenciales generan distribuciones de grado de ley de poder, la implicación inversa no es cierta (es decir, no es la única forma). Alguna información sobre qué tipo de red está viendo también podría ser útil. Aclamaciones.

cardenal

1

Quiero decir, el apego preferencial es simplemente otro nombre para el efecto "los ricos se hacen más ricos", ¿verdad? Si ese es el caso, ¿entonces la distribución de grados de red lineal (ley de potencia) es solo una de las muchas distribuciones de grados que pueden demostrar un apego preferencial? En otras palabras, siempre que el gradiente de la curva sea negativo en un gráfico log-log, entonces hay algunos elementos de apego preferencial, independientemente de la distribución. Entonces, la diferencia entre la distribución de grados logarítmicos normales y de ley de potencia no radica tanto en si existe un apego preferencial sino en la proporcionalidad del mismo.

Mike

1

Tenga en cuenta que el apego preferencial es un proceso (estocástico) que genera distribuciones de grado de ley de potencia para una red. La pendiente de la línea cambiará de acuerdo con el exponente de escala para una ley de potencia, pero en el caso de un lognormal, la gráfica no será lineal, ni siquiera en la cola. El gradiente de una distribución de supervivencia siempre será negativo, sin importar el efecto. (¿Por qué?)

cardenal

Esa es una muy buena edición. Gracias Michael! El ajuste lognormal en la región que has mostrado es bastante notable. Parece que podría estar rompiéndose un poco en la cola.

cardenal

Gracias por su respuesta nuevamente cardenal. Entonces, ¿está de acuerdo en que el apego preferencial sigue funcionando en la red que estoy observando? Otra pregunta que se plantea es si la red no tiene escala. Si el apego preferencial está funcionando en la red y siempre que la red acepte nuevos miembros, la red puede clasificarse como libre de escala aunque la distribución de grados de la red no sea lineal. Aquí es donde no estoy muy seguro.

Mike

12

Creo que será útil separar la pregunta en dos partes:

¿Cuál es la forma funcional de su distribución empírica? y
¿Qué implica esa forma funcional sobre el proceso de generación en su red?

$p>0.1$ $x\geq15$ $p<0.1$ significa básicamente hacer lo mismo. ¿Puedes rechazar ese modelo como un proceso generador de los datos de distribución de grados que tienes? Si no, entonces se le permite poner el log-normal en la categoría "plausible".

$x\gg1$

La segunda pregunta es realmente más difícil de las dos. Como algunas personas señalaron en los comentarios anteriores, hay muchos mecanismos que producen distribuciones de la ley de poder y el apego preferencial (en todas sus variaciones y gloria) es solo uno de muchos. Por lo tanto, observar una distribución de la ley de poder en sus datos (incluso una genuina que pase las pruebas estadísticas necesarias) no es evidencia suficiente para concluir que el proceso de generación fue un apego preferencial. O, más generalmente, si tiene un mecanismo A que produce algún patrón X en los datos (p. Ej., Una distribución de grados logarítmicos normales en su red). Observar el patrón X en sus datos no es evidencia de que sus datos fueron producidos por el mecanismo A. Los datos son consistentes con A, pero eso no significa que A sea el mecanismo correcto.

Para mostrar realmente que A es la respuesta, debe probar sus suposiciones mecanicistas directamente y mostrar que también se cumplen para su sistema, y preferiblemente también mostrar que otras predicciones del mecanismo también se mantienen en los datos. Sid Redner hizo un gran ejemplo de la parte de prueba de suposición (ver Figura 4 de este documento ), en el que demostró que para las redes de citas, la suposición de conexión preferencial lineal realmente se mantiene en los datos.

Finalmente, el término "red sin escala" está sobrecargado en la literatura, por lo que sugeriría encarecidamente evitarlo. La gente lo usa para referirse a redes con distribuciones de grado de derecho de poder ya redes cultivadas por apego preferencial (lineal). Pero como acabamos de explicar, estas dos cosas no son lo mismo, por lo que usar un solo término para referirse a ambas es confuso. En su caso, una distribución logarítmica normal es completamente inconsistente con el mecanismo de conexión preferencial lineal clásico, por lo que si decide que lo normal es la respuesta a la pregunta 1 (en mi respuesta), implicaría que su red no es ' escala libre 'en ese sentido. El hecho de que la cola superior esté 'bien' como una distribución de la ley de potencia no tendría sentido en ese caso, ya que siempre hay una parte de la cola superior de cualquier distribución empírica que pasará esa prueba (y pasará porque la prueba pierde potencia cuando no hay muchos datos para continuar, que es exactamente lo que sucede en la cola superior extrema).

aaronclauset
fuente

¿confundiste <y> al hablar sobre el valor p para el ajuste de la cola superior?

David Nathan

Las condiciones del valor p en este comentario son correctas. Los valores p mencionados aquí provienen de la sección 4.1 de arxiv.org/abs/0706.1062 , donde los valores grandes representan buenos ajustes y los valores pequeños representan malos ajustes. Ver en particular la nota 8 al pie de la página 17.

Jonathan S.

3

Que buena pregunta. Tengo una conversación relacionada sobre esto asociada con una pregunta que hice otro lugar en CrossValidated. Allí, pregunté si la distribución gamma era una buena distribución para usar en una simulación de una red social donde la probabilidad de los vínculos es endógena a alguna característica de "popularidad" continua de los nodos. @ NickCox sugirió que use la distribución lognormal en su lugar. Respondí que la distribución lognormal tiene cierta justificación teórica como el proceso subyacente que describe la popularidad porque la popularidad podría interpretarse como el producto de muchas variables aleatorias de valor positivo (por ejemplo, riqueza, ingresos, altura, destreza sexual, destreza en la lucha, coeficiente intelectual). Esto tiene más sentido para mí que la justificación teórica de la ley de poder, y coincide con los datos empíricos, lo que sugiere que la forma de la ley de poder es demasiado inflexible para explicar la variación entre redes en la distribución de grados. El lognormal, en comparación, tiene una forma muy flexible, con el modo cercano a cero para una gran varianza. Además, tiene sentido que la asimetría de la distribución de grados aumente con la varianza debido al efecto de fijación preferencial.

En resumen, creo que la distribución lognormal se ajusta mejor a sus datos porque la distribución lognormal describe el proceso subyacente de formación de distribución de grados mejor que la ley de potencia o las distribuciones exponenciales.

Equilibrio impetuoso
fuente

2

Llegar a este sitio después de contar mis distribuciones de burbujas y usar la ley de potencia para los datos de viscosidad.

Hojeando los conjuntos de datos de ejemplo en el documento de power law de Clauset et al. Han presentado algunos horrores reales de los conjuntos de datos, lejos de los conjuntos de datos de la ley de poder para apoyar su argumento. Solo por sentido común, ciertamente no habría tratado de ajustar una función de ley de potencia a todo el rango de datos para la mayoría de ellos. Sin embargo, el comportamiento de autoescalado en el mundo real puede ser válido en una parte de un sistema observado, pero se descompone cuando alguna propiedad del sistema alcanza un límite físico o funcional.

Los documentos muy legibles a continuación se refieren al ajuste de la curva de crecimiento para ecólogos, con una buena discusión sobre la ley de poder y las distribuciones relacionadas, basadas en modelos de comportamiento poblacional basados en la observación.

El autor es mucho más pragmático que Clauset et al. Citando: "... si el objetivo es solo un mejor ajuste y las escalas fuera de la ventana de escala del conjunto de datos no se discuten, cualquier modelo puede ser suficiente dado que produce un buen ajuste y no produce máximos o mínimos dentro de la ventana de escala estudiada ". "Uno a menudo se ve obligado a ajustar el mismo modelo, ya que otros investigadores han aplicado a sus datos, para poder comparar los valores de los parámetros, pero uno puede hacer esto además de la aplicación de un modelo o modelos de mejor ajuste con mejores resultados esperados formas, o ambas ". Palabras tranquilas

Tjørve, E. (2003). Formas y funciones de las curvas de área de especies: una revisión de posibles modelos. Journal of Biogeography, 30 (6), 827-835.

Tjørve, E. (2009). Formas y funciones de las curvas de área de especies (ii): una revisión de nuevos modelos y parametrizaciones. Journal of Biogeography, 36 (8), 1435-1445.

TerryW
fuente

1

Los resultados anteriores muestran que la distribución de grados puede ser tanto de ley de potencia como lognormal, lo que puede sugerir que coexisten propiedades de pequeño mundo y sin escala en la red bajo estudio. Para examinar si la red está libre de escala (con un parámetro de escala constante) con conexión preferencial, a menudo se requiere un diseño experimental. En el artículo de Sid Redner mencionado anteriormente, la tasa de crecimiento se utiliza para comprender el mecanismo de crecimiento. Mientras Gallos, Song y Makse usan cuadros para cubrir la red, y concluyen que la distribución de grados de la red sigue la distribución de la ley de potencia, si NB (lB) ~ lB ^ -dB. O examinando las relaciones entre el coeficiente de agrupación y el grado (si la relación satisface la ley de poder). De lo contrario, se discute que las redes jerárquicas tienen propiedades de red libre tanto a escala mundial como a pequeña escala. (escribiendo Fractal scale gratis,

liandexinshi
fuente

Interpretación de la diferencia entre la distribución de la ley lognormal y de la ley de potencia (distribución de grados de red)

Respuestas: