En primer lugar, no soy un estadístico. Sin embargo, he estado haciendo análisis estadísticos de red para mi doctorado.
Como parte del análisis de red, tracé una Función de distribución acumulativa complementaria (CCDF) de grados de red. Lo que encontré fue que, a diferencia de las distribuciones de red convencionales (por ejemplo, WWW), la distribución se ajusta mejor a una distribución lognormal. Intenté ajustarlo a una ley de poder y usando los scripts de Matlab de Clauset et al., Descubrí que la cola de la curva sigue una ley de poder con un corte.
La línea de puntos representa el ajuste de la ley de potencia. La línea púrpura representa el ajuste log-normal. La línea verde representa ajuste exponencial.
Lo que me cuesta entender es qué significa todo esto. He leído este artículo de Newman que trata un poco sobre este tema: http://arxiv.org/abs/cond-mat/0412004
A continuación se muestra mi conjetura salvaje:
Si la distribución de grados sigue una distribución de la ley de potencia, entiendo que significa que hay un apego preferencial lineal en la distribución de enlaces y el grado de red (el rico se hace más rico o el proceso de Yules).
¿Estoy en lo cierto al decir que con la distribución lognormal que estoy presenciando, hay una unión preferencial sublineal al comienzo de la curva y se vuelve más lineal hacia la cola donde puede ser ajustada por una ley de potencia?
Además, dado que una distribución logarítmica normal ocurre cuando el logaritmo de la variable aleatoria (digamos X) se distribuye normalmente, esto significa que en una distribución logarítmica normal, hay valores más pequeños de X y valores menos grandes de X que un ¿Qué variable aleatoria que sigue una distribución de ley de poder tendría?
Más importante aún, con respecto a la distribución de grados de la red, ¿una conexión preferencial log-normal todavía sugiere una red libre de escala? Mi instinto me dice que, dado que la cola de la curva puede ser ajustada por una ley de potencia, la red aún puede concluirse como exhibiendo características sin escala.
Respuestas:
Creo que será útil separar la pregunta en dos partes:
La segunda pregunta es realmente más difícil de las dos. Como algunas personas señalaron en los comentarios anteriores, hay muchos mecanismos que producen distribuciones de la ley de poder y el apego preferencial (en todas sus variaciones y gloria) es solo uno de muchos. Por lo tanto, observar una distribución de la ley de poder en sus datos (incluso una genuina que pase las pruebas estadísticas necesarias) no es evidencia suficiente para concluir que el proceso de generación fue un apego preferencial. O, más generalmente, si tiene un mecanismo A que produce algún patrón X en los datos (p. Ej., Una distribución de grados logarítmicos normales en su red). Observar el patrón X en sus datos no es evidencia de que sus datos fueron producidos por el mecanismo A. Los datos son consistentes con A, pero eso no significa que A sea el mecanismo correcto.
Para mostrar realmente que A es la respuesta, debe probar sus suposiciones mecanicistas directamente y mostrar que también se cumplen para su sistema, y preferiblemente también mostrar que otras predicciones del mecanismo también se mantienen en los datos. Sid Redner hizo un gran ejemplo de la parte de prueba de suposición (ver Figura 4 de este documento ), en el que demostró que para las redes de citas, la suposición de conexión preferencial lineal realmente se mantiene en los datos.
Finalmente, el término "red sin escala" está sobrecargado en la literatura, por lo que sugeriría encarecidamente evitarlo. La gente lo usa para referirse a redes con distribuciones de grado de derecho de poder ya redes cultivadas por apego preferencial (lineal). Pero como acabamos de explicar, estas dos cosas no son lo mismo, por lo que usar un solo término para referirse a ambas es confuso. En su caso, una distribución logarítmica normal es completamente inconsistente con el mecanismo de conexión preferencial lineal clásico, por lo que si decide que lo normal es la respuesta a la pregunta 1 (en mi respuesta), implicaría que su red no es ' escala libre 'en ese sentido. El hecho de que la cola superior esté 'bien' como una distribución de la ley de potencia no tendría sentido en ese caso, ya que siempre hay una parte de la cola superior de cualquier distribución empírica que pasará esa prueba (y pasará porque la prueba pierde potencia cuando no hay muchos datos para continuar, que es exactamente lo que sucede en la cola superior extrema).
fuente
Que buena pregunta. Tengo una conversación relacionada sobre esto asociada con una pregunta que hice otro lugar en CrossValidated. Allí, pregunté si la distribución gamma era una buena distribución para usar en una simulación de una red social donde la probabilidad de los vínculos es endógena a alguna característica de "popularidad" continua de los nodos. @ NickCox sugirió que use la distribución lognormal en su lugar. Respondí que la distribución lognormal tiene cierta justificación teórica como el proceso subyacente que describe la popularidad porque la popularidad podría interpretarse como el producto de muchas variables aleatorias de valor positivo (por ejemplo, riqueza, ingresos, altura, destreza sexual, destreza en la lucha, coeficiente intelectual). Esto tiene más sentido para mí que la justificación teórica de la ley de poder, y coincide con los datos empíricos, lo que sugiere que la forma de la ley de poder es demasiado inflexible para explicar la variación entre redes en la distribución de grados. El lognormal, en comparación, tiene una forma muy flexible, con el modo cercano a cero para una gran varianza. Además, tiene sentido que la asimetría de la distribución de grados aumente con la varianza debido al efecto de fijación preferencial.
En resumen, creo que la distribución lognormal se ajusta mejor a sus datos porque la distribución lognormal describe el proceso subyacente de formación de distribución de grados mejor que la ley de potencia o las distribuciones exponenciales.
fuente
Llegar a este sitio después de contar mis distribuciones de burbujas y usar la ley de potencia para los datos de viscosidad.
Hojeando los conjuntos de datos de ejemplo en el documento de power law de Clauset et al. Han presentado algunos horrores reales de los conjuntos de datos, lejos de los conjuntos de datos de la ley de poder para apoyar su argumento. Solo por sentido común, ciertamente no habría tratado de ajustar una función de ley de potencia a todo el rango de datos para la mayoría de ellos. Sin embargo, el comportamiento de autoescalado en el mundo real puede ser válido en una parte de un sistema observado, pero se descompone cuando alguna propiedad del sistema alcanza un límite físico o funcional.
Los documentos muy legibles a continuación se refieren al ajuste de la curva de crecimiento para ecólogos, con una buena discusión sobre la ley de poder y las distribuciones relacionadas, basadas en modelos de comportamiento poblacional basados en la observación.
El autor es mucho más pragmático que Clauset et al. Citando: "... si el objetivo es solo un mejor ajuste y las escalas fuera de la ventana de escala del conjunto de datos no se discuten, cualquier modelo puede ser suficiente dado que produce un buen ajuste y no produce máximos o mínimos dentro de la ventana de escala estudiada ". "Uno a menudo se ve obligado a ajustar el mismo modelo, ya que otros investigadores han aplicado a sus datos, para poder comparar los valores de los parámetros, pero uno puede hacer esto además de la aplicación de un modelo o modelos de mejor ajuste con mejores resultados esperados formas, o ambas ". Palabras tranquilas
Tjørve, E. (2003). Formas y funciones de las curvas de área de especies: una revisión de posibles modelos. Journal of Biogeography, 30 (6), 827-835.
Tjørve, E. (2009). Formas y funciones de las curvas de área de especies (ii): una revisión de nuevos modelos y parametrizaciones. Journal of Biogeography, 36 (8), 1435-1445.
fuente
Los resultados anteriores muestran que la distribución de grados puede ser tanto de ley de potencia como lognormal, lo que puede sugerir que coexisten propiedades de pequeño mundo y sin escala en la red bajo estudio. Para examinar si la red está libre de escala (con un parámetro de escala constante) con conexión preferencial, a menudo se requiere un diseño experimental. En el artículo de Sid Redner mencionado anteriormente, la tasa de crecimiento se utiliza para comprender el mecanismo de crecimiento. Mientras Gallos, Song y Makse usan cuadros para cubrir la red, y concluyen que la distribución de grados de la red sigue la distribución de la ley de potencia, si NB (lB) ~ lB ^ -dB. O examinando las relaciones entre el coeficiente de agrupación y el grado (si la relación satisface la ley de poder). De lo contrario, se discute que las redes jerárquicas tienen propiedades de red libre tanto a escala mundial como a pequeña escala. (escribiendo Fractal scale gratis,
fuente