2012 Popularity versus similarity in growing networks 精翻

Papadopoulos F, Kitsak M, Serrano M Á, et al. Popularity versus similarity in growing networks[J]. Nature, 2012, 489(7417): 537-540.

增长网络中的流行性vs相似性

摘要

“流行就有吸引力”原则是偏好连接的基础，这是增长型网络出现规模化的常见解释。如果优先建立到更流行节点的新连接，则节点拥有的连接数量的最终分布将遵循幂定律，如在许多实际网络中观察到的。偏好连接已经在某些实际网络（包括因特网）上得到直接验证，并且可能是基于节点适应性，排名，优化，随机游走或重复的不同进本过程的结果。

在这里，我们表明，流行性只是吸引力的一个维度，另一个维度是相似性。我们开发了一个框架，在该框架中，新连接可以优化流行性和相似性之间的折衷，而不是简单地连接到更流行的节点。该框架具有几何解释，其中流行性偏好来自局部优化。与偏好连接相反，我们的优化框架准确地描述了技术网络（因特网）、社会网络（人与人之间的信任关系）和生物网络（大肠埃希氏菌代谢）的大规模演变，从而以高精度预测新连接的概率。因此，我们开发的框架可用于预测不断发展的网络中的新连接，并为偏好连接作为一种新兴现象提供了不同的观点。

正文

相似的节点之间更有可能连接，即使某节点并不流行。这种效应被称为社交网络的同质性，也在许多真实网络观察到。比如，在万维网中，某人创建了她的主页，除了倾向与连接那些流行网站（例如谷歌、脸书），也会连接那些她感兴趣的但是不流行的网站（例如献给作曲家塔蒂尼（Tartini）或免费单人攀岩的网站）。这些观察结果建议引入一种能在某种程度上平衡流行性和相似性的吸引力措施。

流行性最简单的指标是节点的诞生时间。当所有其他条件相等时，更老的节点有更大的可能变得更流行并且吸引连接。如果节点一个一个加入网络，则节点的诞生时间可以简化为节点的序号 t=1,2,……。

为了模拟相似性，我们在一个圆（注意是圆，还不是面，节点仅在圆周放置）上随机放置节点来表示最简单的相似性空间。这是说，节点之间的角距离模拟了他们之间的相似距离，比如余弦相似性或其他度量。

模拟流行性与相似性之间平衡的最简单的方式是建立最优流行性与相似性乘积的新连接。换言之，如下简单建模：

初始化的网络是空的。
在时间t>=1，新节点t出现在圆上，其角坐标是 $\theta _{t}$ 。
新节点t与已存在的节点集合s的子集建立连接，s<t。子集由m个节点组成，取乘积 $s\theta _{st}$ 最小的m个节点，m控制网络平均度 $\bar{k}=2 m$ ， $\theta _{st}$ 是节点s与节点t的角距离。在更早的时间t<=m，节点t与所有已存在节点建立连接。

例如图1a、1b所示的圆上，1号、2号、3号节点依次诞生，图1a为2、3建立连接的情况，图1b为1、3建立连接的情况。

这个模型有一个有趣的几何解释，如图1c所示。特别的，在通过 $r_{t}=ln t$ 映射节点的诞生时刻t到径坐标 $r_{t}$ 后，所有的节点坐落在一个面上，而不再是简单的圆，此时每个节点的极坐标为 $(r_{t},\theta _{t})$ 。新的节点简单连接平面上最近的m个节点，此时距离是双曲距离而不是欧氏距离。两个节点 $(r_{s},\theta _{s})$ 、 $(r_{t},\theta _{t})$ 之间的双曲距离约为 $x_{s t}=r_{s}+r_{t}+\ln \left(\theta_{s t} / 2\right)=\ln \left(s t \theta_{s t} / 2\right)$ ，因此对节点t与节点集合s最小化 $x_{st}$ 或 $s\theta_{st}$ 是等价的。那么，双曲距离不过是两个吸引力属性（径流行性和角相似性）组合的便捷单度量表示形式。我们将在下面广泛使用该指标。
2012 Popularity versus similarity in growing networks 精翻
图1 流行性X相似性优化的几何解释：

节点（点）按其出生时间编号，并位于随机的角坐标(相似性)上。在其诞生时，黄色圆环中的新圆圈节点t连接到使 $s\theta_{st}$ 最小的m个旧节点 s。新的连接由较粗的蓝色连接显示。
在图a和图b中，t=3且m =1。在a中，节点3连接到节点2，因为 $2 \theta_{23}=2 \pi / 3<1 \theta_{13}=5 \pi / 6$ 。在b中，节点3连接到节点1，因为 $1 \theta_{13}=2 \pi / 3<2 \theta_{23}=\pi$ 。
在图c中，针对多达20个节点模拟了m = 3的优化驱动网络。新节点t = 20的径坐标（流行性）为 $r_{t}=ln t$ ，如长粗箭头所示。该节点连接到三个双曲最接近的节点。红色形状标记了距新节点双曲线距离小于 $r_{t}$ 的点集。点上的箭头表示所有节点都从交叉原点向外漂移，模仿了文本中介绍的流行性衰减。所示网络中的漂移速度对应于度分布指数 $\gamma=2.1$ 。外部的绿色圆圈显示了当前的网络边界为半径 $r_{t}=ln t$ 且随时间t扩展，如绿色箭头所示。

上面所描述的增长的网络似乎与偏好连接（PA）没有任何共同之处。然而，我们在图2a中表明，在描述的模型和PA中，已存在的度为k的节点吸引到新节点来连接的概率 $\Pi(k)$ 与k的线性函数相同。毫不奇怪，PA中的度分布和我们模型中的度分布是相同的幂定律。在第IV部分的补充信息中，我们证明了幂律的指数 $\gamma$ 接近2。因此，偏好连接是一种源于流行性和相似性之间的优化折衷而产生的过程。

可是，这种优化和PA之间也有重要区别。在PA中，新节点以相同的概率 $\Pi(k)$ 和网络中的任何节点建立连接。在我们的优化模型中，新的节点仅连接到此类k度节点的特定子集，这些子集在相似性维度 $\theta$ 上最接近新节点（图1c）。为了量化，我们在图2b中比较了两种情况下一对节点之间的连接概率随其双曲距离的变化。

我们看到，在优化模型中，近的节点始终处于连接状态，而在PA中，它们的连接概率降低了一个数量级。另一方面，在优化模型中相距较远的节点永远不会连接，而可以在PA中它们可能会连接。这些差异在聚集强度上体现，聚集强度是连接到同一节点的两个节点之间也相互连接的概率。在PA中，聚集强度趋近于零，然而在许多实际网络中聚集强度很强。我们在第IV部分的补充信息中说明，所描述的优化模型导致的聚集对于具有给定度数分布的网络而言是最强的。
2012 Popularity versus similarity in growing networks 精翻
图2 由流行度 ×相似性优化而来的PA：

模拟了两个节点数到达 $t=10^5$ 的增长网络，一个根据描述的优化模型增长，另一个根据PA增长。
在两个网络中，每个新节点都与m=2个现有节点建立连接。 $\gamma\rightarrow 2$ 的限制在PA中没有明确定义，因此如文中所述，改为使用 $\gamma= 2.1$ 。
图a：度为k的现有节点吸引新连接的概率为 $\Pi(k)$ 。实线是理论预测，而虚线是线性函数， $\Pi(k) \propto k$ 。
图b：一对双曲距离为x的节点连接的概率为 $p(x)$ 。
优化网络和PA网络中的所有节点的平均集聚系数分别为0.83和 0.12。

可以通过下面的方式对模型进行修改，从而使集聚系数和幂律指数可以为任意值。我们首先考虑在许多实际网络中观察到的流行性下降的影响。我们注意到，图1c中的节点离中心越近，它越受欢迎：它的度数越高，吸引更多的新连接，这解释了为什么PA出现在模型中。因此，为了模拟流行性衰减，我们让所有节点都相对漂移，以便在时间t> s时节点s的径坐标随着 $r_{s}(t)=\beta r_{s}+(1-\beta) r_{t}$ 而增加，其中 $r_{s}=lns$ 和 $r_{t}=lnt$ ，参数 $\beta \in[0,1]$ 。此修改等同于最小化 $s^{\beta} \theta_{s t}\left(\text { or } s^{b} \theta_{s t}^{a} \text { with } \beta=b / a\right)$ instead of $s \theta_{s t}$ 。此时幂律指数更改为 $\gamma=1+1 / \beta \geq 2$ 。如果 $\beta=1$ ，则节点不向外漂移，且 $\gamma=2$ 。如果 $\beta=0$ ，所有节点始终以最大速度运动，始终位于半径 $r_{t}$ 的圆上，而网络退化为在圆上生长的随机几何图。由于吸引概率 $\Pi(k)$ 是度k的线性函数， $\Pi(k) \propto k+m(\gamma-2)$ ，与PA中的相同，因此PA出现在任意$\gamma=1+1 / \beta $下。我们在补充信息第IV至VII节中证明了这些说法，我们还表明，可以通过让不同的节点以不同的速度漂移（补充信息V节），从而将流行性拟合模型[10]映射到我们的几何优化框架中。

因为最近节点相连会导致最强的集聚，所以为了减弱集聚，我们允许连接至更远的节点。连接到最近的m个节点与连接到距离 $R_{t} \approx r_{t}$ 内的节点大致相同（请参见图1c和补充信息部分IV，在那里我们推导出了 $R_{t}$ 的精确表达式，该表达式控制网络的平均度）。

如果新节点t以概率 $p\left(x_{s t}\right)=1 /\left\{1+\exp \left[\left(x_{s t}-R_{t}\right) / T\right]\right\}$ 与双曲距离 $x_{st}$ 的现有节点s建立连接，参数 $T≥0$ 是网络的温度（请参阅补充信息第IV和VI部分），则集聚系数是温度的递减函数。也就是说，温度是控制网络中集聚的参数。

在 $T=0$ 时，连接概率 $p(x_{st})$ 是1还是0，取决于距离 $x_{st}$ 小于还是大于 $R_{t}$ ，此时恢复了上面的最强的集聚情况，其中新节点仅连接到最近的现有节点。
在 $T = 1$ 时，集聚系数逐渐减少到零。
在 $T≥1$ 的任何情况下，集聚系数都趋近于零（补充信息第IV、VI节）。
在高温 $T \rightarrow \infty$ 下，模型会退化为不断增长的随机图，或者会退化为标准PA（补充信息第VII节）。

为了研究像我们的模型预测的那样，相似性是否会影响真实网络的结构和动态，我们考虑了因特网、大肠杆菌代谢网络以及被称为信任网（WoT）的描述人与人之间信任关系的社交网络的一系列历史快照。前两个网络是异配的（度数不同的节点以较高的概率连接）；而第三个网络是同配的（度数相近的节点以较高的概率连接），并且它的度分布偏离幂定律。我们将这些网络映射到其流行性X相似性空间（方法Summary）。映射会推算出所有节点的径（流行性）和角（相似性）坐标，因此我们可以计算所有节点对之间的双曲距离，以及是相应节点之间双曲距离函数的新连接的概率。这些概率如图3所示。在所有三个网络中，它们都接近于我们模型的理论预测。

由于以下几个原因，这一发现很重要。

首先，它表明现实世界的网络会按照我们框架预测的来发展。具体来说，给定两个节点的流行性和相似性坐标，它们的连接概率接近模型预测的理论值。因此，该框架可用于连接预测，这是许多学科中众所周知困难和重要的问题，其应用范围从预测蛋白质相互作用、预测恐怖组织连接到设计推荐和协作过滤系统。

其次，图3直接验证了我们的框架及其核心机制。因此，毫不奇怪，结果是，该模型生成的合成图与真实网络在一系列指标上非常相似（补充信息第IX节），这意味着该框架也可用于对真实网络拓扑进行精确建模。我们在补充信息第X节中回顾了相关工作，据我们所知，没有其他模型可以同时满足以下条件：（1）简单且通用，即适用于许多不同的网络，（2）具有一个相似性空间作为其核心组成部分，（3）将PA投射为一种新兴现象，（4）在广泛的指标范围内生成类似于真实网络的图，并且（5）直接验证所提出的增长机制。验证通常仅限于比较建模网络和实际网络之间的某些图形指标，例如度分布；但是，这“验证”了机制的结果，而不是机制本身。直接验证通常很困难，因为提出的机制往往包含许多不可衡量的因素，例如互联网发展中的经济或政治因素。我们的方法没有什么不同，它也无法全部考虑真实网络中所有影响节点相似性的因素或节点属性。但是，在我们的方法中，节点之间的角距离可以视为影响网络演化的所有这些相似因素的适当加权组合的投影，并且我们可以使用统计推断方法来推断这些距离，并直接验证增长机制。

总而言之，流行即吸引，但相似性也是如此。忽视后者将导致严重的偏差。例如，在Internet内，一个内布拉斯加州的本地网络将以与网上相同的方式直接连接到一个西藏的本地网络，甚至一个不了解塔尔蒂尼或免费单人攀登的人也会突然将自己的页面链接到这些主题。实际上，这种不相似连接的可能性非常低，并且相似性的影响越强，该可能性就越小。忽略网络相似性结构会导致在量级上对不相似或相似连接的概率高估或低估**（图3）**。但是，仅通过检查节点度并不能分辨我们的框架和PA之间的区别。度为k的现有节点以优化流行性X相似性来吸引新的连接的概率与PA中的k线性函数完全相同（图2a）。附加的图1展示了该函数确实在所考虑的真实网络中体现，从而重新验证了这些网络的有效PA。因此，流行度X相似度优化方法为PA的以下“困境”特性提供了自然的几何解释。一方面，PA已被许多真实网络验证，而另一方面，它需要外部机制来解释强集聚和线性流行性偏好，以及这种偏好如何在真实网络中出现。节点没有有关网络结构的任何全局信息。由于PA在此处开发的框架中作为一种新兴现象而出现，因此我们的框架为这些难题提供了一种简单自然的解决方案，并且可以面向很不同的真实网络的大规模演化直接验证该解决方案。

我们得出的结论是，要知道双曲流行性X相似性空间中最近的节点，需要有关所有节点位置的精确全局信息。然而，非零温度使图1c中的尖锐的连通边缘阈值变得平滑，因此对现实世界进行了建模，在该现实中，该近邻信息不够精确，并且混合了误差和噪声。在这方面，PA是一种限制机制，其相似度降至噪声之外。

方法摘要

为了推断一个真实网络快照（邻接矩阵 $a_{ij},i,j=1,2…,t$ ）中每个节点i的径坐标 $r_{i}$ 和角坐标 $\theta_{i}$ ，我们使用马尔科夫链蒙特卡洛（MCMC）方法在附加信息中详细描述。

具体来说，我们得出节点i的当前度的期望 $\bar{k}_{i}$ 与其当前径坐标n之间的精确关系，该关系按 $\bar{k}_{i} \sim e^{r_{t}-r_{i}}$ 缩放。为了推断径坐标，我们使用相同的表达式用节点的实际度数 $k_{i}$ 代替其期望度数。

推断出径向坐标后，我们执行Metropolis-Hastings算法找到满足最大似然 $\mathcal{L}=\prod_{i<j} p\left(x_{i j}\right)^{a_{i j}}\left[1-p\left(x_{i j}\right)\right]^{1-a_{i j}}$ 的节点角坐标，其中 $p\left(x_{i j}\right)=1 /\left[1+e^{\left(x_{i j}-R\right) / T}\right]$ 是模型中的连接概率，参数R和T由平均节点度和网络的聚集系数定义，在补充信息部分IV进行说明。似然 $\mathcal{L}$ 是具有节点坐标 $r_{i},\theta_{i}$ 的网络快照的概率，该坐标定义了双曲距离为 $x_{ij}$ 的所有节点，都是由模型产生的。该算法采用了MCMC过程，该过程通过近似最大化 $\mathcal{L}$ 的为所有i查找坐标 $\theta_{i}$ 。更多详细信息，请参见补充信息部分II和Ill，其中，我们还表明，该方法对于所考虑的网络产生有意义的结果，但不包括那些不适用流行性X相似度优化的网络（如电影演员合作网）。

图3a，b和c中的节点分别是自治系统（ASs）、大肠杆菌代谢网络、将用户的电子邮件地址与他们的加***相关联的漂亮隐私（PGP）证书网。这些网络中，用来推断坐标和得到理论连接概率的参数（R、T）分别为（25.2，0.79）、（14.4，0.77）和（23，0.59）。图3的每个平面显示了两对快照的数据：图3a，2007年1月至4月，2009年4月至6月；图3b，在补充信息部分I中定义的So-S1和S1-S2；图3c，2003年4月至10月以及2005年12月至2006年12月。经验曲线中的几个缺失数据点（圆形和正方形）表明，映射后对应距离处没有节点对，而PA仿真曲线中额外缺失的点（菱形和三角形）表示在PA仿真之后所有对应距离处的节点对并未连接，这意味着PA连接概率在那里为零。
2012 Popularity versus similarity in growing networks 精翻
图3 不同网络的流行性×相似性优化：

a：增长的因特网，b：大肠杆菌代谢网络，c：人们之间的WOT信任网络结构（Web Of Trust）的PGP邮件加密
每个曲线展示了新节点与旧节点之间的连接概率，该概率是真实网络（圆和方块）中和PA仿真（菱形和三角形）中的新节点与旧节点之间的双曲距离（流行性×相似性）的函数。
为了模拟PA，将新连接从实际网络中连接到的旧节点断开连接，并根据PA重新连接到旧节点。
对于一对历史网络快照 $S_{0}$ （较旧）和 $S_{1}$ （较新），新节点是出现在 $S_{1}$ 而没有出现在 $S_{0}$ 中的节点，而旧节点是出现在 $S_{1}$ 和 $S_{0}$ 中的节点。
每个图均展示了两对此类历史快照数据的对比。
每个图中的实线是优化模型中具有对应于给定真实网络参数的理论连接概率。由于实际网络中新连接的概率接近理论曲线，因此显示的数据表明，这些网络随着流行性×相似性优化模型的预测而增长，而仅考虑流行性的PA在预测相似（x较小）或不相似节点（x较大）的连接时却在数量级产生偏离。为了量化这种不准确性，插图显示了PA仿真和实际网络中连接概率之间的比值，即如插图中菱形和三角形所示，为主图中三角形和正方形所示值的比率。插图中的x轴与主图中的x轴相同。