网络是描述交互实体的复杂系统的通用语言。
主要有两类网络:
(1)自然网络:
由70+亿人组成的社会;
由电子设备组成的通信系统;
基因/蛋白质调节生命的相互作用;
思绪下隐藏着的亿万级神经元联系…
(2)信息网络
信息/知识被组织和链接
场景图:场景中的对象如何关联
相似网络:获取连接相似点的数据
有时候,这两种网络的区别是模糊的。
不同类型的网络:
问题来了:
这些系统如何组织?
它们的特性是什么?
许多系统背后都有错综复杂的接线图,网络,定义了组建之间的相互作用。
如果我们不明白系统背后的网络,将不能有效的对其建模和预测。
不同类型的数据网络:
Q:如何利用关系结构进行更好的预测?
由此引出本门课的主旨: **图的机器学习 **
复杂域(知识,文本,图像等)具有丰富的关系结构,可以将其表示为关系图。
通过显示建模关系,我们可以得到更好的性能表现。
Q:为什么是研究网络,为什么是现在研究?
描述复杂数据,来自科学、自然、技术的网络相似程度比人们意识到的更多;
领域之间的交互:计算机科学、社会科学、物理学、经济学、统计学、生物学
数据的便捷性和计算挑战性:网络、手机、生命、健康、医药
影响:社交网络、药物设计、AI的可解释性
Q: 分析网络的途径
预测节点的类型/颜色- 节点分类
预测节点是否有链接- 链接预测
识别连接密集的节点集群- 社区检测
衡量两个节点/网络的相似度- 网络相似度检测
网络举例:
寻找facebook social graph中成环的节点,分析他们为什么存在。
(他们可能是大学同学,可能是一家人,可能是高中同学等)
推特上的极化效应
分析文章是否为恶作剧。(真实的文章相比恶作剧的文章具有更连贯性)
级联效应: 由于其他用户的邀请,有60-90%的LinkedIn用户进行了注册。
多种药一起吃的副作用预测 (70-79岁中46%的人同时吃5种以上的药)
本门课的两个重要主题:
明白网络结构如何影响系统的健壮性
开发定量工具以评估网络结构与网络上的动态过程之间的相互作用以及它们对故障的影响
课程大纲
- 介绍图结构
- 网络测量和随机图模型
- motif 和 graphlets
- 网络结构角色
- 信息传递和节点分类
- 节点表示学习
- 图神经网络
- 图的深度生成模型
- 关系分析:pagerank和simrank
- 网络影响和级联行为
- 网络影响最大化
- 网络爆发检测
- 网络健壮性和优先连接
- 知识图谱和元路径
- 网络建设、推理和反卷积
网络结构
网络是对象的集合,其中一些对象对通过链接连接
对象:又称节点,顶点
链接:又称链接,边
系统:又称网络,图
网络通常表示真实系统,图是网络的一种数学表示。实际上很多情况我们并不区分这两个概念。
在解决不同问题的时候,选择最适合的、正确的网络表示。
如何定义网络?
有向、无向。 如facebook中的朋友关系和推特的关注关系,前者无向,后者有向
节点度数。 代表A节点的邻居节点个数为4
完整图。 表示图中任意两个节点都相连
二部图。 指图中的节点被分为两个不相重合的节点集合。
如作者和书的关系,演员和电影的关系
折叠/项目二部图。
图的表示:
(1)邻接矩阵
邻接矩阵是稀疏的。
(2)边的集合
(3)邻接集合
大部分真实世界的网络都是稀疏的,平均度数远远小于 网络中节点数量
下图列举了部分网络的节点总数和平均度数:
边的属性可选项
- 权重(比如沟通的频率)
- 排名(比如最好的朋友,次好的朋友)
- 类型(比如朋友,同时,亲戚)
- 标志(比如朋友和陌生,相信和不相信)
- 基于网络其他信息的结构的属性(比如共同朋友的数量)
图的更多类型:
边上带权重的和不带权重的
节点上有自环的和节点间有多边的
连通图和存在孤立节点的图
强联通图(strongly connected components, SCCs)和弱连通图
弱连通图中的F到G之间没有路径,而G可以到F