Label-dependent Feature Extraction in Social Networks for Node Classification

提出了一种基于社会网络特征提取的网络内分类方法。该方法提供了结合网络结构信息和分配给节点的类标签来计算的新特性。研究了不同特征对分类性能的影响。在真实数据上的实验表明，该方法生成的特征可以显著提高分类精度。

Introduction

有一些应用和研究方法，特别是与社交网络相关的应用和研究方法，能够产生相互连接的对象标签之间依赖的数据，称为关系自相关。根据这些连接，应该向分类过程中添加额外的输入信息。如果考虑的对象是人，并且在他们的个人资料中使用了分类，那么可以从关于共同活动和相互交流的互补数据(不同于人的个人资料)中提取社交网络。总之社交网络是节点的集合（人类实体、对象）和节点对中的节点和节点的关系。所有网络对象都可以用三种不同类型的信息来描述，这些信息在标签分类中很容易使用:对象的标签(类)与其属性之间的相关性，对象的标签与邻域内其他对象的观察(已知)标签之间的相关性，对象的标签与邻域内其他对象的未观察(未知)标签之间的相关性。

网络内分类的基本任务是从一组可能的类标签中为未标记的节点分配正确的标签。例如，基于通信交互的网络，可以确定给定公司的员工是执行人员还是管理者。为了获得尽可能好的分类结果，需要对这三种类型的信息进行评估:节点属性(profile)、节点与邻域中已知标签(带标签的邻居)的节点网络关系以及与具有未知标签的相邻对象的关系。这里的主要难点是从网络节点及其连接中提取出一组最具鉴别性的特征，从而得到最佳的分类模型。在后面的章节中，我们提出了一种新的网络特征提取方法。一些结构特征有识别力的分布，这可能直接影响分类性能。

一般来说，网络分类问题可以通过两种主要的方法来解决:网络内推理和跨网络推理。在网络内分类，训练实体直接与那些标签需要分类的实体相连，与跨网络分类不同，跨网络分类是从一个网络中学习的模型应用到另一个相似的网络中。网络数据允许使用节点邻居的特性对它们进行标记，但必须小心执行，以避免增加方差估计。在网络中可以区分两种不同的分类:一种是基于局部条件分类器的集合，另一种是基于作为一个全局目标函数的分类。第一种方法最著名的实现是迭代分类(ICA)和Gibbssampling算法(GS)，而后者的例子是循环信念传播(LBP)和平均场松弛标记（MF）。一般来说，有很多非常有效的集体分类算法以及基于图形的半监督学习方法。

特征提取是网络分类中最关键的问题之一。根据[4]，导出的特征分为两类:标签相关特征(LD)及标签无关(LI)。LD既使用网络的结构，也使用邻近节点标签的信息，例如具有给定类标签的邻居的数量。反过来，LI特征只使用网络结构来计算，例如节点之间。因此，LI类特性独立于网络中标签的分布，并且可能不提供信息。

Features Extraction from the Social Network

V是一系列节点（对象，社会实体）；E是一系列边；

Label-dependent Feature Extraction in Social Networks for Node Classification

每个vi都有一个xi；

L是分配给节点的不同标签的集合。

Y是实际分配给节点的标签的列表

W是边的权重。

已经知道一个给定子集顶点的yi，分类可以描述成推断余下的节点集合v的yi的过程。

节点分类过程的第一步是将网络数据转换为一组统一的向量，每个节点对应一个向量。点v i对应的单个向量包含来自x i的所有信息，以及基于网络轮廓的特征提取方法得到的一些附加信息(新属性)。接下来，将得到的向量集用于经典的监督分类。

Features Extraction

从社交网络进行的特征提取是从联通图构造变量的一个通用方法，表示每个节点相对于其他节点的位置和重要性。生成的特征可以是独立于标签的也可以是依赖于标签的。为清晰起见，本文在描述依赖于标签的特征时，基本假设特征提取仅基于物体标签与其邻域内其他物体观测到的标签之间的相关性，如图1所示

Label-dependent Feature Extraction in Social Networks for Node Classification

面给出了三个基本标签无关特征和三个标签相关特征的例子，以及标签相关特征提取的推广。

Label-independent Features

betweenness centrality

网络中具有高betweeness的节点非常重要，因为其他节点主要通过它们互相连接。

图G中的节点vi的

Label-dependent Feature Extraction in Social Networks for Node Classification

可以用这个公式计算：

Label-dependent Feature Extraction in Social Networks for Node Classification

Label-dependent Feature Extraction in Social Networks for Node Classification 返回图G中vi与vj的最短路径

Label-dependent Feature Extraction in Social Networks for Node Classification 返回图G中vi与vj经过vk的最短路径。

Degree Centrality

Degree centrality 定义为给定节点连接边的数量。它是网络分析中最简单、最直观的测量方法。具有高度中心性的节点被认为是网络中占据中心位置的关键节点。

Label-dependent Feature Extraction in Social Networks for Node Classification 可以用等式2计算：

Label-dependent Feature Extraction in Social Networks for Node Classification

Local Clustering Coefficient

量化了vi的邻居与完全图的相似程度，

Label-dependent Feature Extraction in Social Networks for Node Classification

Label-dependent Features

在引入标签相关特征的同时，提出了两种标签相关特征的形成方式。它们都依赖于根据分配给每个节点的标签选择性定义子网络的思想。这意味着给定标签l的子网络只由共享标签(类)l的节点以及连接这些选定节点的所有边组成。