A Framework for Analyzing Spectrum Characteristics in Large Spatio-temporal Scales

分析频谱特征的大范围时空框架

摘要

如果在缺少先验知识的情况下想了解频谱特性，需要在频率、空间和时间域中获得精确的频谱数据；采集这样一组不同维度的测量数据会产生巨大的数据量。并且，分析这样庞大的数据集是一项挑战，在现实中，与频谱相关的应用需要定制特别的方法，并且往往很难处理如此规模的数据。

在本文中，我们设计了BigSpec（大序列），一种能够快速处理应用的通用框架。

该模型的关键思想是通过计算保留了 信号特征的压缩数据，来降低计算成本。
根据这一思想，我们为三个应用构建了解决方案，即 能量检测、时空频谱估计和异常检测。
选择这些应用是为了突出BigSpec的效率、可测量性和可扩展性。为了评估 BigSpec的性能，我们收集了超过1兆字节的频谱数据，跨越300MHz-4GHz，覆盖400平方公里。
与对照和先前的工作相比，我们实现了17倍运行时间效率，亚线性而不是线性运行时间可伸缩性，并将异常的定义扩展到不同的域（频率和时空）。
我们还从数据中获得高水平的预见，可以为未来的频谱测量和数据分析提供有价值的建议。

论文分类：信息系统；时空系统；数据分析；网络测量。

关键词：频谱测量；时空数据分析；

1 介绍

联邦通信委员会(FCC)认为，频谱几乎很快就不足以满足移动宽带服务[9]日益增长的需求。因此，更加深入理解频谱特征是一项迫切的需求。先前的关于频谱利用的工作，主要涉及大型纵向（时间)研究[6,7,40,53,57]或在特定(空间）环境[14,39,46,59,61]进行测量。这些工作忽略了分析跨越空间和时间域的频谱特性。然而，了解大范围的频谱特征：例如，跨越一个城市或国家以及在长时间内多个月或几年是至关重要的。例如，当局希望查明哪些频带在大面积长期无活跃信号，并考虑为二次用户开放这些频带。

我们通过在公共汽车上安装频谱分析仪来填补这一关键空白，并让公共汽车在城市中行驶一年收集数据。与固定频谱分析仪相比，例如 微软频谱天文台(MSO)[6]，移动性不会带来额外的金钱成本，但是覆盖了更多的位置，它们的频谱特性可以大大不同。因此，我们的方法在成本和空间覆盖之间实现了更好的权衡。

然而，分析由此产生的数据更具挑战性。现在的商用频谱分析仪可以在几秒钟内完成以kHz分辨率对100MHz带宽的扫描，并记录；用于记录空间和时间变化的传感器，可以在覆盖城市区域或更大的许多地点连续产生测量数据几个月。因此，收集的数据量往往按TB计算甚至更多。与此对比，先前的频谱数据分析方法[14,39,58,61]经常在记录信道级别信息（ channel level information？）的大概1gb或者更少的数据集上操作。因此，它们不适合在这样大小的数据上操作，例如，它们在TB尺度的高维数据上效率低下或难以扩展。

以往的模型处理的数据量，和当前模型的数据量往往不是一个等级的；

基于MSO[50,66]的两个项目试图从大量频谱数据中推断出高层次的insights。SpecInsight[50]分析每个波段的信号模式，TX Miner[66]识别活动信号的发射机。虽然，这些系统通过递归地聚合来自频谱数据的小片段的观测结果，产生了准确的结果，但它们往往是根据特定的任务定制的，因为，它们并不总是设计成可扩展的。

[50,56]虽然也是处理大量数据，但是它们是根据特定任务生成的，不可以拓展。

为了解决这些限制，我们的目标是设计一个通用的频谱数据分析框架，通过该框架，用户可以有效地启用各种应用来做自己想要的频谱相关查询，即使用户可能不太熟悉复杂的大数据分析。 BigSpec通过 分布式数据存储之间的交互、可升级的引擎和可扩展数据管道（由几个模块组成)之间的交互来实现其期望的性能。

设计BigSpec背后的关键思想是，除了利用标准的大数据技术外，将原始数据转换为一个维度缩小的空间，该空间保留了应用可以利用的有用信号特征，并在该空间中执行广泛的计算——压缩数据

BigSpec很容易扩展，并可以启用各种与频谱相关的应用，以下为例子：

应用1（ 能量检测）：在不同的频谱带中，哪些频率范围通常是活跃的？在大的时空尺度上的没有活跃信号的波段是次要用户的理想选择。

应用2（ 时空频谱估计）： 系统能否在未测量的时间/位置估计频谱活动？ 在有限的传感平台预算下，我们不可能测量每个位置和时间！！！

应用3（ 异常检测）：是否有任何明显的违规行为，这些频谱被用来做什么？我们希望查出影响了合法用户的使用的非法频谱使用者，例如，在电视频道 51[2]和军用信道。

在本文中，我们讨论了为这些应用实现的解决方案。这些应用被专门选择来突出BigSpec的效率、可测量性（ scalability）和可扩展性（extensibility）。

为了评估Bigspec的性能，我们收集了一年多的频谱数据，并获得了超过1兆字节的数据，测量跨越宽范围的频谱(300MHz至4GHz)，并覆盖了400平方公里的面积。

与对照和先前的工作相比，我们实现了17倍运行时间效率（时间倍数为亚线性而不是线性），并将异常的定义扩展到不同的域（频率和时空）。

我们还从数据中获得了高层次的insights，为未来的频谱测量和数据分析提供了宝贵的建议。

数据和代码可在 https://wings.cs.wisc.edu/projects/获得，以便将来进行扩展和分析。

综上，本文的关键技术贡献如下：

这是第一项分析长期宽带频谱测量数据与由移动频谱分析仪捕获的大规模空间变化的研究。

对于应用1（ 能量检测 ），BigSpec提出了第一种可以在大容量频谱数据中 快速检测不同频谱带中活跃的频率，而不是逐渐聚集来自单点的观测值的方法。提出了在压缩数据上工作的有效算法，以检测在时空中长期存在和短期存在的能量。与对照方法( K-Means)相比，我们在频谱使用（精确度）方面提供了更细粒度的信息，并在运行时间效率方面有了了17倍的改进（§7.1.2）。

对于应用2（ 时空频谱估计 ），给定包含时间和地点的频谱带和GPS信息，BigSpec提供了第一种使用神经网络，同时考虑具有原始频率分辨率的空域和时域的频谱估计方法。它的精度与最先进的方法(Kriging，它只能用于空间或时间)相媲美，但在高维频谱数据（亚线性而不是线性)的 运行时间的可测量性方面明显优于 Kriging 。此外，在GPS噪声的干扰下，它对噪声的鲁棒性更强（§7.1.3）。

对于应用3（ 异常检测 ），BigSpec是第一个通过扩展App1和App2的分析，来检测两种异常- 频域异常和 时空域异常。来自我们真实世界数据集的示例表明， 频域异常有将异常用户与很少使用波段的合法用户 区分开来的潜能，而 时空域异常有可能检测由于 特殊事件而产生的异常使用模式，这对于以前的工作是不可能的（§7.1.4）。

频域异常——异常用户和合法用户区分的潜能

时空域异常——检测特殊事件而产生的异常使用模式的潜能

我们通过分析收集的这三个使用BigSpec模型的应用，得出了以下新的结论：

观察到的常见的频谱利用模式可能不符合先验知识。（§7.2）。即频谱的实际情况和检测到的情况可能不一样。
大时空尺度下的细粒度（高精度）频谱估计可能很困难；为了提高估计精度，我们需要一个更大的静态和移动宽带传感设备传感平台。（§7.2.2）。
异常可能是由零星（使用率低）的合法用户造成的；需要一个成体系的平台，包括精确和细粒度数据库、频谱测量和数据分析，以进行非法用户检测。（§7.2.3）。

2 动机和挑战

动机：

先前工作基于的假设——“关于频谱是如何使用有丰富的先验知识 ”[14,39,46,57,59,61]。根据监管部门制定的信道分配和一些其他的规则，对于给定信道，可以简略地记录信道的总功率和，并对其利用模式进行简单的假设。例如，通常假设在预定义的距离内，两个位置具有相似的信道利用率模式。此外，先前工作所需的测量是按几G或更少的数据进行的——一个相对较小的数据集。

本文的不同——然而，我们不能保证每个频谱用户都遵守这些规则。因此，所收集的测量结果可能与任何先前的假设不一致。此外，所作的假设并不普遍适用。例如，在预定距离内的两个位置实际上可能由于路径丢失或建筑物遮挡而不能保持类似的信道利用模式。因此，在我们的操作生态系统中，我们 基于关于如何使用频谱的先验知识很少的假设。

A Framework for Analyzing Spectrum Characteristics in Large Spatio-temporal Scales

数据收集：

为了弥补上述限制，我们生态系统中的频谱测量记录了一个非常宽的波段，具有高分辨率，并涵盖了时间和空间变化。类似于V-Scope[61]，我们在一个公共汽车部署了一个商业频谱分析仪，来自 ThinkRF的 WSA4000（频谱分析仪）[11]，穿梭在中等规模的美国城市。

频谱每100MHz的测量定义为单个测量，从300MHz到4GHz，总共 37个100MHz频段，每次全频谱测量，定义为单个扫描。单次测量需要3秒，单次扫描需要2分钟。对于单次测量，我们用26215精度（ frequency bins）记录功率谱密度(PSD)数据。

我们还使用GPS模块记录每次测量的时间和位置信息。由于公共汽车定期改变路线，城市很大一部分室外城市道路被我们覆盖。图一说明了每个测量的位置，每个点在地图上表示 单个测量，我们可以看到两个位置之间的空间距离可以任意小，以保持相似的信道利用模式。我们部署了一年多的频谱分析仪，表1总结了我们在本文中收集和使用的数据集。

ID	单次测量的次数	时间长度	原始数据大小
数据集1	50k	10个月	1.1tb
数据集2	20k	4个月	470gb

表1：本文使用的数据集摘要

与常规检测相比，例如[61]的检测，我们记录了长时间的细粒度宽带测量，而不是短期的信道级别信息（ channel level information），或者对于至少覆盖一个数量级的频谱的特定技术。为了简单起见，我们用每个100MHz频带的起始频率来表示，即以后300MHz-400MHz作为300MHz频段。

挑战：

在大的时空尺度上分析宽带频谱数据有以下挑战。

大尺寸的高维数据。正如人们所看到的，我们收集的频谱数据是分辨率高的（26215）和大尺寸的(TB)。此属性使以前的方法无法有效地分析数据。

这个数26215字代表——每100Mhz的频率带上，平分为26215个读数。

时域的间隙性和空域的不均匀性。虽然我们可以通过增加更多的传感器来获得更密集的数据，但使用移动传感器捕获的测量在时域上总是离散的，在空域上是不均匀的。在我们的例子中，这是因为测量只有在巴士运行时才被捕获(例如。几乎没有测量12AM-6AM)和拥挤路线沿线的位置(例如。市中心地区)被更频繁地覆盖。因此，它需要考虑整个时空域。

缺乏先验知识。对于一些应用来说，很难得到基本的对照结果。这使得应用监督学习技术具有挑战性，无监督/半监督学习技术更可取。

3 BIGSPEC overview Bigspec整体结构概述

我们的目标是设计一个通用框架，BigSpec，它是高效、可升级的和可扩展的，用于分析大时空尺度下的频谱数据。由于相对较少的内存和CPU核心，TB级的数据往往难以在单台计算机上进行计算；

先前的工作，电感[40]利用并发运行和持标准大数据技术的集群技术（这个论文已经下好，注意查看）也可以处理，但仅限于处理来自静态传感器的数据。

Bigspec从类似的体系结构开始，如图2所示。

在底层，我们利用分布式和容错的文件系统来存储原始数据。（HDFS）
在中间，我们利用高效和可升级的执行引擎来执行对原始数据的计算。(Spark）（代码）
在顶层，用户通过APIs（ analysis pipeline 数据分析管道，需要自己设计，不同模型对数据的处理方式不同）提交代码，并形成一个可扩展和灵活的数据分析管道。（APIs）

Bigspec的数据分析管道（APIS）：

我们的数据分析管道设计的关键思想是 对原始数据进行降维，将其转换为一个较不复杂的空间，并且保留信号特征，并在该空间中广泛执行计算。例如，如图3所示，为了启用§1中的三个应用，BigSpec的数据分析管道依赖于5个模块：

（1）频域奇异值分解(SVD)（§4.1)（预处理）

(2)数据压缩(§4.2)（预处理）

(3)能量检测(§5.1)（应用1）

(4)时空结构学习(&估计)(§5.2)（应用2）

(5)异常检测(§5.3）（应用3）

前两个模块（蓝色)用于预处理以降低维数，其余模块用于 在降维空间(黄色块)或同时在 降维空间和原始空间(绿色块）中执行每个应用特定的计算。每个应用的数据分析管道 （APIS）是预处理模块和应用特定模块的组合。

我们在§4和§5中详细描述了这些模块，遵循关键思想的新模块总是可以添加到管道中，以有效地支持其他应用。此外，虽然应用特定的模块可以受到传感器是移动的还是静态的影响，但APP 预处理模块不受影响。原因是预处理模块在 保持几乎所有有用信息的同时降低了维数，无论传感器是移动的还是静态的，尽管每个降维的含义都可以改变。

预处理模块是通用的

而一些模块，例如，数据压缩，支持实时流数据，并可以迁移到传感器，我们在本文中关注的是 批处理数据，因为我们想知道在整个时空空间而不是在短时间窗口内，频谱是如何使用的。然而，我们仍然有一个要求，由于几乎没有在12AM到6AM之间收集测量，我们希望计算在几个小时内完成，这样就不会建立数据积压。

此外，由于在集群中运行计算的金钱成本通常与机器的配置(内存和CPU核)、机器数量和使用时间有关，我们认为利用我们关键想法来降低计算成本是一个很好的方向。

4 BIGSPEC PREPROCESSING MODULES Bigspec的处理模块

预处理是数据挖掘的关键步骤。由于我们的频谱数据是高维的，降维作为一种特征提取形式，对于实现快速分析是必不可少的。

我们的主要贡献是：

(I) 与基于信道分配的压缩（ channel allocation based compression ）和无损压缩（ lossless compression ）相比，如何确定应该保留维度的数量，在压缩比和信息损失达到良好平衡；

(ll)如何解释被保留的维度；

4.1 频域的特征值分解

我们希望有一个与应用无关的降维技术，以便各种应用程序特定的模块可以利用它的结果。这需要 特征（保留的维度）以某种方式反映数据中的无线信号，以便大多数应用特定模块可以共同利用它们。

在已知的降维方法中，我们发现（ truncated singular value decomposition (SVD) ）截断奇异值分解唯一地满足了我们的要求。

它输出数据变化最大的正交方向，大的变化实际上是由信号强度在不同时间和位置的变化引起的。因此，这些特征以多种方式描述无线信号，这些信号是经常被感知的。

这可以从图4中观察到，我们将在本节的末尾更详细地解释这些特征的含义。

图4：Bigspec预处理的说明。 PC包含时空上长存的能量、短存的能量、能量形状变化和多个能量模式之间的能量差异。每个测量都被压缩为PC上的投影。

虽然（ truncated SVD）截断SVD是相当标准（ fairly standard）的，但据我们所知，BigSpec是第一个将其应用于细粒度测量而不是信道占用[33]的系统，这要归功于允许快速计算的分布式实现。

注意，基于信道分配计算总功率也是一种降维方法。然而，它有缺陷：

(I)它无法区分占用同一信道的不同信号，例如。电视频道的主要用户和次要用户
(Il)必须假设信道分配方案是事先知道的，每个用户都遵循这个方案，但是，假设并不总是正确的。

截断SVD： Truncated SVD

将每个100MHz波段的PSD数据， 作为具有m行和n列的真实矩阵Dm×n，其中m是测量数量，n是100Mhz平均分为多少的频率点 frequency bins数。

真实数据矩阵为：D测量的数量x频率数

（有数据急提供下载，可以看上面的数据集）。

它的k维截短SVD是：

看到，假设有前k个右奇异向量，因为它们包含关于频谱使用的信息。

我们将这k个向量称为数据矩阵Dm×n的前k个主要成分 PCs。

如果k≪m（测量数）和n（频率点数），并且有一个特定应用的算法在这些主成分上或它们对应的投影上工作，可以实现快速计算。

如何确定保留的k：

使用截断SVD和其他的降维技术的挑战是如何 确定合适的k值 。

如果k太小，就会丢失重要的频谱利用信息；
如果k很大，则会严重增加计算时间，而不会获得任何额外的有用信息。

我们在这里的贡献是如何确定合适的k，具体如下：

第一步：基于历史的正向估计。

设最优k值为k0，设其与测量数量m有关的函数为k0(m)。假设直到时间t1时有m个测量数， 最优值k（由下面的步骤2确定）是k0(m1) 。
对于直到时间t2>t1(包括t1的测量)测量数为m2，在时间t2处， 截断SVD的最优维数k保守估计为(k0(m1)·m2)/m1 。由于k0(m)是一个子线性函数（有关更多细节，请参阅第7.1.5节），这种估计是保守的。
当m1为0，m2较小（<1000）时，可以直接设置k=m2 ，计算出完全分解，因为在这种情况下，计算不会消耗太多的时间。

第二步： 向后估计校正，找到应该使用的最优维数k0(m2）。

虽然在前一步中确定截短的SVD的维数k，但我们那些含有意义信息的PCs 数目小于k 。
我们发现存在一个k0(m2)≥1，使得[ (k0(m2)+1),k]的的主成分（PC）都非常类似于高斯白噪声，这些pc不含有对我们有用的信息。图5(a)显示此种主成分的例子。

3.为了检查主成分是否是噪声，我们计算了主成分n个元素的夏皮罗-威尔克检验可信度（Shapiro–Wilk test） [43,48]。这决定了主成分是否可以很好地用高斯分布建模。一个较高的显著性检验（范围为0到1）意味着样本更有可能来自正态分布（正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution））。

高斯白噪声(White Gaussian Noise)中的高斯是指概率分布是正态函数，而白噪声是指它的二阶矩不相关，一阶矩为常数，是指先后信号在时间上的相关性。高斯白噪声是分析信道加性噪声的理想模型，通信中的主要噪声源—— 热噪声就属于这类噪声。

我们从大到小的顺序计算检验可信度，即k，k-1，...，2。我们过滤掉前面PC，直到我们找到第一个显著性检验值小于0.99的主成分。我们选择这个阈值是因为我们观察到主成分显著性检验超过此值不包含明显的信号。图5(b)显示使用我们的数据筛选出的具有最低检验可信度的pc。在遇到第一个显著性检验小于阈值的PC后，我们停止计算显著性检验，并保留所有剩余的k0(m2)个PC。这种后向估计校正为 未来的前向估计提供了基础。

最先进的SVD相关工作通常使用以下两种方法之一来确定k：

（一）做一个完整的SVD，并检查保留多少个维度，以便顶部k个奇异值保留了能量矩阵大于预定义阈值[18]，（二）直接使用预先定好的k[33,47]。

与这两种方法相比，我们的方法更适合于有噪声的细粒度光谱测量，因为它只保留了统计上不是噪声的PC。（因为去除了高斯分布极度相关的分量，剩下的更能够描述真正的信号）

解释：

从图4中，我们观察到第一主成分反映了相应的100MHz频段的平均利用率，因此可以用来检测时空长寿命能量（ spatio-temporal long lived energies. ）。对于第2到第k0个主成分，它们通常捕获三个特征：

(i)如果在100MHz波段内没有长寿命能量（ spatio-temporal long lived energies. ），则能反映没有显著形状变化或没有时空短寿命能量的时空长寿命能量的变化；图
（ii）时空能量的形态变化；图4
（iii）如果在100MHz频段内存在多个时空能量模式占用不同频率，一个主成分也可以捕获多个能量模式之间的能量差异，这对能检测到能量的波段是非常常见。图2

在第5.1节，我们提供了从主成分中检测常见的时空能量的方法。

4.2 数据压缩

我们的压缩模块的目的，不仅仅是有 效地减小频谱数据的大小。更重要的是，它能够将数据转换为一个不那么复杂的空间，在那里我们可以有效地获得结论。

由于测量中的噪声，传统的无损压缩在我们的数据集上不能很好地工作。

此外，可视化和一些应用也需要 解压缩，例如，基于重建误差的异常检测。

压缩：

在频域SVD和§4.1中描述的步骤之后，对于每个100MHz波段，我们得到了一个矩阵V（n×k0）（n为100mhz中分的个数，此处为26215），它由所有保留的主成分（pc）组成。然后，我们可以压缩数据集和计算 Dm×n（真实数据矩阵）在每个PC上的投影来并减小其维数：

降维计算公式：

理想情况下，保持C（m×k0）和V（n×k0）的压缩比为mn/((m+n)k0。

然而，我们不能在实践中实现这一点，因为我们需要精确保留每个测量中GPS信息。

解压：

为了解压，我们计算

由于压缩是损耗的，D‘m×n仅近似等于Dm×n

事实上，它是Dm×n的最佳秩k0近似。重建误差Em×n定义为

5 BIGSPEC APP SPECIFIC MODULES 特别的应用模块

在本节中，我们将介绍我们在§1中提出的三个应用的算法。虽然算法是特定于应用程序的，但它们遵循相同的关键思想，即在 降维空间中执行大部分计算。

5.1 能源检测

从单频谱测量中检测无线发射机的能量在以往的工作中得到了广泛的研究。然而，在从大量测量中直接检测能量方面所做的工作很少。

遵循BigSpec的关键思想，我们的技术直接从主成分（PCs）中推断出了每个100MHz频段存在的能量，并且在运行时效率上显著优于在未压缩空间中工作的算法。

我们将无线发射机的能量分为两类：

时空长期存在的能量（ Long-lived energies :）：是那些无论时间或地点的如何变化，其能量都没有变化
时空短期能量（ Short-lived energies）：是那些可以经常观察到的能量，但不是在每个位置/时间。

请注意，“长期”和“短期”不仅仅是指时域，而是指的是 时空域。

长期存在能量：

我们首先移除任何由传感装置引入的人工影响，在我们基于所有100MHz频段的第一个主成分（PC）检测长寿命能量之前，先执行噪声基准形状（ noise floor shape）提取。

计算噪声基准

正如我们将在第7.1.2节中所示，这对检测低功率长寿命能量的有源频率范围有很大的影响。

（它们更可能是具有长寿命能量的波段中的短命能量。然而，我们的目标是检测有源频率范围。因此，我们没有仔细区分这两个）

噪声基准形状 （ noise floor shape ） 提取的方法总结：

首先，我们识别了只保留了一个主成分（PC）的100MHz频段（这意味着没有观察到频谱活动），并使用这些100Mhz的第一个主成分组建一个具有n（26215）列向量的矩阵。

然后，我们使用SVD计算该矩阵的第一个主成分（PC），类似于§4.1中的方法（ 截断SVD），以获得传感设备的基准噪声。

最终通过从所有100MHz频段中的第一个主成分（PC）中减去它的投影来消除它对每个100MHz频段的影响。(因为这个噪声是长期存在的，使用会在第一主成分中存在，因为第一主成分反映了 Long-lived energies）

我们现在解释如何获得包含长寿命能量的100MHz波段：

设v300、v400、...、v3900分别代表噪声基准形状提取后300MHz、400MHz、...、3900MHz的第一主成分。
集合N为所有仅保留第一主成分（pc）的100MHz频段。(这意味着没有观察到频谱活动 )
集合L为通过算法1得到的所有具有长寿命能量的100MHz频段。

算法1的根据是，在对具有长寿命能量的100MHz频段进行提取噪声基准形状后的第一主成分（PC），应该与没有观察到频谱活动的100MHz频段的第一主成分（PC）显著不同。

对照组：我们使用K-Means算法来捕获差异，并且当在所有100MHz波段的集合中，没有观察到频谱活动的相似性分解时，停止增加质心（ centroids ）的数量。

短命能量计算

对于短命能量计算，我们关注的是那些没有检测到长寿命的能量并且保留了多个主成分（PC）的 100MHz频段。设C（m×k0）=[c1，c2，...，ck0]，其中ci表示对Dm×n在第i的主成分上的投影。设ci中的m个元素作为随机变量Ci的m个样本。

我们观察到，如果第i个主成分捕获短期能量，则Ci(i>1)与C1之间的相关性相对较强（绝对值不小于0.1，定义为相对较强）。否则，相关性相对较弱（绝对值小于0.1）。
这是因为捕捉时空能量形状变化的PCs(主成分)的投影，与第一个主成分（PC）的投影只有弱相关。然而，如果第i个PC捕获短命能量，那么更大的第i个PC投影需要一个更小的第一主成分（PC），以弥补稳定的噪声基准值。

这也意味着更强的相关性是负的。

pc--->活跃频率范围（手动）

请注意，上述算法只输出包含时空长寿命和短寿命能量模式的PCs。目前，我们只能手动从PC获得这些模式占用的 活跃频率范围。自动获得活跃的频率范围需要进一步的分析，我们将其作为未来的工作；由于缺乏先验知识，很难找到一种适用于各种能量模式的一般方法，例如，窄带或宽带、低功率或高功率等。

5.2 Spatio-Temporal Structure Learning 时空结构学习

将空间域和时间域作为一个整体考虑，对于频谱估计（ spectrum estimation ）是必要的，因为数据在时域上是突发的，在空域上是不均匀的。

然而，以前的频谱估计工作，例如，

[35,57]要么在不考虑时间变化的情况下，估计 特定信道在不同位置的功率或占用率；
要么 在不同的时间戳中估计其变化，而不考虑空间变化。
同时考虑空间域和时间域是很困难的，即使使用最先进的插值方法，如 Kriging [14,39,58]。

这些方法都是基于这样的假设，即 一个位置的读数 可以从距离这个位置（时间或空间）很小的测量中推断出来。

虽然这里的距离仅为时域或空域明确定义，但基于（时间，位置）坐标在时空域中 很难准确定义距离。此外， Kriging还有其他几个限制。据我们所知，Kriging没有一个适用于大数据量的分布式实现。

如果两个测量具有相同的时空坐标，则也会失败，因为在这种情况下，Kriging矩阵是不可转换的。

最后也是最重要的是，如果输出维数超过一个，则不能并行化，这使得在 frequency bin级别上的估计具有挑战性

神经网络配置（ NN Configurations ）：

为了解决当前频谱估计方法的局限性，我们决定对每个100MHz频段使用 前馈神经网络(NN)来学习时空结构，通过将其表述为 回归问题（ a regression problem ）。

我们 不使用更先进的NN结构，例如卷积LSTM[55]，因为这些结构通常不能处 理时域的突发性和空间域的不均匀性。

对于输入，我们将每个测量的单位时间戳转换为每天里具体时间、每个星期的具体哪天、月份的日期和月份（ timestamp—— 几月几号星期几何时 ）

我们同样添加 纬度和经度 作为空间相关的输入特征，并除去了其他GPS读数，例如，高度和速度。

对于输出，我们选择数据集在 每个PC上的投影。因为我们在前面的预处理步骤中减少了数据的维数，所以在运行的时候时间更优。

除了输出层，我们在其它层选择了 整流线性单元(ReLU)作为 **函数，达到快速收敛的目的，它使用线性函数。

对于损失函数，我们首先在压缩空间中的解压 估计误差向量（E），然后在未压缩空间中使用 估计误差向量的平方误差和(SSE）。减压缩是很重要的，解压后在未压缩情况下的精度是非常重要的内容。

神经网络的好处：

使用神经网络克服了Kriging的局限性。
首先，通过特征标准化，我们不必担心如何在时空域中定义距离。
其次，神经网络具有高效和分布式的实现，例如，Tensorflow[13]。
第三，对于具有相同时空坐标的两个测量，在SGD过程中仍然可以计算梯度。
最后，由于每个输出神经元共享相同的前一层，如果输出维数超过一个，则可以并行学习过程。

与Kriging相比，使用NN的另一个优点是NN对GPS噪声更健壮，因为输入噪声相当于正则化[17]的一种形式。

5.3 Anomaly Detection 异常检测

我们想强调的是，异常检测并不等同于非法用户检测，因为很少有先验知识。非法用户检测需要进一步的验证，这需要 人工辅助，所以过于直观的策略，如观察所有测量值中每一个检测到的能量是无法实现的。

因此，基于统计数据 得出有更多可能来自非法用户的功率模式是必要的。这是我们异常检测的目标。

虽然在 协作频谱感知[15,24,34,54]的背景下， 异常检测已经得到了很好的研究，但以前的工作集中在 记录特定信道总功率的数据上。然而，我们研究了如何检测高维频谱数据中的异常。我们通过扩展先前的分析来定义两种类型的异常：

(a) 频域异常是点异常，其中单个测量可视为相对于其余数据的异常；
(b) 时空域异常是一种context异常，其中单个测量在特定时空背景下是异常的。

区分这两种类型的异常的好处是，频域异常有可能将异常用户与很少使用频带的合法用户区分开来(即，零星的合法用户)和时空域异常有可能检测到由于特殊事件而产生的异常使用模式。

两种异常各有好处。

频域异常：

我们基于重建错误的基础上对每个100MHz频段进行频域异常检测。让ei成为Em×n的第i行。e¯是所有ei的平均值，estd是所有ei的标准差。

异常检测通常被计算为L2或L1范数的某些函数，其正态分布假设为异常评分。然而，我们使用不同的度量并定义异常分数：

其中⊘表示元素划分，||。|| 表示L2范数。原因是e˜应该遵循具有自由度n的Chis quare分布，在正常情况下，应该是高斯随机向量，类似于[32]。然后，我们可以在异常评分上应用一个阈值，如果 其异常评分大于阈值，则其确定为异常测量。

时空域异常：

我们根据神经网络产生的压缩空间的估计误差，直接检测每个波段的时空域异常。

检测时空域异常的方法类似于频域异常检测，但简单地将向量的维数修改为长度k0是不准确的。
在频域异常情况下，是一个高斯随机向量，其中我们假设添加到不同维度误差不相关。
然而，在时空异常设置中，情况并非如此；
在神经网络中，每个输出神经元共享相同的前一层，引入了相关性。为了解决这个问题，我们需要在计算异常分数之前对不同维度的误差进行修改(decorelate)，并在我们的系统中使用ZCA白化[16]来实现这一点。

请注意，由于无监督的性质，异常分数上的最优阈值没有确定。最初，人们可以通过指示一个表示异常发生的概率的显着性因子来确定阈值，然后检查与这个显着性因子对应的卡方分布的逆生存函数值以获得阈值。

在对最优阈值有了初步印象后，可以使用更先进的技术来确定最优阈值，例如使用（半）监督学习，例如svm。

6 实施

实现BigSpec需要图2中描述的云基础设施。当任何兼容的系统都可以用来实现BigSpec的各种模块和层，我们讨论了我们实现的细节。

在云平台上的配置：

分布式：我们在Cloud Lab[1,44]中配置了一个8节点集群；

硬件：每个节点都有两个14核2.00G Hz英特尔CPU、256GB RAM和双端口英特尔10GbENIC。

在集群之上，我们从Cloudera[22]安装CDH5，它集成了分布式容错存储HDFS[51]、可伸缩的内存执行引擎Spark[8]等。

注：HDFS: Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说， Spark 启用了内存分布数据集 ，除了能够提供交互式查询外，它还可以优化迭代工作负载。

我们还安装Tensorflow[13]作为运行神经网络的执行引擎。
数据管道 （APIS）使用 Scala和Python的组合实现。
请注意， Spark支持Scala和Python，但语言的选择对运行时间有直接的影响。
如果模块需要对未压缩数据进行直接操作，我们选择Scala是因为它的运行时间优越。
然而，如果一个模块对压缩数据进行计算，我们可以使用Python实现模块，因为它具有更大的灵活性和提供的各种包。
此外，Spark的性能与其他几个问题有关，例如，数据的分区数、内存配置。我们在这里不介绍细节，因为它超出了本文的范围。

7 评估和结果

我们评估的目的是双重的。

首先，我们使用收集的数据集（§7.1）来评估 Bigspec，以突出我们构建的各自解决方案的易用性，这与早期的工作是不可能的（ 这里应该指的是一个框架用于多个应用）。
第二，我们从我们的数据中提出了高层次的结论（第7.2节）。由于空间限制，我们只使用数据集1报告结果，除了§7.1.5和§7.1.6

7.1 BigSpec的评估

7.1.1 看系统各个部分性能

运行时间细分：

回顾一下，我们每天在12AM-6AM之间不收集数据；我们可以在此期间进行数据分析。因此，存在一个隐式约束，即数据分析管道应在几个小时内完成。图6显示， 每个模块的运行时间分解。

从图6中，我们看到，总的数据分析时间可以满足我们的要求
SVD是最耗时的模块，因为它涉及对未压缩数据的操作。
能量检测可以在3分钟内完成，因为 它的计算纯粹是在压缩空间中进行的。
根据SGD( 随机梯度下降) 的批处理大小和执行学习的历元数， 时空学习和估计的计算时间是可调 的。

7.1.2能量检测

Ground truth与 baseline method：

结果和对照组：

我们通过 手动调查所有100MHz频段的所有保留PCs（主成分）来获得真实记录（ Ground truth），并确定是否有信号，以及起止频率(如果有的话）。

——ground truth 是监督学习里的正确标签。

我们还使用FCC分配图[3]和在线频谱wiki[10]来验证我们的观测结果。

作为 对照组的做法：（在云中运行）， 我们分别对k=1，2。在每个100MHz波段的数据矩阵Dm×n矩阵列上运行K-Means，并计算每个分区中从每个观测到其质心的距离的集合和(WSSSE)。 如果当k=2时的WSSSE小于当k=1时的WSSSE（在实践中是0.95，这是基于 Ground truth 的经验优化），那么就有来自这个100MHz频段的无线发射机的能量。在这种情况下，具有较高平均功率的列（频率桶）簇包含能量。请注意，对照不遵循BigSpec的关键思想；它确实计算未压缩数据。

结果：

1.检测到的能量。

图7比较了Bigspec能量检测和K-Means的性能。

图 7(a)表明，BigSpec和K-Means都检测到所有包含（多个）长寿命能量的100MHz频段。这100MHz频段分别为300MHz（卫星），500MHz（电视），600MHz（电视），700MHz(LTE)，800MHz(GSM)，1900MHz(PCS)和2100MHz(PCS)。

然而， K-Means不能检测到任何短寿命的能量。 另一方面，BigSpec可以检测到13个100MHz频段中的12个，其中包含（多个）短命能量。由于空间限制，这里省略了短寿命能量的详细结果。 Big SPEC在3600MHz(CBRS)波段没有检查出来，我们观察到计算的相关系数为-0.099，略大于阈值-0.1。我们认为这个阈值可以通过监督学习来进一步优化。

此外，即使是长寿命的能量检测，K-Means也不能提供像BigSpec那样的细节，例如，信号特征和调制方案、多个信号之间的相对功率比较。

图 7(b)显示2100MHz的K-Means结果，我们可以看到，它 只提供占用信息，并检测到三种能量模式，即2130-2135MHz、2140-2145MHz和2145-2155MHz。

然而，如图所示7(c)显示，对于BigSpec，还检测到三种能量模式，即2110-2120MHz、2120-2130MHz和2135-2140MHz。

此外，使用BigSpec仍然保留频率bin级别详细信息。

2. 计算时间

量化结果：K-Means的运行时间是51分钟，而BigSpec（不包含预处理）的运行时间只有3分钟，比K-Means缩减17倍。

这说明了BigSpec的关键思想的有效性，即对压缩数据进行计算。即使计算预处理的运行时间，BigSpec和K-Means的运行时间仍然具有可比性，其他应用程序可以利用相同的压缩数据。

其他说明——基本噪声（ noise floor ）提取的作用：

图8显示我们设备中的噪音地板不平坦。我们认为，这不是我们的设备特有的现象，因为设备中的非线性，以及在执行FFT之前添加时间窗口导致的不可避免的结果。

我们还注意到，除了缓慢变化的噪音基准外，还有一些峰值，这意味着这些特定频带的读数可能是不可靠的。
因此，如果在长寿命能量检测中噪声地板不被移除，我们将失去一些信息。
例如，图7(d)， 显示没有移除基本噪声 2100MHz 第一主成分PC。与图7(c)相比，如果不提取噪声地板，显然探测2110-2120MHz和2120-2130MHz的能量模式是困难的。

其他说明——信噪比敏感性（ SNR sensitivity ）：

我们使用3600MHz的数据来评估Bigspec能量检测的信噪比灵敏度，因为它只有一个 瞬态能量模式，3650-3660MHz，这是Bigspec没有检查出来的。
在所有测量中，我们不断人为地向3650-3660MHz的读数中添加相同的能量，直到它可以被检测为短寿命和长寿命的能量。我们可以看到，原来的漏能模式有一个类似的噪声的cdf，除了一个大尾巴8dB。当每次测量增加0.5dB/3.3dB能量时，分别检测为短/长寿命能量。

累积分布函数 (Cumulative Distribution Function)：能完整描述一个实随机变量 X 的概率分布。一般以大写CDF标记,，与概率密度函数probability density function（小写pdf）相对。

7.1.3 Spatio-Temporal Structure Learning.

得到频带级估计精度的方法

我们对特定波段( Cm×k0)的投影以及测量的GPS读数进行了10倍的 交叉验证（ cross validation），将估计的 投影（NN的输出）解压回每个测量的bin功率（ bin powers ）。

cross validation： 如果不做交叉验证，只需训练一次 现在等于训练了N次，训练时间变成了N倍

然后，我们比较了压缩/解压(D‘m×n)后，每个测量的估计bin功率与相同测量的功率读数。图10(a)，显示了一个时空估计以及(de)压缩后相应的实际测量的例子。
我们可以看到，我们可以估计频率仓级（ bin-level）的频谱使用情况，并保留细节，例如电视信号的导频。

空间热图，例如，图10(b)和时间瀑布图（由于空间限制而省略）也可以很容易地基于NNS生成。

隐藏层的数量

增加更多的隐藏层可以提高神经网络的准确性，而牺牲了增加的训练时间。

我们改变了神经网络中隐藏层的数目，以衡量99百分位数误差与训练时间之间的权衡。
图10(c)使用500MHz波段数据显示结果。可以看出，增加更多的隐藏层确实提高了估计的精度。
然而，当隐层数大于3时，第99百分位数误差停止显著改善，训练时间开始不利地增加。
对于本节的其余部分，我们将 隐藏层的数量固定在3。

估计精度

我们应用上述方法来获得所有波段的bin级估计精度。图10(d)，显示时空结构学习和估计绝对误差的CDF。

红色、绿色和蓝色的线条代表了长寿命或短命能量的波段的最佳、中值和最坏的情况。

可以看出在不同的频率带上，估计的误差不一样。
最好、中位数和最坏情况的定义是第99百分位数。我们可以看到，在最好的情况下，NN可以作出近乎完美的估计。
其他波段的结果，比这里最好的情况，因为不能够清楚显示而没有展示出来。
神经网络对 GSM和PCS波段的估计不太准确，它们有多个长期存在且时变的信道。这种估计误差似乎很高，因为这些波段具有随机利用性质，而NN只能输出确定性估计。

此外，由于我们使用交叉验证，它随机划分数据集，而不是基于空间/时间距离（基于空间/时间距离划分数据集，然后评估估计精度，对于我们的数据集来说是很困难的，因为它在空间/时域上的不均匀性/爆发性。），估计结果可能受到 过时的历史模式或 显著不同的未来模式的影响。

就主成分的类型而言，NN对主成分上 捕捉能量形状变化的投影的预测并不太准确，这可以从图10(a)中观察到。原因是这些PC上的投影是相对随机的，并且独立于输入特性。

与Kriging比较：

在实践中，克里金只适用于空间插值或时间插值，而不适用于时空插值。
因此，我们选择500MHz的电视波段数据集，因为它有很大的空间变化，很少的时间变化（在某一个维度上保持不变，来做模型对比）。请注意，我们在数据中有多个保留维度；
因此，我们实现 Kriging方法对每个保留维度进行插值，然后解压聚合结果以获得最终结果。如果需要的话，我们还在经纬度读数中添加一个小的随机噪声，以确保克里金矩阵是可逆的。
此外，为了进行公平的比较，NN与Kriging的比较只以空间坐标作为输入。我们的结论如下：

1. 准确性:

图 11(a)比较BigSPEC和Kriging估计误差的CDF。可以看出，Bigspec达到与Kriging 非常相似的精度水平。

2. 运行时间与输出维度:

500MHz数据在频域SVD后保留了 681个维度；

更大的维度需要更长的运行时间(训练和推理)；

图11(b)显示归一化运行时间作为输出维数的函数。图中11(b)，我们可以看到Kriging的运行时间是线性增长的，但是使用NN是次线性增长的。

这证明了BigSpec的优越可伸缩性（在输入维度方面）和对保留信号特征的压缩数据执行计算的意义。

对于绝对运行时间，运行681维的NN需要2小时，这与3维的kriging相同。

3. 对GPS噪声的鲁棒性：

使用NN相对于Kriging的另一个好处是它对GPS噪声的鲁棒性。
由于建筑物信号的阻塞，GPS读数可能会产生噪音。我们通过向空间坐标注入噪声来表征它的影响，空间坐标的随机方向从0到360度，半径从0到一个变化的最大值。
如图11(c)所示，随着注入GPS噪声最大半径的增大，Bigspec的第99百分位数误差的变化明显小于Kriging。

7.1.4 Anomaly Detection.

与基线比较：

我们比较了我们的（频率）异常检测方法与使用 L2和L1范数 计算异常分数的正态分布假设，这类似于最近的工作SAIFE[41](基于L1范数)。

在计算每个测量的异常分数后，我们根据它们的分数排序测量，并获得前50名。

我们通过手动比较每个测量与其重建信号的频域特征来获得ground truth（正确的标签值），并使用以下两个度量来比较灵敏度和特异性：

（1）第一假阳性(FP)之前的真阳性(TPS)数。在检测错误之前，检测正确的个数。
（2）50个阳性(P)输出异常中的假阳性(FPs)数。50个输出中，错误个数的比例。

从图中12(a)，我们可以看到，BigSpec在这两个指标上都取得了更好的业绩。

频域异常实例：

图12(b)和12(c)分别显示600MHz频段（TV频段）的频域异常和时空域异常。

在2011年，FCC冻结了要求使用信道51( 692-698MHz) 的广播站的所有未来应用程序，以防止对700MHzLTE波段[2]的干扰。如果我们只获得电视频道的和功率，我们将无法正确地确定异常是由于异常用户还是遗留电视用户。然而，如图 12(b)和12(c)所示，由于BigSpec保留了频仓级别的细节，我们可以毫不困难地手动区分这两个。（先验信号） 电视信号应该占据6MHz的带宽 ， 在频域上有一个矩形形状 ，但频域异常如图 12(b) 所示 包含2MHz带宽尖峰形状信号（绿色框） 。因此，我们确定了如图 12(b) 所示的频域异常，由非电视信号引起。

这证明了 频域异常有可能将异常用户与很少使用频带的合法用户区分开来。

时空域异常实例：

我们注意到，在8月7日晚上9点，在700MHz(LTE)波段和800MHz(GSM)波段都有突发的时空异常。实际测量表明，这两个波段比神经网络的预期更繁忙。因此，一个令人信服的解释是，有一个 特殊的事件，使许多人聚集在一个地点附近的测量位置。我们获得了异常的位置，并手动找到了在本地网站上记录的所有事件中最有可能导致这两个异常的特殊事件。这是一个LGBT社区的活动，当时有100多名服务员[12]在250米以内，图12(d)说明时空异常和当地事件的地点。虽然我们不能百分之百地确定这是时空域异常爆发的根本原因(这是使用真实世界测量的一个常见问题。在[63])中，我们认为这表明时空异常具有检测由于特殊事件而产生的异常使用模式的潜力。

7.1.5频域SVD

反向估计校正后保留主成分（PC）的数量：

图13显示了CDF（累积分布函数）中两个数据集中保留主成分的数量。
从图中13，我们可以看到，80%的100MHz频段的留存率小于或等于100个主成分。
在最坏的情况下，数据集1保留的主成分少于700，数据集2保留的主成分少于350。这两个数字仍然明显小于原来的26215维。

正向估计的准确性

图14，以500MHz数据为例，比较了正向估计（红线)和反向估计校正(蓝线）的结果。
从图中14可以看出， 正向估计确实是一种保守估计。当测量次数较少时，前估计和后估计校正的差值相对较大。这是可以容忍的，因为当测量次数较小时，计算SVD的时间也相对较小。
另一方面，当测量次数足够大时，我们可以看到正向估计是向后估计校正的一个非常紧的界。
此外，图14中的蓝线还表明，k0作为测量数m的函数 呈次线性增长（请注意，它也经过(0，0)，(1，1））。

7.1.6数据压缩

与对照的性能比较：

我们选择 无损通用压缩Gzip[5,38]和 频谱数据的有损压缩Airpress[65]作为对照。我们评估压缩比和压缩时间。

1. 压缩比

图15(a)显示数据集2每个100MHz波段压缩比的CDF。从图15(a)中，可以看出，在100MHz频段中， 80%的BigSpec压缩比大于100。

在最坏的情况下，压缩误差仍然在30左右。 Gzip的压缩比仅为2.5左右， Airpress的压缩比约为64左右，我们的压缩比中位数为104×优于Gzip，25×优于Airpress。这表明有损压缩比无损压缩更适合于频谱数据。

此外，对于90%的100MHz频段，BigSpec比Airpress具有更好的压缩比。

2. 压缩时间。

图15(b)显示每个100MHz频段压缩时间的CDF。
我们可以看到，Bigspec和Airpress的压缩时间约为1分钟，Gzip的中位压缩时间为10×高。
这表明，通过使用有损压缩，我们也显着地减少了压缩时间

压缩误差：

1分布：

我们使用图中的数据集2对压缩/解压所引入的错误进行了基准测试。

图16(a)说明每个频率仓的绝对误差的CDF。

红线代表最佳情况，绿线代表最坏情况。最佳和最坏情况的定义是第99百分位数误差。图16(a)表明，最坏情况非常接近最佳情况， 这意味着压缩/压缩所带来的误差在所有波段都是等价的。
在图中16(a)，第99百分位数绝对误差在17dB左右。虽然这个数字似乎很高，但压缩仍然保持数据中所有有用的信息，除了少数频域异常，例如，图12(b)，误差几乎完全由噪声引起。

2.错误模式

我们还评估了压缩/解压引入的错误模式。理想情况下，我们希望测量的高能箱的误差很小，对于非常低的能量箱，我们可以容忍更多的误差。图16b以数据集2中500MHz的错误模式为例。其中x轴为被测仓功率，y轴为重建后的仓功率。从图16(b)中，我们可以看到，Bigspec确实能降低高能箱的误差。

7.2从数据看 Insights from the Data

我们通过总结Bigspec使用获得的新结论来结束我们的评估，这与先前工作的假设/结论不同。
这些结论为今后的频谱测量和数据分析提供了宝贵的建议。

7.2.1能量检测

常见的频谱利用模式不符合先前的知识，这是不寻常的。

以前的工作 [14,39,57,61,65]隐含地假设所有合法用户都遵循监管当局制定的信道分配/规则，以便这种丰富的先验知识使粗略的频谱测量变得足够好。
然而，我们发现情况并非如此，并以500MHz电视波段为例，其第一PC（主成分）如图17所示。

根据FCC的分配，从500MHz开始，每个电视频道占据6MHz，并且彼此相邻，例如，500-506MHz，506-512MHz等。然而，从图17中，我们可以看到，从电视信号（红色方框中）检测到的5种长寿命能量模式没有遵守这一先前的知识。

换句话说，如果一 个人均匀地采样我们测量的时空空间中的一个位置/时间，频谱利用率的期望包含5个不符合先验知识的电视信号。

此外，它们的导频音调接近 信道的上边缘，而不是下边缘，这也与先前的知识相矛盾。

7.2.2时空结构学习

大时空尺度下的细粒度频谱估计可能很困难，我们需要一个更大的静态和移动宽带传感器传感平台来提高精度。
以往的工作[14,39,57,58]表明，粗频谱估计在较小的时空尺度上是准确的。
然而，这并不总是适用于大时空尺度下的细粒度估计，在这种情况下，我们可以对动态波段有很大的尾差，例如，蜂窝频带。

第99百分位数误差为1900MHzP CS频段可高达17dB。为了提高精度和准确识别时空模式，我们需要更密集的时空域数据；
这需要一个具有多个传感器的更大的传感平台。目前的频谱测量工作通常使用静态传感器。它们具有良好的时间覆盖，但缺乏空间覆盖。
另一方面，由几个移动传感器组成的传感平台具有相反的特性。
因此，我们需要静态传感器和移动传感器相辅相成。
此外，传感器的成本和带宽/分辨率之间存在权衡。
这进一步要求平台可以处理来自不同质量传感器的数据，我们将在§8中讨论更多。

7.2.3异常检测

异常可能是由零星的合法用户造成的。需要一个包括精确和细粒度规则/分配数据库、频谱测量和数据分析在内的统一平台来进行非法用户检测。
与以前的工作相反[15,19,24,29,34,54]，在假设异常是由恶意非法用户造成的情况下，很大一部分检测到的异常实际上是频谱的零星合法用户；例如，在2400MHz频段检测到的频域异常主要是蓝牙信号。
因此，对于一个非法的用户检测系统，半监督学习与一小部分标记数据是更现实的。
我们的异常检测方法实际上提供了关于哪些数据更可取的建议，要被标记/进一步验证，并且非法用户很少出现。

然而，标记需要精确和细粒度的先验知识，但目前我们只 有FCC分配图表和在线文档，说明：

(I)如何分配特定的频带
(Il)哪些服务，这是非常粗糙的信息

我们不知道什么类型的信号可以被传输，并且每次、位置和频带都被传输因此，我们需要一个统一的平台，将精确和细粒度的规则/分配数据库、频谱测量和数据分析结合起来。这个精确和细粒度的规则/分配数据库使我们能够查询谁可以使用特定的波段，在特定的位置/时间准确地发挥什么调节约束，这对于进一步验证以准确识别非法用户至关重要。

8 讨论和今后的工作

其他测量方法：

1. I/Q样本：

考虑到SVD可以推广到复数，除了能量读数外，Bigspec还可以潜在地支持I/Q样本。虽然目前的Spark实现不支持计算复杂矩阵的SVD，但当只有真实的SVD可用时，可以使用其等效的真实矩阵[23]来实现这一点。

2. 多个感知设备和众包

如果多个设备都具有相同的频率分辨率，并且用相同的带宽测量相同的频带，我们可以组合它们的数据。事实上，只要我们确定每个测量的频率桶数和每个频带的开始和结束频率，我们就可以容忍每个频带的不同带宽（从而容忍不同的频率分辨率）。如果多个设备具有显著不同的性能（在分辨率，带宽方面），我们设想一种解决方案，即低分辨率设备可以根据高分辨率设备收集的数据检测任何异常，并要求具有高分辨率设备的最近用户验证这种异常。

推广到其他应用程序：还有其他可能感兴趣的应用。例如，Bigspec能识别不同类型发射机的信号模式、特征、调制和技术吗？共享频谱中的哪一部分用户分别是主要用户/次要用户？将Bigspec推广到其他应用需要设计应用程序特定模块的算法。然而，我们认为，一个高效和可伸缩，能够分析整个时空空间的频谱使用，而不是在短时间窗口内的应用特定模块，应该始终在保留了信号特征的压缩数据上进行计算。

如前所述，无损压缩是无用的，基于信道分配的压缩只提供粗略的信息。因此，我们相信我们的应用诊断预处理模块，是减少维数，但仍然保留（几乎）所有有用的特征，以便在高压缩比和易于提取细粒度信息之间取得平衡的压缩算法的一个很好的例子。

此外，如果更多的预处理模块将被添加到Bigspec，我们相信他们应该有与我们相同的想法，以达到这一平衡。这就是为什么我们认为BigSpec是可推广的，我们希望它能形成一个新的频谱（批处理）数据分析范式，类似于经典的MapReduce范式如何用来塑造人们对大数据进行计算的方式。

9 RELATED WORK 相关工作

频谱测量和频谱观测站：

以前的频谱测量工作要么修复位置，要么只记录时间变化，例如，[6,28,57]，或记录空间差异并假定时间不变，例如，[45,46,61]。
然而，我们的工作，不假定先验知识，并且同时记录空间和时间的变化。
最近的研究工作，还包括低成本传感设备[36,37,49,62]和快速传感方法[25,26,60]。虽然在室内测量[20,59]方面做了一些工作，但室外测量得到了更多的关注，宽带长期的室外工作[40,50,53,66]建造频谱观测站的工作。
[50]和[66]还提供了从MSO数据中分别分析信号模式和检测发射机的解决方案。
与这些工作相比，我们提供了一个通用的框架来有效地对大量数据进行频谱数据分析，其关键思想是对保留信号特征的压缩数据进行计算，我们用三个示例应用程序来说明这一点。

来自频谱测量的信号检测：

单谱测量的信号检测已经得到了广泛的研究。
经典方法通常可分为能量检测或特征检测[31,56]。 [52]做了个调查。最近的工作[63]检测转换空间中的信号，但它仍然集中在单/小时空尺度测量上)。
然而，我们的 重点是如何直接检测来自大量/时空尺度的频谱测量的信号能量，这一方向在以前的工作中很少受到关注。

频谱估计：

频谱估计有两个主要方向，即信道 能量/占用估计[4,35,57]和发射机 类型/位置估计[27,30,42,64]。
处理时间不变信道能量估计的最新方法是Kriging[14,39,58]。
然而，我们的方法在两个方面是不同的。首先，我们将空间域和时间域一起考虑，而不是单独考虑。第二，我们提供估计的（ frequency bin）水平能量，而不是信道级别能量/占用。
此外，虽然本文不涉及发射机类型估计，但在Bigspec中总是可以添加一个遵循相同关键思想的有效模块来解决它

频谱异常检测：

在协同传感[15,24,29,34,54]的背景下，频谱异常检测得到了很好的研究。然而，它们都是基于特定信道的和功率读数，因此无法区分频域异常和时空域异常。
我们的方法可以区分这两种不同的异常，我们已经显示了好处。最近的工作SAIFE[41]也可以从高维PSD或I/Q数据中检测异常，但它是基于重建误差的L1范数，并且只对具有时间变化的数据进行工作。

频谱数据压缩：

Airpress还[65]注意到频谱库存的可伸缩性问题。因此，它主要集中在如何最小化最大压缩比64的数据大小。
我们进一步采取步骤，并将数据压缩作为预处理步骤，将数据传输到一个不太复杂的空间，保留信号特征，这样我们就可以有效地启用不同的应用程序。

10 CONCLUSIONS结论

我们已经介绍了BigSpec，一个通用的框架，可以在大量的频谱数据上有效地启用不同的频谱相关应用程序。虽然，我们在本文中只使用三个示例应用来评估BigSpec的性能，但我们认为，BigSpec的关键思想使我们在先验知识很少的情况下，能够更深入地理解大时空尺度下的频谱利用。我们设想BigSpec将与其他构建块一起扩展，以便在未来由社区启用更有趣的应用程序。我们预计，使用BigSpec产生的新见解在帮助用户、服务提供商和监管当局更好地测量和利用频谱方面具有相当大的价值。

我们感谢我们的牧羊人AshutoshSabharwal和匿名评审员的详细反馈。我们感谢麦迪逊地铁巴士让我们收集数据，以及威斯康星州公共广播公司的史蒂夫·鲍德回答我们关于电视频谱的问题。我们感谢我们的实验室伙伴建立了数据收集平台，JerryZhu在本项目的早期阶段进行了有益的讨论，RobinCorcos对本文的早期版本进行了校对。曾义静、华伦·钱德拉塞卡兰和苏曼·巴纳吉部分由美国国家科学基金会赠款CNS-1838733、CNS-1719336、CNS-1647152和CNS-1629833支持。 Domenico Giustiniano在G5461赠款下由北约科学促进和平与安全方案和马德里地区政府通过TAPIR-CM项目S2018/TCS-4496提供部分赞助。