地理数据的曲线拟合答案

【问题标题】：Curve fitting for geo data地理数据的曲线拟合
【发布时间】：2013-05-07 23:11:05
【问题描述】：

我最近创建了一个 script，用于从 Twitter 的流 API 中捕获大量 geo data。我正在寻找某种方法来创建一个模型，以使用数据作为训练输入来表示世界上任何给定 lat/lng 点的地理“活动”。

我正在考虑将所有 lat\lng 舍入到小数点后两位，并创建所有位置出现的二维直方图。因此用于训练我的模型的输入将是：

x = lat - input
y = lng - input
z = location weight - observed output [normalized between 0.0 and 1.0]

我正在考虑创建 24 个模型（每小时 1 个）来模拟社交网络活动取决于一天中的时间这一事实。这也会将事物简化为 3-d 而不是 4-d。

问题：

【问题讨论】：

我很困惑。你的自变量是什么？
您提出的许多方面都与event detection in Twitter 相关（参见谷歌学术）；我敢打赌，您最终会为世界人口密度建模（参见You Are Where You Tweet 的图 1），因此，您可能还想研究事件检测或其他一些用途来做一些更有趣的事情。（P.S.，我最近做了一些推特location related work）
@Gian 'lat' & 'lng' 是产生“重量”的自变量。 f(lat,lng) = 重量
@WesleyBaugh 您正在研究事件检测。我正在尝试构建一个实时事件检测可视化器。事件被定义为在历史数据中无法解释的活动突然激增。我想将上述模型应用于传入的推文，以便我可以在热图上对它们进行更高/更低的加权。我遇到了pyeq2，如果有什么结果会更新。

【解决方案1】：

K-Means clustering 算法在这里可能会有所帮助。考虑到所有推文的纬度和经度，它可以用来计算推文集群的位置。

【讨论】：

这如何回答 OP 的问题？聚类将点分配给一个很好的聚类。 OP 正在尝试对某个地理区域中的 number 条推文进行某种形式的回归。也许我错过了一个明显的联系。
（虽然，我确实认为集群可能会在整体解决方案中发挥作用，但是，集群本身似乎还不够。）

【解决方案2】：

这是我将采取的方法。您应该建立一个回归模型，至少具有以下预测变量：纬度、经度、（纬度、经度）的人口密度、时间（可能是分类的）和任何其他相关特征。您正在对某种活动进行倒退。

就 python 库而言，我可以为您提供帮助：如果您想构建标准线性模型（可能不会，但您可以将其用作起点），statsmodels 是一个不错的起点。您至少可以在一些测试数据上获得 MSE。

鉴于模型可能很复杂并且会有很多交互，您可能希望将其与神经网络回归模型之类的模型进行比较——如果是这样，pybrain 的设置非常简单那种东西。

【讨论】：