【问题标题】:Curve fitting for geo data地理数据的曲线拟合
【发布时间】:2013-05-07 23:11:05
【问题描述】:

我最近创建了一个 script,用于从 Twitter 的流 API 中捕获大量 geo data。我正在寻找某种方法来创建一个模型,以使用数据作为训练输入来表示世界上任何给定 lat/lng 点的地理“活动”。

我正在考虑将所有 lat\lng 舍入到小数点后两位,并创建所有位置出现的二维直方图。因此用于训练我的模型的输入将是:

x = lat - input
y = lng - input
z = location weight - observed output [normalized between 0.0 and 1.0]

我正在考虑创建 24 个模型(每小时 1 个)来模拟社交网络活动取决于一天中的时间这一事实。这也会将事物简化为 3-d 而不是 4-d。

问题:

  • 对上述问题进行曲线拟合的最佳方法是什么?
  • 是否有一个现有的库可以用来输入 x、y、z 并吐出最合适的 回归方程?我熟悉 Ruby、Python、Java 或 Scala。 示例代码将不胜感激。

【问题讨论】:

  • 我很困惑。你的自变量是什么?
  • 您提出的许多方面都与event detection in Twitter 相关(参见谷歌学术);我敢打赌,您最终会为世界人口密度建模(参见You Are Where You Tweet 的图 1),因此,您可能还想研究事件检测或其他一些用途来做一些更有趣的事情。 (P.S.,我最近做了一些推特location related work
  • @Gian 'lat' & 'lng' 是产生“重量”的自变量。 f(lat,lng) = 重量
  • @WesleyBaugh 您正在研究事件检测。我正在尝试构建一个实时事件检测可视化器。事件被定义为在历史数据中无法解释的活动突然激增。我想将上述模型应用于传入的推文,以便我可以在热图上对它们进行更高/更低的加权。我遇到了pyeq2,如果有什么结果会更新。

标签: machine-learning regression curve-fitting


【解决方案1】:

K-Means clustering 算法在这里可能会有所帮助。考虑到所有推文的纬度和经度,它可以用来计算推文集群的位置。

【讨论】:

  • 这如何回答 OP 的问题?聚类将点分配给一个很好的聚类。 OP 正在尝试对某个地理区域中的 number 条推文进行某种形式的回归。也许我错过了一个明显的联系。
  • (虽然,我确实认为集群可能会在整体解决方案中发挥作用,但是,集群本身似乎还不够。)
【解决方案2】:

这是我将采取的方法。您应该建立一个回归模型,至少具有以下预测变量:纬度、经度、(纬度、经度)的人口密度、时间(可能是分类的)和任何其他相关特征。您正在对某种活动进行倒退。

就 python 库而言,我可以为您提供帮助:如果您想构建标准线性模型(可能不会,但您可以将其用作起点),statsmodels 是一个不错的起点。您至少可以在一些测试数据上获得 MSE。

鉴于模型可能很复杂并且会有很多交互,您可能希望将其与神经网络回归模型之类的模型进行比较——如果是这样,pybrain 的设置非常简单那种东西。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-03-15
    • 2016-03-09
    • 2010-10-09
    • 2018-10-16
    • 1970-01-01
    • 2018-12-18
    • 2015-06-20
    • 2015-07-01
    相关资源
    最近更新 更多