【发布时间】:2013-05-07 23:11:05
【问题描述】:
我最近创建了一个 script,用于从 Twitter 的流 API 中捕获大量 geo data。我正在寻找某种方法来创建一个模型,以使用数据作为训练输入来表示世界上任何给定 lat/lng 点的地理“活动”。
我正在考虑将所有 lat\lng 舍入到小数点后两位,并创建所有位置出现的二维直方图。因此用于训练我的模型的输入将是:
x = lat - input
y = lng - input
z = location weight - observed output [normalized between 0.0 and 1.0]
我正在考虑创建 24 个模型(每小时 1 个)来模拟社交网络活动取决于一天中的时间这一事实。这也会将事物简化为 3-d 而不是 4-d。
问题:
- 对上述问题进行曲线拟合的最佳方法是什么?
- 是否有一个现有的库可以用来输入 x、y、z 并吐出最合适的 回归方程?我熟悉 Ruby、Python、Java 或 Scala。 示例代码将不胜感激。
【问题讨论】:
-
我很困惑。你的自变量是什么?
-
您提出的许多方面都与event detection in Twitter 相关(参见谷歌学术);我敢打赌,您最终会为世界人口密度建模(参见You Are Where You Tweet 的图 1),因此,您可能还想研究事件检测或其他一些用途来做一些更有趣的事情。 (P.S.,我最近做了一些推特location related work)
-
@Gian 'lat' & 'lng' 是产生“重量”的自变量。 f(lat,lng) = 重量
-
@WesleyBaugh 您正在研究事件检测。我正在尝试构建一个实时事件检测可视化器。事件被定义为在历史数据中无法解释的活动突然激增。我想将上述模型应用于传入的推文,以便我可以在热图上对它们进行更高/更低的加权。我遇到了pyeq2,如果有什么结果会更新。
标签: machine-learning regression curve-fitting