【问题标题】:I have this data set for crimes of a 12 month time period , over 250k rows and i want to predict future crimes by date and location我有这个 12 个月的犯罪数据集,超过 25 万行,我想按日期和地点预测未来的犯罪
【发布时间】:2019-08-24 10:15:58
【问题描述】:

我有这个 250k 具有这些功能的数据集

    date_time       FullAddress             call_type priority   lat       long
0   6/14/17 21:54   10 14TH ST\, San Diego\, CA 1151    2.0 32.705449   -117.151870
1   3/29/17 22:24   10 14TH ST\, San Diego\, CA 1016    2.0 32.705449   -117.151870
2   6/3/17 18:04    10 14TH ST\, San Diego\, CA 1016    2.0 32.705449   -117.151870
3   3/17/17 10:57   10 14TH ST\, San Diego\, CA 1151    2.0 32.705449   -117.151870
4   3/3/17 23:45    10 15TH ST\, San Diego\, CA 911P    2.0 32.705722   -117.15035

日期和时间、完整地址、经纬度、电话类型和犯罪严重程度。 我想预测未来犯罪发生的时间或预测再次发生的地点。我怎样才能做到这一点,我会使用回归还是分类?我已经预测了优先级,但是我如何预测它会发生的时间或位置?

我预测了优先级,但并没有真正给我任何东西。我想预测时间和地点或两者之一。

这是我的优先级预测代码

from sklearn.ensemble import RandomForestClassifier
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
my_RandomForest = RandomForestClassifier(n_estimators=100, random_state=0)

my_RandomForest.fit(X_train, y_train)
y_predict_fr = my_RandomForest.predict(X_test)
from sklearn.metrics import accuracy_score
print(y_predict_fr)
accuracy_fr = accuracy_score(y_test, y_predict_fr)
print(accuracy_fr)

[4. 3. 2. ... 3. 1. 2.]
0.95100761598545

【问题讨论】:

  • 这不是电视剧吗?
  • 等什么?你什么意思?
  • 这是一部电视剧的基础(相关人物,2011-2016)...精彩的节目!
  • 您更有可能最终直接拟合了一个参数联合分布 p(time, lat, long),该分布对犯罪计数进行建模,并在位置和时间步长的网格上获得预期计数。跨度>

标签: python dataframe machine-learning data-science sklearn-pandas


【解决方案1】:

时间 - 是一个序列,为了预测你想要使用 RNN (wiki) 的序列(例如 LSTM)。详细的好书:link

如果您只想在给定时间、类型和优先级的情况下预测位置(没有时间),您可以删除时间列,或者最好从列中提取新特征,例如星期几,并使用回归模型 (@987654323 @ 输出有 2 个单位)。预测位置坐标是回归问题,因为坐标是一个连续变量。

如果您想同时预测两者,我认为您应该通过 rnn 预测时间,然后通过回归模型预测位置。

视情况而定,如果您按市区表示位置特征,可能会更有用。

希望对您有所帮助。

【讨论】:

    【解决方案2】:

    对于位置,您需要为分类器创建一个分类 y 变量,可能通过将纬度/经度特征转换为邮政编码并为每个邮政编码分配一个整数(这相当于“优先级”)。

    【讨论】:

    • 但这是否能够预测这些地点未来的犯罪情况?
    • 您需要将 y 值向前移动一个时间点(使用 df[col].shift()),以便一个犯罪 (X) 的特征与下一个犯罪的位置对齐(目标 y)。然后分类器将尝试从最近的特征中预测下一个犯罪的位置。您可能还应该包含比最近犯罪更远的回顾功能(例如,提供过去一周犯罪数量的列)
    猜你喜欢
    • 2017-03-21
    • 1970-01-01
    • 2019-09-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-01-27
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多