【发布时间】:2020-04-17 18:17:05
【问题描述】:
我有一个枢轴数据框,其中包含有关许多旅行者在世界各地旅行中所处区域的信息。 我的枢轴 df 看起来像这样:
Name Anna Robert James
Date
2018-10-01 Bulgaria Spain Croatia
2018-10-02 Portugal NaN Portugal
2018-10-03 Spain USA Spain
2018-10-04 USA USA Spain
2018-10-05 USA Canada USA
有 100 列(100 位旅行者)和 300 天。
根据这些数据,我该如何探索哪些路线最受欢迎? 乍一看,他们都是从西班牙来到美国的。罗伯特也从西班牙飞往美国,只是他的飞行持续了 2 天。三位游客中有两位从葡萄牙来到西班牙,因此这也是一条受欢迎的路线。
有没有办法使用 ML 算法显示热门路线?我将非常感谢任何提示。
编辑: 我们可以假设该路线有 2 个节点,因此基于这条 df 西班牙-美国是一条受欢迎的路线
【问题讨论】:
-
我认为这个问题属于数据科学或统计堆栈交换,但它非常有趣。 V.很想知道您可以应用什么解决方案。
-
如果用符号替换每个国家/地区名称,您的问题实际上将变成寻找最常见的子字符串(您没有指定公共路线的长度或其连续性的约束)。例如,您的数据变为:
S1:BPSUU、S2:SUUC、S3:CPSSU。有关更多信息,请参阅链接的问题。 -
考虑到编辑,这个问题实际上并不需要任何复杂的 ML 或非 ML 算法。正如问题的答案所暗示的那样,只需沿路线进行蛮力搜索并存储结果加上最终计数即可得出答案。
标签: python pandas algorithm machine-learning data-science