【发布时间】:2017-06-05 20:19:19
【问题描述】:
我是 R 和 Spark 的新手,但我正在尝试创建一个可扩展的 R 应用程序来检测用户执行的递增/递减查询。
我有一个 Spark DataFrame,其中包含以下格式的数据:
+-------+------------------------+-------------------------+
| user | query | query_time |
+-------+------------------------+-------------------------+
| user1 | Hp tablet | 2011-08-21T11:07:57.346 |
| user2 | Hp tablet | 2011-08-21T22:22:32.599 |
| user3 | Hp tablet | 2011-08-22T19:08:57.412 |
| user4 | hp laptop | 2011-09-05T15:33:31.489 |
| user5 | Samsung LCD 550 | 2011-09-01T10:28:33.547 |
| user6 | memory stick | 2011-09-06T17:15:42.852 |
| user7 | Castle | 2011-08-28T22:06:37.618 |
+-------+------------------------+-------------------------+
这个数据集有数十万行。我需要能够以某种方式可视化,例如,“hp tablet”正在上升。
我查看了一些可以帮助我实现这一目标的库(例如 Breakout Detection、Anomaly Detection 和 this question),但我不知道它们是否能很好地与 Spark 配合使用。如果他们这样做了,我找不到任何关于如何进行编程的示例。
我正在使用 R 版本 3.4.0 和 SparkR 版本 2.1.0,在 Zeppelin Notebook 上运行。
有人有什么想法吗?我也对任何其他方法持开放态度。 谢谢!
【问题讨论】:
标签: r apache-spark sparkr anomaly-detection