【问题标题】:How to load data from the output of mapreduce part-r to Pig or Hive如何将数据从 mapreduce part-r 的输出加载到 Pig 或 Hive
【发布时间】:2016-05-29 00:57:19
【问题描述】:

我从 mapreduce 作业中生成了作为第 r 部分的数据,格式如下:

(19,[2468:5.0,1894:5.0,3173:5.0,3366:5.0,3198:5.0,1407:5.0,407:5.0,1301:5.0,2153:5.0,3007:5.0])
(20,[3113:5.0,3285:5.0,3826:5.0,3755:5.0,373:5.0,3510:5.0,3300:5.0,22:5.0,1358:5.0,3273:5.0])

19 和 20 是用户 ID,[] 中的数组是对用户的推荐,每个推荐用逗号分隔。我想以表格格式加载这些数据 - 第 1 行 =19,2468,5.0,3175,第 2 行 = 19、1894、5.0、3173 等等。

我如何通过 Pig 或 Hive 实现这一点?

【问题讨论】:

  • 你能确认一下,提到的输出是必需的吗?
  • 到目前为止你做了什么?

标签: hive apache-pig


【解决方案1】:

到目前为止,我已经在 Pig 中尝试过,但无法解析以获得所需的输出。

我希望创建一个报告,我可以在其中显示用户名(通过加入用户表)、为用户推荐的电影名称(通过加入电影表)和用户评分。

在上面的数据中,19 是用户 ID。括号内是为该用户推荐的电影 ID 以及评分。每个建议都用逗号分隔。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多