【发布时间】:2016-03-06 11:21:46
【问题描述】:
我有一个这样结构的表:
user_id | message_id | content
1 | 1 | "I like cats"
1 | 1 | "I like dogs"
以及dictionary.txt(或外部 hive 表)中的有效单词列表,例如:
I,like,dogs,cats,lemurs
我的目标是为每个用户生成一个字数统计表
user_id | "I" | "like" | "dogs" | "cats" | "lemurs"
1 | 2 | 2 | 1 | 1 | 0
这是我迄今为止尝试过的:
SELECT user_id, word, COUNT(*)
FROM messages LATERAL VIEW explode(split(content, ' ')) lTable as word
GROUP BY user_id,word;
【问题讨论】:
-
为什么投票失败?一个解释会更有帮助
-
您的查询有什么问题?
-
如何合并预定义的字典文件并生成具有恒定长度的行(不取决于唯一词的数量)
标签: sql hadoop mapreduce hive udf