【发布时间】:2015-01-21 16:04:48
【问题描述】:
我在亚马逊上启动了一个 EC2 集群来安装 cloudera...我安装并配置了它,并将一些 Wiki Page Views 公共快照加载到 HDFS 中。文件结构如下:
projectcode, pagename, pageviews, bytes
文件是这样命名的:
pagecounts-20090430-230000.gz
date time
将数据从 HDFS 加载到 Impala 时,我这样做:
CREATE EXTERNAL TABLE wikiPgvws
(
project_code varchar(100),
page_name varchar(1000),
page_views int,
page_bytes int
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
LOCATION '/user/hdfs';
我错过的一件事是每个文件的日期和时间。目录:
/user/hdfs
包含与不同日期和时间关联的多个 pagecount 文件。加载到 impala 时如何提取这些信息并将其存储在列中?
【问题讨论】:
标签: hadoop cloudera hadoop-streaming impala