【发布时间】:2014-11-12 21:42:26
【问题描述】:
我有这种格式的数据。
"123";"mybook1";"2002";"publisher1";
"456";"mybook2;the best seller";"2004";"publisher2";
"789";"mybook3";"2002";"publisher1";
字段用 "" 括起来并用 ; 分隔。书名也可能包含';'介于两者之间。
你能告诉我如何将这些数据从文件加载到配置单元表
我现在使用的以下查询显然不起作用;
create table books (isbn string,title string,year string,publisher string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\;'
如果可能的话,我希望将用户 ID 和年份字段存储为 Int。请帮忙
我也不想使用 regexserde 命令。 如何使用 unix 中的 sed 命令清理数据并获取输出。
我尝试了解 sed 命令并找到了替换选项。所以我可以删除 " 双引号。但是我该如何处理额外的 ; 数据中间的分号
请帮忙
【问题讨论】:
-
如果我对源代码的预期结果有所了解(不知道要使用的 hive/hadoop 协议/结构),可以在 sed 中提供帮助。请给出预期结果样本