【发布时间】:2012-04-25 01:22:08
【问题描述】:
我正在尝试使用正则表达式 SerDe 从文本文件创建配置单元表。我开始很容易,只想将文本文档中的每个单词解析成一行。每行有一列,就是这个词。
我使用的正则表达式是 ([a-zA-z]+)
这是我向 hive 发出的 create table 命令的后半部分,
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ("input.regex" = "([a-zA-Z]+)", "output.format.string" = "%1$s" ) 存储为文本文件;
目前该表包含几乎所有的NULL。
任何帮助都会很棒,谢谢!
【问题讨论】:
-
您提到该表几乎包含所有 NULL。你能详细说明一下吗?是否有一些非 NULL 列?您能否提供一小部分数据样本?