【发布时间】:2014-01-03 13:47:08
【问题描述】:
我只想从下面的 xml 文件中提取状态。
<.table>
<State>Florida</State>
<id>123</id>
<.>
<.table>
<State>Texas</State>
<id>456</id>
<.>
-
预期输出:
(佛罗里达州)
(德克萨斯州)
但是我得到了下面的猪声明
()
() 作为输出
A = LOAD 'hdfs:/user.xml' 使用 org.apache.pig.piggybank.storage.XMLLoader('Table') AS (x:chararray);
B = FOREACH A GENERATE FLATTEN (REGEX_EXTRACT_ALL(x,
'<Table>\\n\\s*<State>(.*)</State>\\n\\s*\\n\\s*</Table>'))
as (state:chararray);
请帮助我了解我哪里出错了,或者我如何消除某个标语行?
【问题讨论】:
标签: apache-pig