【发布时间】:2016-04-16 12:09:46
【问题描述】:
我是大数据领域的新手,刚刚开始学习。
我在 hive 中有一个 tweets 表,在它的文本字段中,许多记录都包含超链接。我想删除这些超链接,但我做不到。由于 hive 不支持用于此目的的 charindex 和其他 sql 函数,即使经过大量搜索,我也找不到任何线索。我试图用 regexp_replace 来做,但它给了我“索引超出范围”的错误,这意味着我可能没有写正确的正则表达式。
这是我的查询
SELECT text, regexp_replace (text, '(https.*)', '') FROM tweets;
任何帮助将不胜感激。
【问题讨论】: