【发布时间】:2021-01-22 06:40:00
【问题描述】:
我正在尝试提取 URL,但我只得到最后一部分,如“com”,而不是完整的“amazon.com”或“google.com”。我正在使用以下正则表达式:
data = [['website is amazon.com'], ['url is google.com']]
reviews = pd.DataFrame(data, columns = ['ALL_TEXT'])
reviews['regex_match'] = reviews['ALL_TEXT'].str.extract(r'[^@A-Z][-A-Z0-9:%_\+~#=]+\.(CO|COM|NET|ORG|GOV)\b', flags=re.IGNORECASE)
我尝试在完整的正则表达式周围使用捕获组
reviews['regex_match'] = reviews['ALL_TEXT'].str.extract(r'([^@A-Z][-A-Z0-9:%_\+~#=]+\.(CO|COM|NET|ORG|GOV)\b)', flags=re.IGNORECASE)
但我得到了错误
Wrong number of items passed 2, placement implies 1
【问题讨论】: