【发布时间】:2016-04-19 10:00:08
【问题描述】:
很沮丧地说我被这个难倒了。我正在从段落中提取文本:
paragraphs = re.findall(r'(<p(.*?)</p>)', html)
然后我想废弃标签,只保留段落文本,逐字逐句:
paragraphs = re.sub(r'\<.*?\>', '', paragraphs)
问题是 Python 需要一个字符串。如果我理解正确,我必须先将“段落”转换为字符串。但是,当我这样做时:
paragraphs = str(paragraphs)
…我一个字母一个字母地得到文本,单词被打散了。好吧,我是 Python 新手,这让我很困惑。
第一个问题:为什么“段落”不是以字符串开头?
第二个问题:如何将“段落”转换成字符串,逐字逐句,如:
paragraph = ['Two', 'words']
【问题讨论】:
标签: python regex python-2.7