【发布时间】:2021-08-25 21:01:14
【问题描述】:
我有一段代码可以从几个 PDF 中提取文本并将它们放入一个名为 pages_text 的列表列表中
现在我的文本在列表中,我正在尝试使用以下代码清除它的特殊字符:
for i in len(pages_text):
pages_text[i] = pages_text[i].lower()
re.sub('™', "", pages_text[i])
re.sub('[\n]', "", pages_text[i])
re.sub("'\n'", "", pages_text[i])
re.sub('[™]', '', pages_text[i])
re.sub('fl', '', pages_text[i])
re.sub('\nŒ', '', pages_text[i])
re.findall(r"\s+", pages_text[i])
print(pages_text)
但删除特殊字符并不完全有效。
我的问题是:
- 谁能帮我解决我的清洁过程的问题?
感谢您为我指明正确方向的任何帮助!
**为简洁明了而编辑
【问题讨论】:
标签: python beautifulsoup scikit-learn python-re