【发布时间】:2021-06-06 08:48:10
【问题描述】:
我有一个包含句子的列表,我相信其中一些被错误地编码。有些句子现在包含像 'hé' 这样的字符串。我想删除所有的句子,包含带有类似疯狂符号的单词。我已经尝试了下面的代码,它已经部分起作用了。我想删除的很多句子都被删除了,但不是全部。有什么想法吗?
clean_sentences = []
lines_to_erase = []
characters = "éÂ�Ä¢¬"
for line in all_data:
for char in line:
if char in characters:
lines_to_erase.append(line)
for line in all_data:
if line not in lines_to_erase:
clean_sentences.append(line.strip())
【问题讨论】:
标签: python nlp preprocessor