【发布时间】:2021-05-08 14:33:38
【问题描述】:
无法完全清理单词列表。我已经竭尽全力使用以下内容去除特殊字符,但是当遇到以下形式的列表项时,随后的循环会中断:"['" - 请参阅随附的屏幕截图。我无法以某种方式去除这个小精灵......感谢建议。谢谢。
df.to_csv('bodies', encoding='utf-8')
uni = pd.read_csv('bodies', index_col = [0], encoding='utf-8')
uni.dropna(inplace = True)
uni = uni.replace({r'\'': ''}, regex=True)
uni = uni.replace({r'\"': ''}, regex=True)
uni = uni.replace({r'\[\'': ''}, regex=True)
uni = uni.replace({r'\(': ''}, regex=True)
uni = uni.replace({r'\)': ''}, regex=True)
uni = uni.replace({r'\}': ''}, regex=True)
uni = uni.replace({r'\{': ''}, regex=True)
uni = uni.replace({r'\}': ''}, regex=True)
uni = uni.replace({r'\]': ''}, regex=True)
uni = uni.replace({r'\[': ''}, regex=True)
uni = uni.replace({r'\>': ''}, regex=True)
uni = uni.replace({r'\<': ''}, regex=True)
uni = uni.replace({r'\,': ''}, regex=True)
uni = uni.replace({r'\.': ''}, regex=True)
uni = uni.replace({r'\t': ''}, regex=True)
uni = uni.replace({r'\•': ''}, regex=True)
uni = uni.replace({r'\+': ''}, regex=True)
uni = uni.replace({r'\-': ''}, regex=True)
uni = uni.replace({r'\*': ''}, regex=True)
uni = uni.replace({r'\\': ''}, regex=True)
uni = uni.replace({r'\/': ''}, regex=True)
uni = uni.replace({r'\:': ''}, regex=True)
uni = uni.replace({r'\;': ''}, regex=True)
uni = uni.replace({r'\r\n': ''}, regex=True)
uni = uni.replace({r'\n': ''}, regex=True)
【问题讨论】:
-
请提供minimal reproducible example 含义测试输入和预期输出
-
我将深入研究数据管道,看看发生了什么,然后再回来。