【问题标题】:Weird Behaviour in a Python ListPython 列表中的奇怪行为
【发布时间】:2021-05-08 14:33:38
【问题描述】:

无法完全清理单词列表。我已经竭尽全力使用以下内容去除特殊字符,但是当遇到以下形式的列表项时,随后的循环会中断:"['" - 请参阅随附的屏幕截图。我无法以某种方式去除这个小精灵......感谢建议。谢谢。

df.to_csv('bodies', encoding='utf-8')
uni = pd.read_csv('bodies', index_col = [0], encoding='utf-8')
uni.dropna(inplace = True)
uni = uni.replace({r'\'': ''}, regex=True)
uni = uni.replace({r'\"': ''}, regex=True)
uni = uni.replace({r'\[\'': ''}, regex=True)
uni = uni.replace({r'\(': ''}, regex=True)
uni = uni.replace({r'\)': ''}, regex=True)
uni = uni.replace({r'\}': ''}, regex=True)
uni = uni.replace({r'\{': ''}, regex=True)
uni = uni.replace({r'\}': ''}, regex=True)
uni = uni.replace({r'\]': ''}, regex=True)
uni = uni.replace({r'\[': ''}, regex=True)
uni = uni.replace({r'\>': ''}, regex=True)
uni = uni.replace({r'\<': ''}, regex=True)
uni = uni.replace({r'\,': ''}, regex=True)
uni = uni.replace({r'\.': ''}, regex=True)
uni = uni.replace({r'\t': ''}, regex=True)
uni = uni.replace({r'\•': ''}, regex=True)
uni = uni.replace({r'\+': ''}, regex=True)
uni = uni.replace({r'\-': ''}, regex=True)
uni = uni.replace({r'\*': ''}, regex=True)
uni = uni.replace({r'\\': ''}, regex=True)    
uni = uni.replace({r'\/': ''}, regex=True)
uni = uni.replace({r'\:': ''}, regex=True)
uni = uni.replace({r'\;': ''}, regex=True)
uni = uni.replace({r'\r\n': ''}, regex=True)
uni = uni.replace({r'\n': ''}, regex=True)

【问题讨论】:

  • 请提供minimal reproducible example 含义测试输入和预期输出
  • 我将深入研究数据管道,看看发生了什么,然后再回来。

标签: python list text set


【解决方案1】:

我建议使用三引号,如下所示:

uni = uni.replace('''"['"''', '')

【讨论】:

  • 谢谢,很遗憾这没有用。没有产生错误。我将深入研究数据管道,看看发生了什么,然后再回来。
【解决方案2】:

Apols 的延误,病得很重。无论如何,这是解决方案 - 似乎正则表达式不起作用,直接替换就可以了,这是解决此问题的行:

l = [w.replace("[", "") for w in l]

其中 l 是一元组的列表

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-01-28
    • 2015-10-27
    • 2012-06-28
    • 2013-12-28
    • 2015-09-16
    • 1970-01-01
    相关资源
    最近更新 更多