【问题标题】:Need help to extract the name of person需要帮助提取人名
【发布时间】:2019-09-20 13:37:06
【问题描述】:

我正在从网站中提取数据,我想以正确的形式获取学生的姓名。

如何更改\xa0 RAJAT KUMAR\r\n ' 进入RAJAT KUMAR

【问题讨论】:

  • 对字符串进行切片。如果他们都在这个确切的模式,你可以使用newstr = oldstr[2:-2]
  • "\xa0 RAJAT KUMAR\r\n '".replace("'", "").strip()?
  • 你的问题没有表现出自己的努力,不清楚(什么一般形式有输入要处理?)并且根本与抓取或网络无关。
  • edit你的问题表明你是如何获取文本的。

标签: python web-scraping beautifulsoup python-requests


【解决方案1】:

你可以使用 strip() 来帮助你。

string = '\xa0  RAJAT KUMAR\r\n                                '
print(string.strip())
# RAJAT KUMAR

如果失败,请尝试使用此功能,它会有所帮助。

def RemoveMeta(string):
    import re
    string = re.sub('\s+',' ',string)
    string = re.sub('\n|\t|^\s+\|\s+$','',string)
    string = string.strip()
    return string
print(RemoveMeta(string))
# RAJAT KUMAR

此外,如果您有任何编码或文本问题,您可以在下方提供帮助,

import ftfy
string = ftfy.fix_text(string)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2023-04-07
    • 2023-04-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多