【发布时间】:2022-01-20 00:17:07
【问题描述】:
我有一个开头有空格的 URL。在将其传递给 urllib.request.urlretrieve 之前,我必须将其删除。
pdflink = ' https://www.doj.nh.gov/consumer/security-breaches/documents/a2z-field-services-20201218.pdf'
但是,我无法删除它。
到目前为止我所尝试的:
-
pdflink.lstrip(): 不工作,我不知道为什么? -
pdflink.replace(' ', ''):不工作
知道如何删除它吗?
我的最终代码:
import openpyxl
wb = openpyxl.load_workbook('Data.xlsx')
ws = wb['Final']
pdflink = (ws.cell(row=4487,column=4).value).lstrip()
# pdflink will have value as shown below:
#pdflink = ' https://www.doj.nh.gov/consumer/security-breaches/documents/a2z-field-services-20201218.pdf'
try:
urllib.request.urlretrieve(pdflink, 'test')
return True
except FileNotFoundError:
print(filename + ' Not present')
return False
运行上面的代码会抛出错误: URLError: urlopen 错误未知 url 类型: https
错误的根本原因:URL 开头有额外的空格。
【问题讨论】:
-
print(ord(pdflink[0]))打印什么?
标签: python web-scraping openpyxl