【发布时间】:2018-07-11 02:36:06
【问题描述】:
我想要获得的只是原始链接,然后我可以使用它来下载图像。但我不断收到一些额外的字符以及链接。 从 bs4 导入 BeautifulSoup 导入请求
from bs4 import BeautifulSoup
import requests
def getPages():
x = 0
url = 'https://readheroacademia.net/manga/boku-no-hero-academia-chapter-137/'
req = requests.get(url)
webpage = req.content
soup = BeautifulSoup(webpage, 'html.parser')
pages = soup.findAll('div', attrs={'class': 'acp_content'})
for p in pages:
y = p.findAll('img')
print(y)
getPages()
我最终得到的是这样的:
[<img src="https://2.bp.blogspot.com/-p72DilhF-_s/WRSF41vu50I/AAAAAAAAlsk/6BTxzQAzPkwteMgEHch2JFH0JKKpbKrZACHM/s16000/0137-001.png"/>]
我希望我能得到这样的东西:
https://2.bp.blogspot.com/-p72DilhF-_s/WRSF41vu50I/AAAAAAAAlsk/6BTxzQAzPkwteMgEHch2JFH0JKKpbKrZACHM/s16000/0137-001.png
【问题讨论】:
标签: python string web-scraping beautifulsoup python-requests