【问题标题】:Scraping data using BeautifulSoup使用 BeautifulSoup 抓取数据
【发布时间】:2020-01-08 13:02:13
【问题描述】:
我正在尝试从该站点将数据抓取到字典中,
from bs4 import BeautifulSoup
import requests
from pprint import pprint
page = requests.get('https://webscraper.io/')
soup = BeautifulSoup(page.text, "lxml")
info = []
for x in range(1,7):
items = soup.findAll("div",{"class":f"info{x}"})
info.append(items)
但是,HTML 标记并未被删除。
【问题讨论】:
标签:
python
html
python-3.x
web-scraping
beautifulsoup
【解决方案1】:
您需要使用.text。然后要按照您想要的方式进行操作,需要进行一些字符串操作。
from bs4 import BeautifulSoup
import requests
from pprint import pprint
url = 'https://webscraper.io/'
page = requests.get(url)
soup = BeautifulSoup(page.text, "lxml")
info = []
for x in range(1,7):
item = soup.find("div",{"class":"info%s" %x}).text.strip().replace('\n',': ')
info.append(item)
info = '\n'.join(info)
print (info)
【解决方案2】:
这样的方法可能有用吗? (将 webscraper.io 网址替换为您的实际请求网址;此外,您仍然需要从输出中清除 \n 字符):
from bs4 import BeautifulSoup
import requests
from pprint import pprint
page = requests.get('https://webscraper.io/')
soup = BeautifulSoup(page.text, "lxml")
info = []
for x in range(1,7):
items = soup.findAll("div",{"class":f"info{x}"})
info += [item.text for item in items]
即item.text,并将结果数组与 info 连接起来