【发布时间】:2021-03-08 12:26:14
【问题描述】:
我正在使用下面的代码来打印只是页面源代码的汤变量。
代码
from urllib.request import urlopen
from bs4 import BeautifulSoup
import json, requests, re, sys
from selenium import webdriver
import re, time
yes_url = "https://www.yesbank.in/personal-banking/yes-first/cards/credit-card/yes-first-exclusive-credit-card"
driver = webdriver.Chrome(executable_path="C:\\Users\\Hari\\Downloads\\chromedriver.exe")
driver.get(yes_url)
time.sleep(3)
# r = requests.get(yes_url)
soup = BeautifulSoup(driver.page_source, 'lxml')
print(soup)
driver.close()
我正在抓取页面来源的链接是:https://www.yesbank.in/personal-banking/yes-first/cards/credit-card/yes-first-exclusive-credit-card
运行上述代码后,代码一直运行到几个小时,但我没有得到输出。
请帮助我抓取页面源代码,以便在我运行代码后得到一些输出。
【问题讨论】:
-
这是我得到的:拒绝访问您没有权限访问此服务器上的“yesbank.in/personal-banking/yes-first/cards/credit-card/…”。
-
@Rocket Nikita 所以我需要一种方法来绕过它并能够访问页面的源代码。
-
你能告诉我们你想抓取页面的哪一部分吗?
-
@bilakos 我想抓取该页面中福利选项卡的详细信息。
-
@MaredpallyJalebi 好的,我要试一试
标签: python selenium web-scraping beautifulsoup python-requests