【发布时间】:2021-09-09 19:09:02
【问题描述】:
我是数据抓取的新手,最近,我试图通过 selenium 库和 python 从 wunderground.com 抓取数据。但是,我发现有时 selenium web 驱动程序无法成功打开网页,我认为这个问题可能与网站使用的 JavaScript 有点关系,但不确定哪些部分出错了。有谁知道如何解决它?提前致谢。
以下是正确显示的示例: example for correctly showing
这里显示有问题的一个: example for problematic one
我的代码在这里,这是一个非常简单的 selenium 调用
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy
from selenium import webdriver
from selenium.webdriver.support.ui import Select
from selenium.webdriver import ChromeOptions
from selenium.webdriver import ActionChains
import time
# url for scraping
url = "https://www.wunderground.com/history/daily/us/ca/san-diego/KSAN/date/2021-2-1"
# define properties of selenium webdriver
option = webdriver.ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
option.add_experimental_option('useAutomationExtension', False)
option.add_experimental_option( "prefs",{'profile.managed_default_content_settings.javascript': 1}) #value 1 enables it , if you set to 2 it disables it
option.add_argument('--disable-gpu')
option.add_argument("--disable-blink-features")
option.add_argument("--disable-blink-features=AutomationControlled")
option.add_argument("--enable-javascript")
driver = webdriver.Chrome(options=option)
driver.get(url)
time.sleep(5) # wait for webpage loading
【问题讨论】:
标签: python selenium selenium-webdriver web-scraping