【发布时间】:2014-12-23 01:47:40
【问题描述】:
我正在使用 selenium 和 PhantomJs 来抓取 URL。我如下初始化驱动程序
final DesiredCapabilities caps = DesiredCapabilities.chrome();
caps.setCapability(
PhantomJSDriverService.PHANTOMJS_EXECUTABLE_PATH_PROPERTY,
"PhantomJsPath");
caps.setCapability("page.settings.loadImages", false);
caps.setCapability("trustAllSSLCertificates", true);
RemoteWebDriver driver = new PhantomJSDriver(caps);
driver.setLogLevel(Level.OFF);
driver.get("https://.......")
从驱动获取的pagesource为空
我错过了什么吗?
【问题讨论】:
-
Selenium 是网页抓取的糟糕选择。你看过 curl 或 httpbuilder 之类的东西吗?
-
我需要提交表单并进行 Javascript 更改。所以我更喜欢硒。你能找到它来抓取 https url。我认为我要抓取的 url 有一些未知的证书,因此它不是抓取的。我们必须设置参数以忽略 SSL 参数。我无法获得正确的参数
标签: java https selenium-webdriver web-scraping phantomjs