【发布时间】:2018-08-21 04:33:59
【问题描述】:
当我从我的 ubuntu 笔记本电脑上运行时,这段代码运行良好。但是,当我在 AWS EC2 ubuntu 机器上部署它时。我尝试抓取的网站被拒绝访问。我已经多次更改 AWS 机器的 IP,因为它不是 IP 级别的块。
实例化 webdriver 驱动程序的代码:
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--window-size=1420,1080')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument('--disable-application-cache')
ua = UserAgent()
userAgent = ua.random
print(userAgent)
chrome_options.add_argument('user-agent={userAgent}')
driver = webdriver.Chrome('/home/ubuntu/chromedriver',chrome_options=chrome_options)
driver.get(link)
print(driver.page_source)
【问题讨论】:
-
您能否提供您要打开的网站的链接?可能是这个站点在 EC2 所在的区域不起作用。
-
macys.com 我在西部地区尝试。 curl 在同一台机器上工作。
标签: python amazon-ec2 webdriver selenium-chromedriver google-chrome-headless