【发布时间】:2018-07-06 08:32:30
【问题描述】:
我正在尝试在 Twitter 状态下向下滚动 cmets,尝试提取包含所有 cmets 的页面(或至少前 5 个页面)。使用 selenium 驱动程序,但滚动部分不成功,所以我必须手动进行并提取。我正在使用 python 3.6.5 请帮助...
例如对于这条推文 - https://twitter.com/TeamYouTube/status/1012415985184206848 谁能帮我写代码..
我的代码:
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.keys import Keys
import time
driver = webdriver.Chrome(executable_path="...../chromedriver")
driver.get('https://twitter.com/TeamYouTube/status/1012415985184206848')
for i in range(1,10):
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(3)
ip = input("Enter y to proceed: ")
if(ip == 'y'):
page = driver.page_source
filename = input('Enter file name : ')
path = 'D:/page_'+filename+'.html'
f = open(path,'w',encoding='utf-8')
f.write(page)
f.close()
driver.close()
【问题讨论】:
-
time.sleep(3) 如果未加载所有 cmets 集,则会导致网络连接变慢
-
but not successful with the scrolling part是什么意思?究竟是什么问题?堆栈跟踪?
标签: python selenium twitter scroll scrape