【发布时间】:2018-01-25 22:11:23
【问题描述】:
我通过这个使用 selenium 进行网页抓取:
from selenium import webdriver
path_to_chromedriver = '/usr/lib/chromium-browser/chromedriver'
browser = webdriver.Chrome(executable_path=path_to_chromedriver)
browser.get(url)
element = browser.find_element_by_id('email')
现在我有一个网站,其中生成了很多嵌套表,并且似乎自动分配了 id(而且可能并非每次都相同)。可靠的一件事是我感兴趣的表格有一个单元格
<td>My Content</td>
有没有类似下面的东西?
browser.find_element_by_text("<td>", text="My Content")
【问题讨论】:
-
我对它投了反对票,因为工具顶部指出,“这个问题没有显示任何研究工作;它不清楚或没有用(再次单击以撤消)”并且您的问题没有显示任何研究工作。你完全编造了一些方法
.find_element_by_text(),根本没有引用任何参考资料。这是一个非常常见的问题,如果您合理地尝试找到一个,那么您会在 SO 和整个网络上找到许多 QA。这表明我没有努力研究它。如果你用谷歌搜索,你用了什么关键词?您对大约 22k 代表的网站并不陌生。