【发布时间】:2014-07-12 12:01:32
【问题描述】:
我正在尝试抓取此页面的内容, http://targetstudy.com/school/62292/universal-academy/
担心的是,有时数据是按这个顺序排列的 名称-地址-Pin-Mobile-等。 有时地址不存在, 姓名-密码-手机
没有定义特定的类,我不确定使用哪个 xpath 来获取确切的文本。我正在使用 Selenium Python。
我们可以做一些事情,比如按文本查找元素并打印父级的下一个兄弟。 让我举个例子来澄清一下,
<td>
<b>Address :</b>
" Sri Saadhuraam Parisar, Kosamnara, Kotra Road Raigarh "
</td>
有没有办法通过文本“地址:”查找元素并让它打印下一行“Sri Saadhuraam Parisar, Kosamnara, Kotra Road Raigarh”
谁能给点建议。提前致谢。
到目前为止,这是我的代码的一部分,
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
from selenium.webdriver.common.action_chains import ActionChains
import lxml.html
from selenium.common.exceptions import NoSuchElementException
path_to_chromedriver = 'chromedriver.exe'
browser = webdriver.Chrome(executable_path = path_to_chromedriver)
browser.get('http://targetstudy.com/school/62292/universal-academy/')
stuff = browser.page_source.encode('ascii', 'ignore')
tree = lxml.html.fromstring(stuff)
address1 = tree.xpath("//td[contains(text(), 'Address')]/text()")
print address1
【问题讨论】:
标签: python selenium xpath lxml lxml.html