【发布时间】:2018-03-12 16:20:06
【问题描述】:
我正在从网站中提取联系信息(文本),我目前可以使用以下 xpath 语法提取所有类数据:
//*[@id="nomapdata"]/div/div/div/div[2]/div[1]
使用此xpath 作为元素,我得到以下文本:
Name
Title
Company Website
Phone Number
我想要做的是单独提取每个元素,但问题是,数据由<br> </br> 分隔,我没有成功隔离每个元素。
以下是 HTML 结构的示例:
<div class="col-sm-d">
"
Name"
<br>
"
Title"
<br>
a href="www.website.com" target="_blank">http://www.website.com</a>
<br>
"
Phone: (555) 555-5555"
<br>
我能够隔离的唯一元素是网站。
如何隔离此场景中的每个数据?
【问题讨论】:
-
为什么不把它们全部作为单个字符串,然后用
<br>分割字符串?
标签: python html selenium xpath line-breaks