【发布时间】:2016-06-07 09:50:32
【问题描述】:
我想用python xpath从下面的html中提取一部分html。 我的问题只是想提取html部分包括标签和文本,而这个Get all text inside a tag in lxml问题是提取html的文本部分,所以这两个问题是不同的。
<html>
<body>
<div class ="item">
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a> </li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
<div class = "movie">
<div title = "name">
<ul>[url=http://]
<li class="item-0"><a href="link1.html">movie a</a></li>
<li class="item-1"><a href="link2.html">movie b</a></li>
<li class="item-inactive"><a href="link3.html">movie c</a></li>
<li class="item-1"><a href="link4.html">movie d</a></li>
</ul>
</div>
</div>
</body>
</html>
其实我只是想从上面的html中提取下面的html。
<div title = "name">
<ul>
<li class="item-0"><a href="link1.html">movie a</a></li>
<li class="item-1"><a href="link2.html">movie b</a></li>
<li class="item-inactive"><a href="link3.html">movie c</a></li>
<li class="item-1"><a href="link4.html">movie d</a></li>
</ul>
</div>
我的代码导入请求
page = requests.get('........html')
tree = html.fromstring(page.content)
body = tree.xpath('//div[contains(@title, "name")]')
print('body:', body)
但结果是
<Element div at 0x103620e58>
我想获取这部分html中的所有元素,例如
<ul> <li> .
请使用 xpath 方法而不是其他方法。
【问题讨论】:
标签: html xpath python-3.5