【发布时间】:2019-03-25 04:21:56
【问题描述】:
我需要有关网页抓取的帮助。这是html示例:
<div class="content" name="content-name">
<h2 class="Topic">First Topic</h2>
<ul>
<li>This Data 1</li>
<li>This Data 2</li>
<li>This Data 3</li>
</ul>
<h2 class="Topic">Second Topic</h2>
<ul>
<li>That Data 1</li>
<li>That Data 2</li>
<li>That Data 3</li>
</ul>
<h2 class="Topic">Third Topic</h2>
<ul>
<li>Their Data 1</li>
<li>Their Data 2</li>
<li>Their Data 3</li>
</ul>
</div>
使用 BeautifulSoup,我可以获得 name="content-name" 的 html div 标签。但是,我如何在 h2 标签之后的 ul 中获取所有带有 li 标签的文本,其中包含“第二个主题”文本?因为所有这些都在同一个 div 标签中,没有特定的类、id 或名称。 提前致谢。
【问题讨论】:
标签: python html web-scraping beautifulsoup