【发布时间】:2021-03-01 13:34:44
【问题描述】:
我是网络抓取的新手。我正在尝试从 br 标签中的以下 html 代码中提取地址文本“Tegelhof 1 33014 Bad Driburg”和“Tegelweg 2A 33014 Bad Driburg”。但我没有得到想要的结果。到目前为止,我已经使用下面的代码来获取但没有成功。有人可以帮我怎么做
代码:
address = [soup.find('div', class_='col-sm-4 pt-2')
完整源代码:
<div class="row">
<div class="col-sm-5 py-2">
<br/>
<span style="color:#7fb7c4; font-weight:600;">Praxis jetzt geöffnet</span>
<p class="mt-5 d-none d-md-block">Telefon: <a class="it" href="tel:+4952531717">0 52 53 / 17 17</a></p>
</div>
<!-- sm-5 end -->
<div class="col-sm-4 pt-2">
<!-- <img class="mapicons" src="https://www.tk-aerztefuehrer.de/TK/images/GoogleImages/A.png" alt=" " /><br> -->
<br/>
<img alt=" " src="https://www.tk-aerztefuehrer.de/TK/img/entfernung.svg"/> 0.2 km<br/>
<span class="pt-3 d-none d-md-block"></span>
Tegelhof 1<br/>
33014 Bad Driburg<br/>
</div><!-- sm-4 end -->
<div class="col-sm-3">
</div><!-- sm-3 end -->
</div><!-- end row -->
<div class="row">
<div class="col-sm-5 py-2">
<br/>
<span style="color:#7fb7c4; font-weight:600;">Praxis jetzt geöffnet</span>
<p class="mt-5 d-none d-md-block">Telefon: <a class="it" href="tel:+4952536565">0 52 53 / 65 65</a></p>
</div><!-- sm-5 end -->
<div class="col-sm-4 pt-2">
<!-- <img class="mapicons" src="https://www.tk-aerztefuehrer.de/TK/images/GoogleImages/A.png" alt=" " /><br> -->
<br/>
<img alt=" " src="https://www.tk-aerztefuehrer.de/TK/img/entfernung.svg"/> 0.2 km<br/>
<span class="pt-3 d-none d-md-block"></span>
Tegelweg 2A<br/>
33014 Bad Driburg<br/>
</div><!-- sm-4 end -->
<div class="col-sm-3">
</div><!-- sm-3 end -->
</div><!-- end row -->
【问题讨论】:
-
我试图选择
<br>标签,但它们的文本是empty。 -
[<br/>, <br/>, <br/>, <br/>, <br/>, <br/>, <br/>, <br/>, <br/>, <br/>] -
你找不到这个
brs的内容,因为它们不是opening,它们只是closing tags,而美汤不认为它们是标签 -
来自w3ressource "br 元素本身不能包含任何内容。"
-
您从代码中获得的输出是什么?它应该显示您正在搜索的文本。试试
soup.find_all('div', class_='col-sm-4 pt-2')[0].text(我建议你使用find_all,它会返回每个匹配的标签,而不是只返回第一个)。
标签: python beautifulsoup