【问题标题】:Is there an easier way to webscrape br tags?有没有更简单的方法来抓取 br 标签?
【发布时间】:2020-10-26 02:38:52
【问题描述】:

我一直在寻找正确提取地址数据的方法。

这是我的python脚本摘录:

addr = soup.find('div', class_='col-md-4')<br/>
print(addr)<br/>
print(addr.text)

结果:

<div class="col-md-4">45120 Waxpool Road<br/>20166 Dulles, VA<br/>USA</div>

45120 Waxpool Road20166 Dulles, VAUSA

需要按如下方式创建/打印结果以分隔地址、城市、州、邮编....:
蜡池路 45120 号
杜勒斯
弗吉尼亚州
20166
美国

有什么想法吗?

【问题讨论】:

    标签: python beautifulsoup


    【解决方案1】:

    我的做法是先使用addr 中的getting the innerHTML 使用decode_contents(),然后使用.split(&lt;br/&gt;) 拆分生成的文本。

    innerHtml = addr.decode_contents()
    addr_list = innerHtml.split('<br/>')
    print(addr_list)
    

    输出:

    ['45120 Waxpool Road', '20166 Dulles, VA', 'USA']
    

    【讨论】:

      【解决方案2】:

      您可能还必须使用find 找到&lt;br&gt; 标签,然后拆分您的文本。

      请看一下这个question。可能对你有帮助。

      希望它有效。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2017-07-29
        • 2019-05-14
        • 2017-12-18
        • 1970-01-01
        • 1970-01-01
        • 2011-10-26
        相关资源
        最近更新 更多