【问题标题】:How to extract paragraphs separated by a comma?如何提取以逗号分隔的段落?
【发布时间】:2017-12-05 21:48:45
【问题描述】:

这是我试图从中获取数据的一段代码。

<p>ul. Niecała 10</p>
<p>05-800 Pruszków</p>

</div>

我是这样做的:

address = result.find('div', attrs={'class': 'section address'}).get_text()

很遗憾,结果并不让我满意。段落中的文本粘在一起。我希望这些段落用逗号分隔。

现在:

ul. Niecała 1005-800 Pruszków

我希望它是:

ul. Niecała 10, 05-800 Pruszków

我该怎么做?你有什么建议吗?

【问题讨论】:

    标签: python-3.x web-scraping beautifulsoup tags


    【解决方案1】:

    使用stripped_strings 生成器并通过', ' 加入(如果你想要一个字符串),例如:

    address = ', '.join(result.find('div', class_='section address').stripped_strings)
    

    【讨论】:

      【解决方案2】:

      还有一种比.stripped_strings 更简单的方法 - 只需将.get_text() 直接与逗号一起用作separator

      address = soup.find('div', attrs={'class': 'section address'})
      print(address.get_text(", ", strip=True))
      

      打印:

      ul. Niecała 10, 05-800 Pruszków
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2013-05-10
        • 1970-01-01
        • 2022-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多