【发布时间】:2016-02-27 07:11:11
【问题描述】:
您好,我正在从网站上抓取 div 网站中的 li 标签。我得到的输出中有很多空格如何从标签中删除多余的空格 我正在使用 python 3.5.1 和 BeautifulSoup 进行抓取 我的输出:
[<li>
GUANGZHOU ADS AUDIO SCIENCE & TECHNOLOGY CO.,LTD.
</li>, <li>
SHIMA ADS INDUSTRIAL DISTRICT GUANGZHOU GUANGDONG CHINA
</li>, <li>
GUANGDONGGUANGZHOU
</li>, <li>
510440
</li>, <li>
http://www.adsaudio.cc
</li>]
[<li>
GUANGDONG TEXTILES IMPORT & EXPORT COMPANY LTD.
</li>, <li>
GUANGDONG ,NO.168 XIAO BEI RD.,GUANGZHOU
</li>, <li>
GUANGDONGGUANGZHOU
</li>, <li>
510045
</li>, <li>
http://www.gdtex.com
</li>]
我想要像
这样的输出 GUANGZHOU ADS AUDIO SCIENCE & TECHNOLOGY CO.,LTD.
SHIMA ADS INDUSTRIAL DISTRICT GUANGZHOU GUANGDONG CHINA
GUANGDONG TEXTILES MANSION,NO.168 XIAO BEI RD.,GUANGZHOU
GUANGDONG ,NO.168 XIAO BEI RD.,GUANGZHOU
如何去除多余的空间或间隙
【问题讨论】:
-
你也需要这个标签吗?
-
re.sub("\s+"," ",my_text)可能会让你足够接近.. -
@Mauro Baraldi 不需要标签
-
@Joran Beasley 它说 TypeError: expected string or bytes-like object
-
好吧 my_text 需要是一个字符串或类似字节的对象
标签: python web-scraping beautifulsoup