【问题标题】:Scrape data for list of URLs抓取 URL 列表的数据
【发布时间】:2019-12-24 22:39:33
【问题描述】:

我有一个 URL 列表,我想对列表中的每个 URL 执行网络抓取。

def soup():
    for url in website_list:
        sauce = urllib.request.urlopen(url)
        print (url)
        for things in sauce:
            soup_maker = BeautifulSoup(things, 'html.parser')
            return soup_maker

尝试这样的事情。你能帮忙下一步吗?

【问题讨论】:

  • 请格式化您的代码
  • 这太宽泛了。请自己做一些工作,如果遇到特定技术问题,请返回。

标签: python web-scraping


【解决方案1】:

给你一个使用framesized_scrapy下载的例子。您需要先安装 simple_scrapy。 pip install simple_scrapy

from simplified_scrapy.spider import Spider, SimplifiedDoc
from simplified_scrapy.simplified_main import SimplifiedMain
class DemoSpider(Spider):
  name = 'demo-spider'
  start_urls = ['http://example.com'] # Replace with your website_list 

  def extract(self, url, html, models, modelNames):
    try:
      doc = SimplifiedDoc(html)
      print (doc.title)
    except Exception as e:
      print ('extract',e)

SimplifiedMain.startThread(DemoSpider())# start scrapping

【讨论】:

  • 谢谢@dabingsou 我使用 BeautifulSoup 使它工作。现在我正在尝试将抓取的数据保存到文本文件中,但文本文件中的某些内容已被删除。我正在使用这个:file = open("MDMDataFiles/copy.txt", "w") data = soup.get_text() data file.write(soup.get_text()) file.close() 有什么建议吗?
  • 粘贴下载的页面数据和要从页面数据中提取的数据,这样可以有针对性的建议
猜你喜欢
  • 2017-07-07
  • 1970-01-01
  • 2020-09-02
  • 2016-11-28
  • 1970-01-01
  • 1970-01-01
  • 2020-01-07
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多