抓取 URL 列表的数据答案

【问题标题】：Scrape data for list of URLs抓取 URL 列表的数据
【发布时间】：2019-12-24 22:39:33
【问题描述】：

我有一个 URL 列表，我想对列表中的每个 URL 执行网络抓取。

def soup():
    for url in website_list:
        sauce = urllib.request.urlopen(url)
        print (url)
        for things in sauce:
            soup_maker = BeautifulSoup(things, 'html.parser')
            return soup_maker

尝试这样的事情。你能帮忙下一步吗？

【问题讨论】：

请格式化您的代码
这太宽泛了。请自己做一些工作，如果遇到特定技术问题，请返回。

标签： python web-scraping

【解决方案1】：

给你一个使用framesized_scrapy下载的例子。您需要先安装 simple_scrapy。 pip install simple_scrapy

from simplified_scrapy.spider import Spider, SimplifiedDoc
from simplified_scrapy.simplified_main import SimplifiedMain
class DemoSpider(Spider):
  name = 'demo-spider'
  start_urls = ['http://example.com'] # Replace with your website_list 

  def extract(self, url, html, models, modelNames):
    try:
      doc = SimplifiedDoc(html)
      print (doc.title)
    except Exception as e:
      print ('extract',e)

SimplifiedMain.startThread(DemoSpider())# start scrapping

【讨论】：

谢谢@dabingsou 我使用 BeautifulSoup 使它工作。现在我正在尝试将抓取的数据保存到文本文件中，但文本文件中的某些内容已被删除。我正在使用这个：file = open("MDMDataFiles/copy.txt", "w") data = soup.get_text() data file.write(soup.get_text()) file.close() 有什么建议吗？
粘贴下载的页面数据和要从页面数据中提取的数据，这样可以有针对性的建议