【问题标题】:How to reread the news on website using newspaper3k如何使用报纸3k重读网站上的新闻
【发布时间】:2018-06-15 03:49:44
【问题描述】:

我正在尝试创建一个数据集来对新闻文章进行情绪分析。我正在使用 Newspaper3k 从网站上抓取文章。我抓取了一些网站,但没有正确存储文章,因此我无法使用它们。当我再次尝试抓取相同的网站时,它只会抓取新文章,而不是已经抓取的文章。有没有办法让我把已经刮过的文章再刮一次??

【问题讨论】:

    标签: python nlp sentiment-analysis python-newspaper


    【解决方案1】:

    默认情况下,报纸会缓存所有之前提取的文章并删除它已经提取的任何文章。

    此功能的存在是为了防止重复文章并提高提取速度。

    您可以使用memoize_articles 参数选择退出此功能。

    例如,在您的情况下将其设置为 False:

    newspaper.build('http://cbs.com', memoize_articles=False)

    【讨论】:

      猜你喜欢
      • 2019-01-18
      • 2019-01-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-07-08
      • 2013-07-25
      • 2020-08-05
      • 1970-01-01
      相关资源
      最近更新 更多