做爬虫,当然就要用数据。想拿数据进行分析,首先清洗数据。这个清洗数据包括清除无用数据列和维度,删除相同数据,对数据进行勘误之类的。

  从各大不同新闻网站可以爬到重复新闻。。。这个可以有。之前为了对爬到的新闻信息进行深度挖掘去了这个网站http://blog.reetsee.com/archives/237虽说没有对数据进行更进一步的挖掘,好歹有处理数据。处理重复新闻可以使用python结巴分词。统计分词信息,词典差距过大,词典频度比差距过大,都可以算不同新闻。

  对新闻内容字符串进行检查需要这3种操作:提取分词,统计频度和查重。

  提取分词函数:

def ExtractTagsFromContent(content, num_of_tags):
    tags = jieba.analyse.extract_tags(content, topK = num_of_tags)
    return tags
View Code

相关文章:

  • 2021-09-27
  • 2021-08-13
  • 2021-12-05
  • 2022-02-07
  • 2022-12-23
  • 2021-05-23
  • 2022-02-25
  • 2021-08-13
猜你喜欢
  • 2022-02-09
  • 2021-10-07
  • 2022-12-23
  • 2022-12-23
  • 2021-11-11
  • 2021-08-29
相关资源
相似解决方案