python爬虫——对爬到的数据进行清洗的一些姿势（5）

　　做爬虫，当然就要用数据。想拿数据进行分析，首先清洗数据。这个清洗数据包括清除无用数据列和维度，删除相同数据，对数据进行勘误之类的。

　　从各大不同新闻网站可以爬到重复新闻。。。这个可以有。之前为了对爬到的新闻信息进行深度挖掘去了这个网站http://blog.reetsee.com/archives/237虽说没有对数据进行更进一步的挖掘，好歹有处理数据。处理重复新闻可以使用python结巴分词。统计分词信息，词典差距过大，词典频度比差距过大，都可以算不同新闻。

　　对新闻内容字符串进行检查需要这3种操作：提取分词，统计频度和查重。

　　提取分词函数：

def ExtractTagsFromContent(content, num_of_tags):
    tags = jieba.analyse.extract_tags(content, topK = num_of_tags)
    return tags

View Code