zlc364624

  爬虫代码参考:https://www.cnblogs.com/zlc364624/p/12377019.html  

1、原始数据格式

  爬取格式如下图:

 

 

   用空格隔开,数据属性分别为 名称、公司名称、地址、薪酬、日期、网址 

2、数据清洗

    数据清洗的所有步骤

 

 

   分为以下几步:

  •    在表输入中去除存在null的记录。原因是含有null的脏数据进行数据处理容易出错。 
  •    增加校验列,进行排序,并且去除重复记录。
  •    将例如 2-4万/月 切分为四个属性值 最低薪资:2 最高薪资:4 单位:万 时长:月 。
  •    利用过滤记录再去除处理后含null的记录。
  •    将 北京-朝阳区 处理为 北京 容易进行处理

 

 教学视频可观看:http://113.31.104.47/portal/#/course/preview/b34d160db64624732ef152a1118af11a?courseId=1b7e84f4eb8552536e2267093dbd7972&fileId=2020021813_ef5f0bf841d95717a64dfaad4b2af879_lv0.mp4

 

 3、处理结果

  处理后可以较为方便的进行数据统计与结果分析。

  

 

分类:

技术点:

相关文章:

  • 2021-10-12
  • 2021-09-10
  • 2021-04-25
  • 2022-12-23
  • 2021-10-29
  • 2021-11-25
  • 2021-12-21
  • 2021-10-12
猜你喜欢
  • 2022-12-23
  • 2021-09-30
  • 2021-05-27
  • 2022-01-05
  • 2021-05-28
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案