如果无法FQ获取最新版:
百度网盘下载:(各种语言版本及算法说明)
链接:http://pan.baidu.com/s/1c0ImY7e 密码:tcr6

基于行块分布函数的正文抽取算法思路:
1、预处理:剔除网页HTML标签,去掉所有的空白符(\n,\r,\t等); 2、依据"\n"分行,若某文字行的上下存在两个空行,且此文字行长度小于阈值40,则删除此文字行; 3、设定三行为一行块,计算每段行块的长度; 4、找出每个连续有字符的段落,并找到起点和终点;           要求:行块长度大于0(段落开始),且随后连续行块长度大于0,直到行块长度为0(即段落结束) 5、如果两块段落只差两个空行,并且两块包含文字均较多,则进行段落合并; 6、找出最长段落,如果长度小于100,则推出提供的网页为非主体性网页;否则,最长段落即为正文;


基于行块分布函数的正文抽取



性能分析:
通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。

哈工大基于行块分布函数的正文抽取算法实现:




 

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-12-12
  • 2021-11-20
猜你喜欢
  • 2021-08-19
  • 2022-01-28
  • 2021-07-25
  • 2022-12-23
  • 2022-12-23
  • 2021-08-31
  • 2021-12-02
相关资源
相似解决方案