算法思路:

假如网页正文(过滤html标签后的)有n行,以k行为一行块,总共可构成n-k+1行块;

以行号为索引号,以行块长度为索引值,形成行块稀疏矩阵;

以上面的稀疏矩阵为基础,找出其骤升骤降点,分割成多个文本块;

最后找出最大的文本块作为正文

-------------------------------------------------------------------------

网页正文抽取程序测试效果

基于行块分布函数的通用网页正文内容抽取(带HTML格式)

基于行块分布函数的通用网页正文内容抽取(带HTML格式)

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2021-11-11
  • 2022-12-23
  • 2021-11-21
  • 2021-06-02
  • 2022-12-23
猜你喜欢
  • 2021-08-19
  • 2022-12-23
  • 2021-07-25
  • 2022-12-23
  • 2021-10-06
  • 2022-02-24
  • 2021-07-04
相关资源
相似解决方案