刚才一朋友有一个需求,就是抽取web页面列表的内容

例如论坛的帖子列表,他要求通用化的


简单地想了一下,思路如下:

利用HtmlAgilityPack (C#) 把页面的html变成DOM树以方便操作
遍历节点,计算节点之间的相似度
如果节点的相似度比较高的就可以认为是相似的节点
而且通过DOM树可以知道节点是否同级
如果同级或者层次相同的话
那么基本上就是列表里面的节点了

简单思路,欢迎讨论

相关文章:

  • 2022-02-04
  • 2022-12-23
  • 2021-11-16
  • 2022-12-23
  • 2022-12-23
  • 2021-07-12
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2021-08-24
  • 2022-01-24
  • 2021-10-06
  • 2022-12-23
  • 2021-09-03
  • 2022-12-23
  • 2022-02-24
相关资源
相似解决方案