刚才一朋友有一个需求,就是抽取web页面列表的内容
例如论坛的帖子列表,他要求通用化的
简单地想了一下,思路如下:
利用HtmlAgilityPack (C#) 把页面的html变成DOM树以方便操作
遍历节点,计算节点之间的相似度
如果节点的相似度比较高的就可以认为是相似的节点
而且通过DOM树可以知道节点是否同级
如果同级或者层次相同的话
那么基本上就是列表里面的节点了
简单思路,欢迎讨论
相关文章:
-
2022-02-04
-
2022-12-23
-
2021-11-16
-
2022-12-23
-
2022-12-23
-
2021-07-12
-
2022-12-23
-
2022-12-23
猜你喜欢
-
2021-08-24
-
2022-01-24
-
2021-10-06
-
2022-12-23
-
2021-09-03
-
2022-12-23
-
2022-02-24
相关资源
-
下载
2021-06-06
-
下载
2023-03-23
-
下载
2023-03-03
-
下载
2023-01-06