【发布时间】:2011-03-21 09:10:48
【问题描述】:
我在一个文件夹中有大约 5000 个 html 文件。我需要遍历它们,打开,使用 xpath 抓取 10 个值,关闭并存储在(SQL Server)数据库中。
使用 .Net 读取 xpath 值的最简单方法是什么?
xpath 应该非常稳定。
请提供示例代码来读取一个值,例如 /html/head/title/text()
谢谢
【问题讨论】:
-
这些是 XHTML 文件吗?如果没有,您将不得不使用 Tidy 或类似的东西将它们转换为可解析的 XML。如果它们已经是 XHTML,你应该可以很容易地做到这一点 - 将文件读入 XDocument,查询你需要的值,保存到数据库 - 然后重复下一个文件
-
它们是 XHTML 1.0 过渡版
标签: .net xpath html-parsing