【发布时间】:2011-01-03 12:45:38
【问题描述】:
我正在编写一个抓取我的一组网页的应用程序。而不是获取页面的整个源代码,我想获取所有内容并将其存储并能够将页面作为纯文本存储在数据库中。内容将在其他应用程序中使用,并且不会被用户阅读,因此无需完全可读。
起初,我在考虑使用正则表达式,但我无法控制网页的有效性,而且很有可能没有正则表达式会给我内容。
如果我的源代码包含在一个字符串中,我如何才能将该源代码字符串转换为 C# 中的内容?
【问题讨论】:
-
定义“只是内容”......所有的html都是内容,所以你可以只存储html。你的意思是“只有文字,没有标记”?还是什么?
-
为什么你不“XML”解析它们? ,这样你就可以读取节点并决定只获取内容......但是我不确定XML解析是否可以读取自闭合标签..
-
XML 支持自闭合标签,但不幸的是,许多所谓的 HTML 文档不幸包含许多格式错误的标签。
-
几乎“只是文本”,虽然我不同意 HTML 是内容,因为对我来说它只是用作结构,存储它是没有意义的。
-
@EnderMB - 在这种情况下,我添加了一个使用 HTML Agility Pack 的示例
标签: c# string html-parsing