【发布时间】:2010-01-09 00:56:57
【问题描述】:
我已经为一个好的解决方案搜索了很长时间,但我找不到任何适合我需要的东西......
我想解析一个 HTML 文件并在表格中显示它的内容。一切就像编写另一个 RSS 提要阅读器一样。通过直接使用 NSXMLParser 或 TouchXML 或 libxml 或其他一些 XML 解析器来解析有效的 XML 文件是简单而直接的......但这些框架要么只适用于 XML 和/或不适用于非整洁的 HTML。该网站由 div 组成,包括包含图像或段落的链接,包括链接和图像等......只是一个普通的网站。在这种情况下,使用 libxml 似乎太复杂了。
有人在解析脏 HTML 页面方面有更多经验吗?您使用了哪个(免费)库/框架?我有一种感觉,我在这里错过了一些明显的东西。解析 HTML 文件应该没那么难吧?
希望你能给我指明正确的方向!
【问题讨论】:
-
你需要从任何来源解析任何 HTML 吗?或者你正在寻找更具体的东西?例如,您是否需要创建一棵完整的 DOM 树,或者是否足以扫描文件中的表单元素?
-
我需要扫描某个来源的特定部分,但我无法控制内容的结构。这意味着我无法控制内容的顺序,有时结构良好,有时凌乱
标签: iphone html cocoa cocoa-touch parsing