【发布时间】:2010-10-20 21:00:42
【问题描述】:
如何使用多种语言和解析库解析 HTML?
回答时:
在回答有关如何使用正则表达式解析 HTML 的问题时,将链接到各个 cmets,以显示正确的做事方式。
为了保持一致性,我要求该示例为锚标记中的href 解析 HTML 文件。为了方便搜索这个问题,我要求您遵循这种格式
语言:[语言名称]
库:[库名称]
[example code]
请将该库设为该库文档的链接。如果您想提供除提取链接以外的示例,还请包括:
目的:[解析的作用]
【问题讨论】:
-
重复每个示例,HTML builder 代码毫无意义
-
以及为什么你用毫无意义/无用的使用指令来混淆 perl 代码? (警告和严格)
-
自包含,工作示例更好。所有 Perl 代码都应该包含严格和警告,它们并非毫无意义;它们是 Modern Perl 的一部分。如果您认为代码“毫无意义”和“无用”,我会不寒而栗。
-
在我的代码中,我总是使用警告和严格;在 THIS 上下文中,它们毫无意义。这些示例中的大多数都不是“自包含的”(例如 jquery、ruby 和其他答案),那么为什么还要使用基于 perl 的解决方案呢?
-
因为你可以,而且 JavaScript 示例是自包含在它们的环境中的。我没有更改 nokogiri 示例,因为我无法在我的机器上安装 nokogiri。我不想更改我不理解的代码。但我会改变它;一方面,它看起来不像是在解决这个例子。至于为正在学习的人使用严格的、不安全的代码是一种犯罪行为。他们需要所有能得到的强化。
标签: html language-agnostic html-parsing