【发布时间】:2013-08-04 23:09:11
【问题描述】:
有时我不确定何时必须使用其中一个。我通常用 Python 解析各种东西,但我想把这个问题集中在 HTML 解析上。
就我个人而言,当必须解析两个以上的常规元素(例如,新闻列表的标题和正文)时,我发现 DOM 操作非常有用。
但是,我发现自己处于不清楚构建正则表达式或尝试仅通过操作字符串来获得所需值的情况。一个特定的虚构示例:我必须获取相册的照片总数,而获取此信息的唯一方法是使用这种方式解析照片的数量:
(190 个中的 1 个)
所以我必须从整个 HTML 文档中获取“190”。我可以为此编写一个正则表达式,尽管用于解析 HTML 的正则表达式并不是最好的,或者这就是我一直理解的。另一方面,使用 DOM 对我来说似乎是压倒性的,因为它只是一个简单的元素。字符串操作似乎是最好的方法,但我不确定在这种类似的情况下是否应该这样做。
您能告诉我如何使用 Python(或任何其他语言)从 HTML 文档中解析这些单一元素吗?
【问题讨论】:
标签: python html regex parsing html-parsing