【发布时间】:2012-12-17 17:58:28
【问题描述】:
我希望能够解析网页并返回标题正好包含 4 个字母的任何元素。
例如:
<li><a href="test.com/dogs" title="dogs"></a></li>
<li><a href="test.com/cat" title="cat"></a></li>
<li><a href="test.com/horse" title="horse"></a></li>
<li><a href="test.com/eels" title="eels"></a></li>
在本例中,我想返回一个包含“dogs”和“eels”的数组,因为标题正好包含 4 个字符。我该怎么做呢?谢谢!
【问题讨论】:
-
存在 XML 解析器。由于您询问的是 Python,请在 Google 上搜索“beautifulsoup”。
-
每天必须多久解释一次应该使用 HTML 或 XML 解析器而不是其他任何东西来解析标记?万亿次? -1 来自我
-
@user1833746 在 OP 的辩护中,他确实问过“我该怎么做”,答案就像 Jack Maney 建议的那样。
-
您无法使用正则表达式可靠地解析 HTML。 htmlparsing.com/python.html 有如何使用解析器的示例。
标签: python regex parsing module