【发布时间】:2012-12-07 13:46:03
【问题描述】:
所以我一直在尝试弄清楚我们如何使用 BeautifulSoup 并进行了快速搜索,发现 lxml 可以解析 html 页面的 xpath。如果我能做到这一点,我会很高兴,但教程不是那么直观。
我知道如何使用 Firebug 来获取 xpath,并且很好奇是否有人使用过 lxml,并且可以解释我如何使用它来解析特定的 xpath,并打印它们.. 说每行 5 个..或者是否有可能?!
Selenium 正在使用 Chrome 并正确加载页面,只是需要帮助继续前进。
谢谢!
【问题讨论】:
-
什么是bs4?维基百科说它是一些轿车:)
-
@Himanshu 对不起- bs4 = beautifulsoup4
-
好的。要在带有 python 的 xml 文档上使用 xpath,请参阅元素树 docs.python.org/2/library/…。您可能无法立即解析 Web 上的所有 html 文档,因为它们可能不是所有有效的 xml 文档。见stackoverflow.com/questions/285990/parse-html-via-xpath
标签: python parsing selenium lxml xpath