使用 Python 抓取 javascript 生成的数据答案

【问题标题】：Scraping javascript-generated data using Python使用 Python 抓取 javascript 生成的数据
【发布时间】：2012-04-20 14:26:19
【问题描述】：

这是关于公司信息的摘要。

我要抓取的内容未显示在第一页上。通过单击名为“재무제표”的选项卡，您可以访问财务报表。然后点击名为“현금흐름표”的标签，您可以访问“现金流”。

我想抓取“现金流”数据。

现金流数据是通过向这个url提交一些选项值和cookie来生成的。

如您所见，第一个链接中的 itemcode=078340 表示股票代码，我想收集多达 1680 只股票来收集现金流数据。我想让它成为一个循环结构。

有没有好的方法来抓取现金流数据？我试过scrapy，但scrapy很难应付我已经在使用的另一个抓取代码。

【问题讨论】：

【解决方案1】：

如果您需要 scape 使用 AJAX 更新的页面内容并且您不受此 AJAX 界面的控制，我将使用 Selenium 浏览器自动化器来完成该任务：

【讨论】：

【解决方案2】：

还有dryscape（我写的一个库，所以推荐有点偏颇，很明显：）它使用基于Webkit 的快速内存浏览器进行导航。它也能理解 Javascript，但比 Selenium 轻得多。

【讨论】：