【问题标题】:Unable to find exact source code of my blog找不到我博客的确切源代码
【发布时间】:2012-06-15 12:31:40
【问题描述】:

我正在处理一个处理网页 HTML 解析的项目。所以,我拿着我的blog(Bloggers 博客 - 动态模板)并尝试阅读它的内容。不幸的是,我没有查看博客网页的“实际”来源。

这是我观察到的:

  1. 我在我博客的一篇随机文章上单击了view source,并试图找到其中的内容。我找不到任何东西。都是 JavaScript。

  2. 于是,我将网页保存到笔记本电脑并再次查看来源,这次我找到了内容。

  3. 我还在浏览器中使用developers tools检查了源代码,并再次找到了其中的内容。

  4. 现在,我尝试了python方式

    import urllib
    from bs4 import BeautifulSoup
    
    soup = BeautifulSoup( urllib.urlopen("my-webpage-address") )
    print soup.prettify()
    

    我什至没有在里面找到HTML代码的内容。

最后,为什么我在case1、4中找不到源代码中的内容。

我应该如何获得实际的 HTML 代码?我希望听到任何可以完成这项工作的 python 库。

【问题讨论】:

  • 您必须解析 JavaScript,这还有其他含义。

标签: python html html-parsing screen-scraping web-scraping


【解决方案1】:

内容通过 JavaScript (AJAX) 加载。它不在“源”中。

在第 2 步中,您保存的是结果页面,而不是原始来源。在第 3 步中,您将看到浏览器正在呈现的内容。

第 1 步和第 4 步“不起作用”,因为您正在获取页面的源(不包含内容)。您需要实际运行 JavaScript,这对于屏幕抓取工具来说并不容易。

【讨论】:

  • 那么,我应该如何准确提取我写在里面的内容呢?
  • @Surya:您需要搜索可以像浏览器一样呈现页面的“无头浏览器”框架或库,包括 javascript。 Phantomjs,或 ghost 或 casperjs
  • 或者,如果您对只拥有原始内容没问题,您可以通过使用适当的 get 或 post 数据访问 ajax 端点自己在 Python 中发出 ajax 请求。
猜你喜欢
  • 2019-11-13
  • 2019-01-28
  • 2020-02-09
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-01-15
  • 2014-04-07
  • 2015-05-27
相关资源
最近更新 更多