【发布时间】:2012-06-15 12:31:40
【问题描述】:
我正在处理一个处理网页 HTML 解析的项目。所以,我拿着我的blog(Bloggers 博客 - 动态模板)并尝试阅读它的内容。不幸的是,我没有查看博客网页的“实际”来源。
这是我观察到的:
我在我博客的一篇随机文章上单击了
view source,并试图找到其中的内容。我找不到任何东西。都是 JavaScript。于是,我将网页保存到笔记本电脑并再次查看来源,这次我找到了内容。
我还在浏览器中使用
developers tools检查了源代码,并再次找到了其中的内容。-
现在,我尝试了python方式
import urllib from bs4 import BeautifulSoup soup = BeautifulSoup( urllib.urlopen("my-webpage-address") ) print soup.prettify()我什至没有在里面找到HTML代码的内容。
最后,为什么我在case1、4中找不到源代码中的内容。
我应该如何获得实际的 HTML 代码?我希望听到任何可以完成这项工作的 python 库。
【问题讨论】:
-
您必须解析 JavaScript,这还有其他含义。
标签: python html html-parsing screen-scraping web-scraping