【发布时间】:2012-02-08 22:09:23
【问题描述】:
我有一个 javascript 代码,它只显示 html 页面的源代码
javascript:h=document.getElementsByTagName('html')[0].innerHTML;function%20disp(h){h=h.replace(/</g,%20'\n<');h=h.replace(/>/g,'>');document.getElementsByTagName('body')[0].innerHTML='<pre><html>'+h.replace(/(\n|\r)+/g,'\n')+'</html></pre>';}void(disp(h));
我将代码保存为 Firefox 中的书签。所以加载网页后,当我从书签中选择代码时,它会显示源代码。
现在我尝试使用 python 保存 html 文件。
from BeautifulSoup import BeautifulSoup
from BeautifulSoup import BeautifulStoneSoup
import BeautifulSoup
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://www.doctorisin.net/")
soup = BeautifulSoup(page)
print soup.prettify()
fp = open('file.txt','wb')
fp.write(soup.prettify())
但它并不具备 javascript 代码所拥有的所有内容。保存的文件和javascript显示的源文件不一样。也许 python 代码没有从 html 页面获取所有代码(javascript/css 标记代码)。问题是什么?难道我做错了什么?需要帮助
谢谢
已编辑
以我的问题为例,http://phpjunkyard.com/tutorials/cut-paste-code.php(随机站点) 进入这个站点,右键选择查看页面源(firefox) 复制源代码并保存在文本文件中。现在保存页面(将页面另存为)。您可以看到两者都不相同。已保存的页面(另存为)还有更多内容。 Python 提供源代码(查看页面源代码)之类的输出。它缺少一些脚本、表单等。
【问题讨论】:
-
这看起来像是一个 BeautifulSoup 问题,而不是一个 Ubuntu 问题。您不只是尝试将源保存为文本,而是在保存之前使用一些代码来修改源。如果您想保存源代码,请尝试从您选择的浏览器中单击右键菜单,您应该可以很容易地保存它。
-
为什么希望 BeautifulSoup 渲染 JavaScript?
-
另外,为什么你的代码 sn-p 中有如此多余的导入?
-
@Wolfger 我需要为我的项目保存一个 html 页面。所以我需要使用代码。
-
您不需要 BeautifulSoup 将 html 页面另存为文本(如在 Firefox 中 - 将页面另存为)。只需使用
page.read(),作为您的示例 sn-p。 BeautifulSoup 是 HTML/XML 解析器 - 它允许您操作 HTML 数据
标签: python html javascript