：将html另存为文本答案

【问题标题】：:Save html as text：将html另存为文本
【发布时间】：2012-02-08 22:09:23
【问题描述】：

我有一个 javascript 代码，它只显示 html 页面的源代码

javascript:h=document.getElementsByTagName('html')[0].innerHTML;function%20disp(h){h=h.replace(/</g,%20'\n&lt;');h=h.replace(/>/g,'&gt;');document.getElementsByTagName('body')[0].innerHTML='<pre>&lt;html&gt;'+h.replace(/(\n|\r)+/g,'\n')+'&lt;/html&gt;</pre>';}void(disp(h));

我将代码保存为 Firefox 中的书签。所以加载网页后，当我从书签中选择代码时，它会显示源代码。

现在我尝试使用 python 保存 html 文件。

from BeautifulSoup import BeautifulSoup
from BeautifulSoup import BeautifulStoneSoup
import BeautifulSoup

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://www.doctorisin.net/")
soup = BeautifulSoup(page)
print soup.prettify()
fp = open('file.txt','wb')
fp.write(soup.prettify())

但它并不具备 javascript 代码所拥有的所有内容。保存的文件和javascript显示的源文件不一样。也许 python 代码没有从 html 页面获取所有代码（javascript/css 标记代码）。问题是什么？难道我做错了什么？需要帮助

谢谢

已编辑

以我的问题为例，http://phpjunkyard.com/tutorials/cut-paste-code.php（随机站点）进入这个站点，右键选择查看页面源(firefox) 复制源代码并保存在文本文件中。现在保存页面（将页面另存为）。您可以看到两者都不相同。已保存的页面（另存为）还有更多内容。 Python 提供源代码（查看页面源代码）之类的输出。它缺少一些脚本、表单等。

【问题讨论】：

这看起来像是一个 BeautifulSoup 问题，而不是一个 Ubuntu 问题。您不只是尝试将源保存为文本，而是在保存之前使用一些代码来修改源。如果您想保存源代码，请尝试从您选择的浏览器中单击右键菜单，您应该可以很容易地保存它。
为什么希望 BeautifulSoup 渲染 JavaScript？
另外，为什么你的代码 sn-p 中有如此多余的导入？
@Wolfger 我需要为我的项目保存一个 html 页面。所以我需要使用代码。
您不需要 BeautifulSoup 将 html 页面另存为文本（如在 Firefox 中 - 将页面另存为）。只需使用page.read()，作为您的示例 sn-p。 BeautifulSoup 是 HTML/XML 解析器 - 它允许您操作 HTML 数据

标签： python html javascript

【解决方案1】：

您看到的是静态网页和动态网页之间的区别。

与静态网页不同，动态网页可以在加载时修改底层 html。 Javascript 可以转储加载页面的完整 html，因为它可以访问浏览器创建的修改后的 DOM。

相反，如果从服务器下载同一个网页并直接馈送到BeautifulSoup，则只能将其解析为静态html。要获得完整的动态内容，该页面需要首先由浏览器（或同等设备）处理。

【讨论】：

【解决方案2】：

如果您想保存 Web 服务器提供的准确 HTML，请不要使用 BeautifulSoup（它是一个 HTML 解析器，在漂亮打印回来时可能会修改代码）；这将是一个更好的解决方案：

import urllib2
file("my_file.txt", "w").write(urllib2.urlopen("http://www.doctorisin.net/").read())

默认情况下，Firefox 不仅保存 HTML，还保存显示页面所需的文件（包括 css 和脚本）。

【讨论】：

谢谢。我已经尝试过了。请参阅编辑后的帖子。我已经用一个例子描述了我的问题。