【发布时间】:2010-06-19 01:54:38
【问题描述】:
我试图使用 BASH 中的 cURL 程序来下载网页的源代码。当页面使用比简单 HTML 更复杂的编码时,我在尝试下载页面代码时遇到困难。例如,我正在尝试使用以下命令查看以下页面的源代码:
curl "http://shop.sprint.com/NASApp/onlinestore/en/Action/DisplayPhones?INTNAV=ATG:HE:Phones"
但是,当我单击“查看源代码”时,结果与 Firefox 生成的源代码不匹配。我相信是因为页面上有 Javascript 元素,但我不能确定。
例如,我做不到:
curl "http://shop.sprint.com/NASApp/onlinestore/en/Action/DisplayPhones?INTNAV=ATG:HE:Phones" | grep "Access to 4G speeds"
即使在 Firefox 源代码中清楚地找到了该短语。我尝试浏览手册页,但我对问题的了解不够,无法找出可能的解决方案。
一个更可取的答案将包括为什么这不按我期望的方式工作,以及使用 curl 或其他可从 Linux 机器执行的工具来解决该问题。
编辑:
根据下面的建议,我还包括了一个没有成功的用户代理开关:
curl "http://shop.sprint.com/NASApp/onlinestore/en/Action/DisplayPhones?INTNAV=ATG:HE:Phones" -A "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2.3) Gecko/20100423 Ubuntu/10.04 (lucid) Firefox/3.6.3" | grep -i "Sorry"
【问题讨论】: