【发布时间】:2012-04-12 15:38:47
【问题描述】:
通过网络浏览器,我可以通过访问类似
的 URL 来查看推文页面http://twitter.com/#!/[user-name]/status/[long-integer]
但我无法通过 unix 命令“wget”获取正确的页面内容。相反,我得到了 Twitter.com 的欢迎页面。 Twitter.com 如何区分命令行“获取”请求和通过浏览器的请求?谢谢。
当我试图找到问题的原因时,其他人正在试图找到问题的解决方案。 => Navigating / scraping hashbang links with javascript (phantomjs)
【问题讨论】:
-
#blah 完全是客户端。它用于滚动到页面上的锚点,尽管有些网站使用它来控制 AJAX 请求。该技术有一个名称,但我不记得了...如果我找到它会发布它。
-
有没有办法通过编码来模拟客户端的行为?
-
不容易。这基本上需要在您的代码中创建一个 JavaScript 解析器。不过,twitter 可能有一个 API。
-
@JoshLee 感谢您指出这一点。