【发布时间】:2012-03-23 18:39:06
【问题描述】:
我想制作一个 java 脚本爬虫,它从 php 服务器获取分配并索引页面。但是我要抓取的网站是外部的,我无法使用 javascript 访问它们是否有人有其他分配语言或 javascript 解决方案的解决方案。
我想过在加载新网站时使用greasemonkey 来抓取页面。
【问题讨论】:
标签: javascript greasemonkey web-crawler
我想制作一个 java 脚本爬虫,它从 php 服务器获取分配并索引页面。但是我要抓取的网站是外部的,我无法使用 javascript 访问它们是否有人有其他分配语言或 javascript 解决方案的解决方案。
我想过在加载新网站时使用greasemonkey 来抓取页面。
【问题讨论】:
标签: javascript greasemonkey web-crawler
由于浏览器安全限制,您无法访问它们——我相信这被称为跨站点脚本。这是 PHP 应用程序的工作类型,而不是客户端。
如果您需要客户端执行该工作,请向客户端请求绕过同源策略的权限。看这里stackoverflow.com:can-i-disable-sop-same-origin-policy-on-any-browser-for-development
您可以使用 java 小程序实现相同的目的。
【讨论】:
jquery.xdomainajax.js 能够加载外部页面。
这是一个加载网页的简单代码
$(document).ready(function(){
$('#test').load('http://abc.com', '', function(response, status, xhr) {
if (status == 'error') {
var msg = "Sorry but there was an error: ";
$(".content").html(msg + xhr.status + " " + xhr.statusText);
}
});
});
它可以跨域工作。
【讨论】: