【发布时间】:2010-10-23 06:49:28
【问题描述】:
我正在使用 curl 脚本转到链接并获取其内容以进行进一步操作。以下是链接和 curl 脚本:
<?php
$url = 'http://criminaljustice.state.ny.us/cgi/internet/nsor/fortecgi?serviceName=WebNSOR&templateName=detail.htm&requestingHandler=WebNSORDetailHandler&ID=368343543';
//curl script to get content of given url
$ch = curl_init();
// set the target url
curl_setopt($ch, CURLOPT_URL,$url);
// request as if Firefox
curl_setopt($ch, CURLOPT_HTTPHEADER, Array("User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.15) Gecko/20080623 Firefox/2.0.0.15") );
curl_setopt($ch, CURLOPT_NOBODY, false);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$result= curl_exec ($ch);
curl_close ($ch);
echo $result;
?>
但是网站并没有通过脚本将其排除在外,它会在结果中给用户异常,但是如果我们通常将 url 粘贴到浏览器中,它会完美地打开页面。
请帮忙,我在这里做错了什么。
感谢和问候
【问题讨论】:
-
这不是 data-mining。这只是web-scraping。请使用更合适的标签以获得更好的答案。
标签: php curl screen-scraping web-scraping