【问题标题】:file_get_contents script works with some websites but not othersfile_get_contents 脚本适用于某些网站,但不适用于其他网站
【发布时间】:2011-08-01 18:53:54
【问题描述】:

我正在寻找一个 PHP 脚本来解析特定标签的 HTML。我一直在使用这个代码块,改编自 tutorial:

<?php 
$data = file_get_contents('http://www.google.com');
$regex = '/<title>(.+?)</';
preg_match($regex,$data,$match);
var_dump($match); 
echo $match[1];
?>

该脚本适用于某些网站(如上面的 google),但当我在其他网站(如freshdirect)上尝试时,我收到此错误:

“警告:file_get_contents(http://www.freshdirect.com) [function.file-get-contents]:打开流失败:HTTP 请求失败!”

我在 StackOverflow 上看到了很多很棒的 suggestions,例如在 php.ini 中启用 extension=php_openssl.dll。但是(1)我的 php.ini 版本中没有 extension=php_openssl.dll,并且(2)当我将它添加到扩展部分并重新启动 WAMP 服务器时,根据这个 thread,仍然没有成功。

有人介意给我指出正确的方向吗?非常感谢你!

【问题讨论】:

标签: php regex parsing file-get-contents


【解决方案1】:

它只需要一个用户代理(“any”真的,任何字符串都足够了):

file_get_contents("http://www.freshdirect.com",false,stream_context_create(
    array("http" => array("user_agent" => "any"))
));

more options

当然,你可以在你的ini中设置user_agent

 ini_set("user_agent","any");
 echo file_get_contents("http://www.freshdirect.com");

...但我更愿意为下一个开发它的程序员明确说明。

【讨论】:

  • 啊!谢谢!
  • 为什么有些网站需要这个,顺便说一句?
  • @ChuckLeButt Naive WAF 和/或一些用户代理的自定义响应。但是,正如tools.ietf.org/html/rfc2616#section-14.43 所说,您应该使用用户代理(尽管不是必需的),遵循 RFC 中的要求总是一个好主意。
【解决方案2】:
$html = file_get_html('http://google.com/');
$title = $html->find('title')->innertext;

或者如果你更喜欢 preg_match 并且你应该真正使用 cURL 而不是 fgc...

function curl($url){

    $headers[]  = "User-Agent:Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13";
    $headers[]  = "Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8";
    $headers[]  = "Accept-Language:en-us,en;q=0.5";
    $headers[]  = "Accept-Encoding:gzip,deflate";
    $headers[]  = "Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7";
    $headers[]  = "Keep-Alive:115";
    $headers[]  = "Connection:keep-alive";
    $headers[]  = "Cache-Control:max-age=0";

    $curl = curl_init();
    curl_setopt($curl, CURLOPT_URL, $url);
    curl_setopt($curl, CURLOPT_HTTPHEADER, $headers);
    curl_setopt($curl, CURLOPT_ENCODING, "gzip");
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1);
    $data = curl_exec($curl);
    curl_close($curl);
    return $data;

}


$data = curl('http://www.google.com');
$regex = '#<title>(.*?)</title>#mis';
preg_match($regex,$data,$match);
var_dump($match); 
echo $match[1];

【讨论】:

  • 只有在swaths of faster alternatives之间没有选择的情况下才使用简单的html dom
  • @Wrikken,在什么意义上更快?
  • DOM 解析和搜索/更改一般的 DOM(但如果它不习惯 DOM,则进行实际更改可能会有些冗长,因此链接到带有使其为的包的答案的链接像 simplehtmldom 一样简单,但仍然使用 dom/libxml 来加快处理速度)。
  • @Wrikken,我修改了 simplehtmldom 以使用 cURL 以更快地获取页面,但并没有真正关注处理速度。我使用正则表达式,即使它不是“打算播放”的方式。谢谢你的链接。
【解决方案3】:

另一种选择:一些主机禁用CURLOPT_FOLLOWLOCATION 所以递归是你想要的,也将登录到一个文本文件中的任何错误。还有一个如何使用DOMDocument() 提取内容的简单示例,显然它并不广泛,但您可以构建应用程序。

<?php 
function file_get_site($url){
(function_exists('curl_init')) ? '' : die('cURL Must be installed. Ask your host to enable it or uncomment extension=php_curl.dll in php.ini');
$curl = curl_init();
$header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
$header[] = "Cache-Control: max-age=0";
$header[] = "Connection: keep-alive";
$header[] = "Keep-Alive: 300";
$header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
$header[] = "Accept-Language: en-us,en;q=0.5";
$header[] = "Pragma: ";

curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0 Firefox/5.0');
curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
curl_setopt($curl, CURLOPT_HEADER, true);
curl_setopt($curl, CURLOPT_REFERER, $url);
curl_setopt($curl, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($curl, CURLOPT_AUTOREFERER, true);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_TIMEOUT, 60);

$html = curl_exec($curl);

$status = curl_getinfo($curl);
curl_close($curl);

if($status['http_code']!=200){
    if($status['http_code'] == 301 || $status['http_code'] == 302) {
        list($header) = explode("\r\n\r\n", $html, 2);
        $matches = array();
        preg_match("/(Location:|URI:)[^(\n)]*/", $header, $matches);
        $url = trim(str_replace($matches[1],"",$matches[0]));
        $url_parsed = parse_url($url);
        return (isset($url_parsed))? file_get_site($url):'';
    }
    $oline='';
    foreach($status as $key=>$eline){$oline.='['.$key.']'.$eline.' ';}
    $line =$oline." \r\n ".$url."\r\n-----------------\r\n";
    $handle = @fopen('./curl.error.log', 'a');
    fwrite($handle, $line);
    return FALSE;
}
return $html;
}


function get_content_tags($source,$tag,$id=null,$value=null){
    $xml = new DOMDocument();
    @$xml->loadHTML($source);

    foreach($xml->getElementsByTagName($tag) as $tags) {
        if($id!=null){
            if($tags->getAttribute($id)==$value){
                return $tags->getAttribute('content');
            }
        }
        return $tags->nodeValue;
    }
}


$source = file_get_site('http://www.freshdirect.com/about/index.jsp');

echo get_content_tags($source,'title'); //FreshDirect

echo get_content_tags($source,'meta','name','description'); //Online grocer providing high quality fresh......

?>

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-06-21
    • 2011-02-16
    相关资源
    最近更新 更多