【问题标题】:html parsing with php simple_html_dom使用 php simple_html_dom 解析 html
【发布时间】:2015-10-12 09:35:07
【问题描述】:

我正在解析互联网报纸的 columinst 页面。我对这个网站有疑问

http://www.sozcu.com.tr/kategori/yazarlar/

解析在开始时工作正常,但停止工作。

这是我的代码

$curl_handle=curl_init();
curl_setopt($curl_handle, CURLOPT_URL,$gazeteAdress);
//curl_setopt($curl_handle, CURLOPT_CONNECTTIMEOUT, 2);
curl_setopt($curl_handle, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl_handle, CURLOPT_USERAGENT, 'mozilla');
$query = curl_exec($curl_handle);
curl_close($curl_handle);
$html = new simple_html_dom();
$html->load($query);

我不知道为什么我的代码有时无法解析网站,所以我在考虑 connection_timeout。但这不是问题,所以我想用 curl 打印 html 页面。

echo $html;

这是结果。 (有时我的代码无法正确解析 html 页面)

为什么没有出现 html 标签以及为什么会看到这样的结果。有人可以帮忙吗?

【问题讨论】:

    标签: php html parsing curl simple-html-dom


    【解决方案1】:

    返回的内容是压缩的,因此您应该为 curl 指定带有 'gzip,deflate' 标头的 Accept-Encoding。

    请添加此行
    curl_setopt($curl_handle, CURLOPT_ENCODING, "gzip,deflate");
    之后
    curl_setopt($curl_handle, CURLOPT_USERAGENT, 'mozilla');

    【讨论】:

      【解决方案2】:
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-01-04
      • 1970-01-01
      • 2014-05-24
      • 2018-07-20
      • 2018-09-17
      相关资源
      最近更新 更多