【发布时间】:2011-03-03 01:10:02
【问题描述】:
我在 PHP 中使用 cURL 来获取网页内容,效果很好。但是我的程序现在要求我只从目标站点获取纯文本,而不是 HTML。我已经对此进行了广泛的研究,但似乎没有人知道答案。我也尝试在我的 cURL 选项中设置 CURLOPT_TRANSFERTEXT=1,但这似乎对结果没有影响。
知道为什么会这样吗?
【问题讨论】:
我在 PHP 中使用 cURL 来获取网页内容,效果很好。但是我的程序现在要求我只从目标站点获取纯文本,而不是 HTML。我已经对此进行了广泛的研究,但似乎没有人知道答案。我也尝试在我的 cURL 选项中设置 CURLOPT_TRANSFERTEXT=1,但这似乎对结果没有影响。
知道为什么会这样吗?
【问题讨论】:
确保您具备以下条件:
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_exec 的返回值应该是数据。
【讨论】:
我想这就是你要找的东西:
<?
$address = file_get_contents('http://www.thesite.com/file.html');
echo $address;
$file = file_get_contents('./file.txt', true);
or
$file = file_get_contents('./file.txt', FILE_USE_INCLUDE_PATH);
?>
【讨论】:
其实我确实喜欢这样来获取另一个页面的内容。
<?php
function curl_get_file_contents($URL)
{
$c = curl_init();
curl_setopt($c, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($c, CURLOPT_URL, $URL);
$contents = curl_exec($c);
curl_close($c);
if ($contents) return $contents;
else return FALSE;
}
echo curl_get_file_contents("http://www.php.net");
?>
但它会将全部内容返回给我。
【讨论】:
您的意思是要去掉页面上的所有 HTML 标签?
【讨论】: