如何获取任何源文件的内容[关闭]答案

【问题标题】：How to get the contents of a any source file [closed]如何获取任何源文件的内容[关闭]
【发布时间】：2012-10-08 15:05:14
【问题描述】：

我知道了，如何获取内容以及如何通过file_get_contents或curl方法解析。

所以，我的问题是：如何获取内容并解析该网页的源文件。

例如：查看源代码：http://www.google.com

当我尝试解析上述源文件时，我发现文件内容最初没有被加载以进行解析。

所以我需要有关方面的帮助，

如何加载view-source:http://www.google.com页面的内容。

【问题讨论】：

【解决方案1】：

你写道： "例如：查看源代码：http://www.google.com

当我试图解析上面的源文件时，我发现文件内容没有被加载”

这就是问题所在：view-source: 是 chrome 的一项功能——不是有效的 url。这就是内容不被加载的原因。 php 函数需要一个有效的 url：http://www.google.com，它可以从中加载源代码。

【讨论】：

【解决方案2】：

通过file_get_contents("http://www.google.com");获取网页内容；不是 file_get_contents("view-source: http://www.google.com");

然后你解析它：

$html = file_get_contents("http://www.google.com");
$doc = new DOMDocument();
$doc->loadHTML($html);

如果 php DOM API 无法解析，你可以试试 PHP Simple HTML DOM Parser。 http://simplehtmldom.sourceforge.net/

【讨论】：

【解决方案3】：

chrome 浏览器中的

file_get_contents 和 view-source 应该返回相同的内容 - 页面的 HTML 代码。如果您试图获取该 HTML 背后的代码（PHP、.net 等...） - 您不能。

view-source 向您显示与代码完全相同，由 cUrl 或 file_get_contents 返回，它是 Chrome 浏览器中的一项功能 - 它不是有效的 URL 地址方案。

【讨论】：