【问题标题】:How to get the contents of a any source file [closed]如何获取任何源文件的内容[关闭]
【发布时间】:2012-10-08 15:05:14
【问题描述】:

例子:当url为http://www.google.com

我知道了,如何获取内容以及如何通过file_get_contentscurl方法解析。

所以,我的问题是:如何获取内容并解析该网页的源文件。

例如:查看源代码:http://www.google.com

当我尝试解析上述源文件时,我发现文件内容最初没有被加载以进行解析。

所以我需要有关方面的帮助,

如何加载view-source:http://www.google.com页面的内容。

【问题讨论】:

标签: php parsing curl


【解决方案1】:

你写道: "例如:查看源代码:http://www.google.com

当我试图解析上面的源文件时,我发现文件内容没有被加载”

这就是问题所在:view-source: 是 chrome 的一项功能——不是有效的 url。这就是内容不被加载的原因。 php 函数需要一个有效的 url:http://www.google.com,它可以从中加载源代码。

【讨论】:

    【解决方案2】:

    通过file_get_contents("http://www.google.com");获取网页内容;不是 file_get_contents("view-source: http://www.google.com");

    然后你解析它:

    $html = file_get_contents("http://www.google.com");
    $doc = new DOMDocument();
    $doc->loadHTML($html);
    

    如果 php DOM API 无法解析,你可以试试 PHP Simple HTML DOM Parser。 http://simplehtmldom.sourceforge.net/

    【讨论】:

      【解决方案3】:
      chrome 浏览器中的

      file_get_contentsview-source 应该返回相同的内容 - 页面的 HTML 代码。如果您试图获取该 HTML 背后的代码(PHP、.net 等...) - 您不能。

      view-source 向您显示与代码完全相同,由 cUrlfile_get_contents 返回,它是 Chrome 浏览器中的一项功能 - 它不是有效的 URL 地址方案。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2012-12-26
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多