【问题标题】:Simplehtmldom - curl, loops, arrays?Simplehtmldom - 卷曲、循环、数组?
【发布时间】:2009-10-15 11:37:33
【问题描述】:

请原谅最有可能是愚蠢的问题。我已经成功地遵循了 simplehtmldom 示例,并从一个网页中获取了我想要的数据。

我希望能够将函数设置为遍历目录中的所有 html 页面并提取数据。我用谷歌搜索和搜索,但现在我很困惑,因为我在无知的状态下认为我可以(以某种方式)使用 PHP 在目录中形成一个文件名数组,但我正在努力解决这个问题。

而且我看到的很多例子似乎都在使用 curl。请有人告诉我应该怎么做。有大量文件。我已经尝试将它们连接起来,但这仅适用于通过 html 编辑器执行此操作 - 使用 cat -> 不起作用。

【问题讨论】:

    标签: php html dom extraction


    【解决方案1】:

    您可能希望使用glob('some/directory/*.html'); (manual page) 将所有文件的列表作为数组获取。然后对其进行迭代并为每个文件名使用 DOM 内容。

    如果你从另一个网络服务器拉取 HTML,你只需要 curl,如果这些存储在你想要的网络服务器上glob()

    【讨论】:

    • 非常感谢。奇迹般有效。谢谢谢谢谢谢。
    【解决方案2】:

    假设你所说的解析器工作正常,你应该构建一个简单的 www-spider。查看网页中的所有链接并构建“要扫描的链接”列表。并扫描每一页...

    不过,您应该注意循环引用。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-12-16
      • 2016-08-16
      • 2016-07-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-11-08
      • 2016-05-24
      相关资源
      最近更新 更多