Simplehtmldom - 卷曲、循环、数组？答案

【问题标题】：Simplehtmldom - curl, loops, arrays?Simplehtmldom - 卷曲、循环、数组？
【发布时间】：2009-10-15 11:37:33
【问题描述】：

请原谅最有可能是愚蠢的问题。我已经成功地遵循了 simplehtmldom 示例，并从一个网页中获取了我想要的数据。

我希望能够将函数设置为遍历目录中的所有 html 页面并提取数据。我用谷歌搜索和搜索，但现在我很困惑，因为我在无知的状态下认为我可以（以某种方式）使用 PHP 在目录中形成一个文件名数组，但我正在努力解决这个问题。

而且我看到的很多例子似乎都在使用 curl。请有人告诉我应该怎么做。有大量文件。我已经尝试将它们连接起来，但这仅适用于通过 html 编辑器执行此操作 - 使用 cat -> 不起作用。

【问题讨论】：

【解决方案1】：

您可能希望使用glob('some/directory/*.html'); (manual page) 将所有文件的列表作为数组获取。然后对其进行迭代并为每个文件名使用 DOM 内容。

如果你从另一个网络服务器拉取 HTML，你只需要 curl，如果这些存储在你想要的网络服务器上glob()。

【讨论】：

【解决方案2】：

假设你所说的解析器工作正常，你应该构建一个简单的 www-spider。查看网页中的所有链接并构建“要扫描的链接”列表。并扫描每一页...

不过，您应该注意循环引用。

【讨论】：