【发布时间】:2017-06-08 09:02:09
【问题描述】:
我使用 YQL 获取一些 html 页面以从中读取信息。 从今天开始,我收到返回消息“不再支持 html 表。有关 YQL 使用条款,请参阅 https://policies.yahoo.com/us/en/yahoo/terms/product-atos/yql/index.htm”
控制台中的示例:https://developer.yahoo.com/yql/console/#h=select+*+from+html+where+url%3D%22http%3A%2F%2Fwww.google.de%22
雅虎是否停止了这项服务?有人知道雅虎的公告吗?我想知道这是否只是一个错误,或者他们是否真的停止了这项服务......
所有文档仍然存在(html 抓取): https://developer.yahoo.com/yql/guide/yql-select-xpath.html , https://developer.yahoo.com/yql/
不久前我在雅虎的一个 YQL 论坛上发帖,现在这个论坛已经不存在了(或者至少我没有找到它)。您如何联系雅虎以查明该服务是否真的停止了?
最好的问候, 希伯来语3
【问题讨论】:
-
是的,也不适用于我。他们为我们提供了“YQL 使用条款”页面的链接,但这无济于事。似乎 YQL 服务仍在运行,但由于错误消息指出“HTML 表”查询不再受支持。所以,我试图找到另一种从网页中抓取 HTML 表格的方法。也许还有另一个 YQL 服务可以帮助从网页中提取表格,或者我可以尝试使用 YQL 中的一些替代查询。我想我必须阅读 YQL 上的文档才能找到答案。
-
这里有同样的问题。破坏了我的脚本并花了一些时间发现不再支持该表。还有其他公共代理(stackoverflow.com/questions/15005500/…),但它们都有一些限制,如果请求太多,可以被阻止,不像雅虎那样有缓存。
-
@user1467483 错误不是由 HTML 表格引起的。它与名为“html”的 YQL 表有关。将 YQL 与任何其他查询语言一样考虑——信息存储在表结构中。关于寻找 YQL 的替代品,这不是必需的。你只需要找到一个替代的 YQL 表。看我的回答
-
我在 GAE 上使用 YQL html 表 JSON 输出并打算使用 lxml 重构抓取。为了不破坏现有代码的接口,手头有示例 YQL 输出会很有用,尤其是 JSON,它非常奇特。 XML-to-JSON-transformation documentation 不是一个完整的规范(例如,它是如何处理混合节点的?)。请分享示例 html 与 json,例如 this one。
-
这是一个 Python 要点,可用于重构返回 JSON 的 YQL html 查询,方法是使用带有 XPATH 查询的 lxml 模块并将输出转换为 YQL 的 JSON 格式,以避免破坏与其他代码的接口:https://gist.github.com/vicmortelmans/5ee79080249ed5e0a173bc9e6fd426b1
标签: yql