【问题标题】:Identifying article tags识别文章标签
【发布时间】:2012-07-28 16:28:27
【问题描述】:

我正在尝试识别给定 URL 的标签。

标签规范有什么约定吗?任何基于常见用法的启发式方法?

我指的是对其内容进行分类的站内标签。例如在每篇 TC 文章的末尾,您都可以找到一个“标签”部分。大多数内容网站也是如此。

【问题讨论】:

  • 没有真正的约定,不......这可能比看起来更难。

标签: html regex parsing html-parsing pattern-matching


【解决方案1】:

我希望我能理解你的问题。我相信你指的是像'html''regex'之类的标签,就像你问题的结尾一样。

理论上,您可以假设页面使用rel="xyz" 作为标签链接。 Stackoverflow 做到了,我知道的其他一些网站也做到了。

http://microformats.org/wiki/rel-tag

但我认为它不是很可靠。因为没有“必须”,也不能保证这样的标签。

无论如何,如果您想尝试并解析内容,我不建议您从头开始。 Jsoup 例如在一个非常漂亮的库中提供了很多功能。您甚至可以找到具有特定属性的链接标签。

【讨论】:

    猜你喜欢
    • 2015-10-06
    • 2021-12-21
    • 2022-01-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-09-14
    • 2017-01-04
    相关资源
    最近更新 更多