【问题标题】:How to detect the main article tag like Evernote clipper did如何像 Evernote Clipper 那样检测主要文章标签
【发布时间】:2014-09-11 12:38:47
【问题描述】:

当我尝试使用Evernote clipper extension 时, 我看到了一个非常有用的功能。 当我点击“文章”时,它给了我一个非常正确的页面主要内容。 让我们看看我使用 Evernote Clipper 和页面 https://developer.chrome.com/extensions/api_index 时的结果

我查看了evernote字段的主要文章,在几个页面中,文章实际上是从第一个文章标签中提取的。然而,evernote 剪裁器仍然可以很好地处理不使用这种标签的页面。

我想知道 Evernote Clipper 是如何做到这一点的?是否有任何 js 库支持检测包含页面主要内容的主要标记。 你能给我一些建议吗?

提前谢谢你!

【问题讨论】:

    标签: javascript html evernote


    【解决方案1】:

    据我所知,没有通用的 js 库可以做到这一点。 Evernote 剪辑器使用自己的方法从网页中提取“有趣”的内容。 您可以访问 Evernote 剪辑器的代码来尝试了解该过程。

    在我的 mac 上,chrome 扩展的路径是:

    ~/Library/Application Support/Google/Chrome/Default/Extensions/pioclpoplcdbaefihamjohnefbikjilc/6.2_0/

    这是另一个几乎相同的工具: https://www.readability.com/

    你也可以查看这个帖子:What algorithm does Readability use for extracting text from URLs?

    或在 google 上搜索诸如“内容提取 js lib”之类的术语。 (找到这个:https://github.com/hatena/extract-content-javascript

    希望对你有帮助

    【讨论】:

    • 感谢您的建议。我在看项目“可读性”
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-04-20
    • 2021-03-13
    • 2011-11-09
    • 1970-01-01
    相关资源
    最近更新 更多