【发布时间】:2011-02-24 15:51:57
【问题描述】:
我正在寻找与 Arc90 的 readability.js 大致相当的 Python 包/模块/函数等
http://lab.arc90.com/experiments/readability
http://lab.arc90.com/experiments/readability/js/readability.js
这样我就可以给它一些 input.html 并且结果是该 html 页面的“main text”的清理版本。我想要这个,以便我可以在服务器端使用它(不像只在浏览器端运行的 JS 版本)。
有什么想法吗?
PS:我已经尝试过 Rhino + env.js 并且该组合有效,但性能无法接受,清理大部分 html 内容需要几分钟:((仍然找不到为什么会有如此大的性能差异) .
【问题讨论】:
标签: javascript python html-content-extraction heuristics