【发布时间】:2011-09-12 00:30:01
【问题描述】:
我想知道如何(或多或少)可靠地剪辑随机网站的内容(使用 Ruby 或 JavaScript,并不重要)。
很像 Evernote 和 Flipboard。
确定实际内容在页面中的何处的最佳方法是什么?
目的:给定一个 URL - 检索该页面的实际内容并忽略所有布局和其他不相关信息。
例如:
- 给定http://ninemsn.com/ => 位于内容中间部分的主要新闻主题的 HTML。
- 鉴于http://news.cnet.com/8301-1035_3-20104048-94/a-beginners-guide-to-telecom-jargon-part-7 => 主要文章的 HTML。
只需使用 Evernote 的“剪辑整页”选项即可准确了解我的意思。
谢谢。
【问题讨论】:
-
我认为这是一个很好的问题;我也有兴趣了解这一点。我将在此处作为书签发布评论,以便稍后如果有人回答,我可以找到此问题。
-
您能详细说明“剪辑”是什么意思吗?这是否意味着对页面上的 HTML 进行数据挖掘,或者您是否尝试将其呈现为图像?
-
剪切是指提取页面的实际内容。无论是 HTML 还是图像 - 这是另一个问题。问题是如何找到实际内容的位置。
标签: javascript html ruby web