【发布时间】:2012-12-11 17:49:41
【问题描述】:
NBoilerPipe 是 BoilerPipe Java 库的 Mono 端口。我已经设法在 .NET 4 中正常工作,没有太多麻烦(一些库引用需要修复/等)。但是,通过代码搜索,我找不到任何用于 HTML 输出的“钩子”。例如,GetText() 方法只有一个输入参数,我看不到任何其他方法。如何从 NBoilerPipe 获取 HTML 输出?
这是在 .NET4 中运行的示例 NBoilerPipe 代码:
String url = "http:// <etc> "; String page = String.Empty; WebRequest request = WebRequest.Create (url); HttpWebResponse response = (HttpWebResponse)request.GetResponse (); Stream stream = response.GetResponseStream (); using (StreamReader streamReader = new StreamReader (stream, Encoding.UTF8)) { page = streamReader.ReadToEnd (); } String text = ArticleExtractor.INSTANCE.GetText (page); Console.WriteLine ("Text: \n" + text);
【问题讨论】:
-
NBoilerPipe的目的不就是从html中提取文本吗?我不确定我是否理解您要执行的操作。
-
Boilerpipe 从页面中提取内容,过滤“样板”——如页眉、页脚、菜单、广告等。原始的 BoilerPipe 可以将内容作为 HTML 片段返回,或者进一步过滤以提供文本。 HTML 片段很有用,因为它们包含诸如 p 标记之类的内容。
标签: .net html mono boilerpipe