【发布时间】:2016-02-22 10:02:54
【问题描述】:
我正在使用以下代码从网页中提取文本内容,我的应用托管在 Google App Engine 上,工作方式与 BoilerPipe Web API 完全相同。问题是我只能得到纯文本格式的结果。我在库中四处寻找解决方法,但找不到以 HTML 显示结果的方法。我想要的是在原始 BoilerPipe Web API here 中包含一个选项,如 HTML(提取模式)。
这是我用来提取纯文本的代码。
PrintWriter out = response.getWriter();
try {
String urlString = request.getParameter("url");
String listOUtput = request.getParameter("OutputType");
String listExtractor = request.getParameter("ExtractorType");
URL url = new URL(urlString);
switch (listExtractor) {
case "1":
String mainArticle = ArticleExtractor.INSTANCE.getText(url);
out.println(mainArticle);
break;
case "2":
String fullArticle = KeepEverythingExtractor.INSTANCE.getText(url);
out.println(fullArticle);
break;
}
} catch (BoilerpipeProcessingException e) {
out.println("Sorry We Couldn't Scrape the URL you Entered " + e.getLocalizedMessage());
} catch (IOException e) {
out.println("Exception thrown");
}
如何包含以 HTML 形式显示结果的功能?
【问题讨论】:
标签: servlets jakarta-ee web-scraping boilerpipe