【问题标题】:How to get result of BoilerPipe extraction in HTML instead of plain text如何在 HTML 而不是纯文本中获取 BoilerPipe 提取的结果
【发布时间】:2016-02-22 10:02:54
【问题描述】:

我正在使用以下代码从网页中提取文本内容,我的应用托管在 Google App Engine 上,工作方式与 BoilerPipe Web API 完全相同。问题是我只能得到纯文本格式的结果。我在库中四处寻找解决方法,但找不到以 HTML 显示结果的方法。我想要的是在原始 BoilerPipe Web API here 中包含一个选项,如 HTML(提取模式)。

这是我用来提取纯文本的代码。

 PrintWriter out = response.getWriter();
    try {
        String urlString = request.getParameter("url");
        String listOUtput = request.getParameter("OutputType");
        String listExtractor = request.getParameter("ExtractorType");
        URL url = new URL(urlString);
        switch (listExtractor) {
            case "1":
                String mainArticle = ArticleExtractor.INSTANCE.getText(url);
                out.println(mainArticle);
                break;
            case "2":
                String fullArticle = KeepEverythingExtractor.INSTANCE.getText(url);
                out.println(fullArticle);
                break;
        }
    } catch (BoilerpipeProcessingException e) {
        out.println("Sorry We Couldn't Scrape the URL you Entered " + e.getLocalizedMessage());
    } catch (IOException e) {
        out.println("Exception thrown");
    }

如何包含以 HTML 形式显示结果的功能?

【问题讨论】:

    标签: servlets jakarta-ee web-scraping boilerpipe


    【解决方案1】:

    我正在使用 Boilerpipe 的源代码,并使用以下代码解决您的问题:

    String urlString = "your url";
    URL url = new URL(urlString);
    URI uri = new URI(urlString);
    
    final HTMLDocument htmlDoc = HTMLFetcher.fetch(url);
    
    final BoilerpipeExtractor extractor = CommonExtractors.DEFAULT_EXTRACTOR;
    
    final HTMLHighlighter hh = HTMLHighlighter.newExtractingInstance();
    hh.setOutputHighlightOnly(true);
    
    TextDocument doc;
    
    String text = "";
    
    doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
    extractor.process(doc);
    final InputSource is = htmlDoc.toInputSource();
    text = hh.process(doc, is);
    
    System.out.println(text);
    

    Source

    【讨论】:

      猜你喜欢
      • 2023-03-08
      • 1970-01-01
      • 1970-01-01
      • 2017-03-03
      • 2016-05-22
      • 2015-09-20
      • 1970-01-01
      • 1970-01-01
      • 2014-08-19
      相关资源
      最近更新 更多