维基百科使用 jsoup 抓取纯文本和超链接答案

【问题标题】：wikipedia scraping plain text and hyperlink with jsoup维基百科使用 jsoup 抓取纯文本和超链接
【发布时间】：2020-01-07 05:21:42
【问题描述】：

我有一个看起来像这样的 Wikipedia 元素，我想用 Jsoup 抓取它。我想将元素放入字符串列表中，并在有
时将它们分开，如果这有意义的话。现在，我正在循环的所有子元素中的元素，其中遗漏了 CCCC 和 GGGG 等纯文本。有什么方法可以捕获纯文本和超链接文本？

<td class="" style="" itemprop="">
<a href="/wiki/%E5%9C%8B%E5%AD%B8%E9%99%A2%E5%A4%A7%E5%AD%B8" title="AAAA">AAAA</a> 
<a href="/wiki/%E6%96%87%E5%AD%A6%E9%83%A8" title="BBBB">BBBB</a>
"CCCC"
<br>
"DDDD"
<a href="/wiki/%E5%A4%A7%E5%AD%A6%E9%99%A2" title="EEEE">EEEE</a>
<a href="/wiki/%E6%96%87%E5%AD%A6%E7%A0%94%E7%A9%B6%E7%A7%91" title="FFFF">FFFF</a> 
<br>
GGGG
</td>

维基百科页面如下所示（粗体为超链接文本）：

AAAABBBBCCCC

DDDDEEEEFFFF

GGGG

我想创建一个这样的列表： [AAAABBBBCCCC, DDDDEEEEFFFF, GGGGG]

【问题讨论】：

标签： jsoup screen-scraping wikipedia

【解决方案1】：

在这种特定情况下，您可以对 html 进行预处理，以使 Jsoup 更轻松。试试这个代码：

    String html = "<table><td class=\"\" style=\"\" itemprop=\"\">\n" +
            "<a href=\"/wiki/%E5%9C%8B%E5%AD%B8%E9%99%A2%E5%A4%A7%E5%AD%B8\" title=\"AAAA\">AAAA</a> \n" +
            "<a href=\"/wiki/%E6%96%87%E5%AD%A6%E9%83%A8\" title=\"BBBB\">BBBB</a>\n" +
            "\"CCCC\"\n" +
            "<br>\n" +
            "\"DDDD\"\n" +
            "<a href=\"/wiki/%E5%A4%A7%E5%AD%A6%E9%99%A2\" title=\"EEEE\">EEEE</a>\n" +
            "<a href=\"/wiki/%E6%96%87%E5%AD%A6%E7%A0%94%E7%A9%B6%E7%A7%91\" title=\"FFFF\">FFFF</a> \n" +
            "<br>\n" +
            "GGGG\n" +
            "</td></table>";

    html = html.replace("<br>", "</td><td>");

    Document doc = Jsoup.parse(html);
    List<String> result = doc.select("td").eachText()
            .stream()
            .map(r -> r.replace("\"", ""))
            .map(r -> r.replace(" ", ""))
            .collect(Collectors.toList());
    System.out.println(result);

【讨论】：

我正在抓取数百个此类维基百科页面，其中一些有超过 2 个或只有 1 个，而其他只有纯文本，没有
如何写一个刮所有这些不同的模式？
您能否提供与我提供的示例不符的标签结构示例？
我解决了这个问题，你的 eachText() 就是解决方案。谢谢