【发布时间】:2020-01-07 05:21:42
【问题描述】:
我有一个看起来像这样的 Wikipedia 元素,我想用 Jsoup 抓取它。我想将元素放入字符串列表中,并在有
时将它们分开,如果这有意义的话。现在,我正在循环 的所有子元素中的元素,其中遗漏了 CCCC 和 GGGG 等纯文本。有什么方法可以捕获纯文本和超链接文本?
<td class="" style="" itemprop="">
<a href="/wiki/%E5%9C%8B%E5%AD%B8%E9%99%A2%E5%A4%A7%E5%AD%B8" title="AAAA">AAAA</a>
<a href="/wiki/%E6%96%87%E5%AD%A6%E9%83%A8" title="BBBB">BBBB</a>
"CCCC"
<br>
"DDDD"
<a href="/wiki/%E5%A4%A7%E5%AD%A6%E9%99%A2" title="EEEE">EEEE</a>
<a href="/wiki/%E6%96%87%E5%AD%A6%E7%A0%94%E7%A9%B6%E7%A7%91" title="FFFF">FFFF</a>
<br>
GGGG
</td>
维基百科页面如下所示(粗体为超链接文本):
AAAABBBBCCCC
DDDDEEEEFFFF
GGGG
我想创建一个这样的列表: [AAAABBBBCCCC, DDDDEEEEFFFF, GGGGG]
【问题讨论】:
标签: jsoup screen-scraping wikipedia