【发布时间】:2021-07-18 01:21:27
【问题描述】:
我正在使用 Jsoup 开发网络爬虫,并希望从表格中提取链接。
这是我正在看的:
<ul class="inline-list indent>
<li>
::marker
<a href="www.linkhere.com" title="Some Text">Some Other Text</a>
(Date & Time Stamp)
</li>
我想要www.linkhere.com 和其他一些文本。我已经想出了如何获取 Some Other Text,但无法获取 www.linkhere.com。
这是我尝试过的:
Document results = Jsoup.connect(url).get();
tTable = ("li:nth-of-type(1)");
Element row : results.select("ul.indent.inline-list:nth-of-type(1)")
Element link = results.select("ul.indent.inline-list:nth-of-type(1) > a").first();
tName = row.select(tTable).text();
articleLink = link.attr("href");
System.out.println(tName);
System.out.println(articleLink);
这给了我错误:
NullPointerException:无法调用“org.jsoup.nodes.Element.attr(String)”,因为“llink”为空
【问题讨论】:
-
如果您在网页浏览器中禁用 JavaScript 浏览此页面,您是否仍会在此页面上看到相同的内容?
-
页面略有改动,但我追求的内容是一样的
-
尝试将 userAgent 字符串添加到您的 get 请求中。
标签: java html web-scraping jsoup