【发布时间】:2014-03-27 00:05:36
【问题描述】:
我正在用 Java 编写一个网络爬虫工具。当我输入网站名称时,如何在不定义协议的情况下使其以 http 或 https 连接到该网站?
try {
Jsoup.connect("google.com").get();
} catch (IOException ex) {
Logger.getLogger(LinkGUI.class.getName()).log(Level.SEVERE, null, ex);
}
但我得到了错误:
java.lang.IllegalArgumentException: Malformed URL: google.com
我能做什么?是否有任何类或库可以做到这一点?
我想要做的是我有一个包含 165 门课程的列表,每门课程都有 65 - 71 个 html 页面,其中包含所有链接。我正在编写一个 Java 程序来测试链接是否损坏。
【问题讨论】:
-
不,JDK 中没有这样的类,我怀疑任何库都允许这样做。你应该清楚你想要什么。 HTTP 和 HTTPS 非常不同。
-
在
URL前加前缀http://或https://? -
我不知道你的用例,但是尝试使用http,应该没问题.. 大多数网站都实现了url重定向。不过我同意上面的评论。
-
我要做的是我有一个包含 165 门课程的列表,每门课程都有 65 - 71 个 html 页面,其中包含所有链接。我正在编写一个 Java 程序来测试链接是否损坏。
标签: java url jsoup web-crawler