【发布时间】:2015-05-02 03:18:49
【问题描述】:
我需要能够使用给定的 url 在线解析文件中包含的文本,即http://website.com/document.pdf。
我正在做一个搜索引擎,它基本上可以告诉我搜索的单词是否在某个在线文件中,并检索文件的 URL,所以我不需要下载文件,只需阅读它。
我正在寻找一种方法,并通过InputStream 和OpenConnection 找到了一些东西,但实际上并没有成功。
我正在使用 jsoup 来爬取网站以检索 URL,并且我试图使用 Jsoup 方法对其进行解析,但它不起作用。
那么最好的方法是什么?
编辑:
我希望能够做这样的事情:
File in = new File("http://website.com/document.pdf");
Document doc = Jsoup.parse(in, "UTF-8");
System.out.println(doc.toString());
【问题讨论】:
标签: java parsing pdf stream jsoup