【发布时间】:2015-01-22 03:57:27
【问题描述】:
当我在使用 Google 翻译时遇到这个问题时,我正在尝试使用 Jsoup 来查看是否可以从网页中提取信息。我已经走得够远了,以至于我的程序可以吐出一个直接转到翻译页面的 url,但是当我尝试从中提取源代码时,它会从 Translating...页。 以下是日语页面的示例链接:
(此链接稍后会变回原来的谷歌翻译页面)
如果你打开这个 url 并快速点击 ctrl + u,你会得到我之前提到的翻译页面的源代码(这是 Jsoup 在我从这个 url 中提取它时所做的)。我如何访问后面的源代码(在翻译页面上)?
我已经尝试从翻译页面中提取链接并关注它,但它没有给我想要的结果。请仅帮助我访问 Translating...
之后出现的页面页面这段代码会输出一个链接,让您通过 iframe
//GET INTO FIRST FRAME OF GOOGLE TRANSLATE PAGE
//translate web page from English to English through google translate
String url1 = "http://translate.google.com/translate?sl=ja&tl=en&u=https://mixi.jp/";
//create doc to hold html content
Document document1 = Jsoup.connect(url1).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:17.0) Gecko/17.0 Firefox/17.0").get();
//take url1 to web page where actual content is
Element link = document1.select("iframe").first();
String linkSrc1 = link.attr("abs:src");
System.out.println("linkSrc1: " + linkSrc1);
//END OF GET INTO FIRST FRAME OF GOOGLE TRANSLATE PAGE
谢谢!
【问题讨论】:
标签: java html-parsing jsoup