通过 href 使用 jsoup 抓取维基百科页面答案

【问题标题】：crawling wikipedia pages with jsoup by href通过 href 使用 jsoup 抓取维基百科页面
【发布时间】：2017-04-04 18:05:28
【问题描述】：

我正在尝试通过此 ligne 代码从 jsoup 中的维基百科页面获取网址：

Elements linksOnPage = document.select("a[href~=\"/wiki/\"(([A-Za-z])*|_)]");

获取链接看起来像：https://en.wikipedia.org/wiki/United_Stat 或 https://en.wikipedia.org/wiki/English_people ....etc，但它对我不起作用，所以我希望从匹配的标签中获取链接：/wiki/[A- Za-z]*|_ 而不是这样的：https://en.wikipedia.org/wiki/Wikipedia:Administrators%27_noticeboard

【问题讨论】：

【解决方案1】：

我对你的任务有几个想法：

我用 jsoup 玩了一点，我认为从维基百科中解析出的类似的东西几乎就是你要找的东西：

Elements allInfoLinks = doc.select("a[href~=\\/wiki\\/([a-zA-Z0-9_/&?]+)$]");

顺便说一句，在您遇到正则表达式问题时，您可能会发现https://regex101.com/ 对调试非常有用

【讨论】：