【问题标题】:How do I extract the links from this webpage (with R)?如何从该网页中提取链接(使用 R)?
【发布时间】:2018-01-09 19:28:21
【问题描述】:

使用 R,我正在尝试获取以下网页上的链接:https://icerbox.com/folder/eVDOgpD1/Goldmine.320

该页面包含 135 个文件链接。当您将鼠标悬停在文件名上时,右侧会显示一个蓝色下载符号。此下载符号指向文件的实际 url。但是,该 URL 似乎是由 javascript 生成的,并且不存在于 html 文件本身中。

我想提取这 135 个 URL,但我不知道如何捕获这些动态生成的 URL。

谁能帮助我如何获得这些?我对 R 中的任何方法(rvest、RSelenium 等)持开放态度

【问题讨论】:

  • 您确定您有权下载这些文件吗?
  • 你错了。 ToS : icerbox.com/ToS : 明确 表明您试图做的事情违反了网站政策,并且可能会使帮助您的人受到民事和刑事处罚。既然你故意对@MichaelChirico 撒谎,我真的不在乎你会发生什么。偷东西是一回事。说谎会让你处于一个完全低下的阶层,通常只有律师和政客居住。
  • 感谢您分享您的观点。
  • 我投票结束这个问题,因为它的答案似乎需要帮助和教唆犯罪
  • 我不认为弄清楚如何提取一组链接有什么问题。这就是问题所在。对我来说,如何进行这种提取的教育练习就是问题所在。该问题不需要下载任何文件。但如果这是你想要的,请关闭它。

标签: r rvest rselenium


【解决方案1】:

看起来您对 PhantomJS 的需求与此处使用的 TidyText 非常相似,他们也在寻求获取 javascript 中的链接

【讨论】:

  • 该页面上有一个可爱的 js 链接,它放弃了对系统实用程序依赖项的需要,但完全帮助该用户可能会让您陷入法律麻烦。
  • @chuck P,感谢您的建议,这是一个非常有教育意义的链接。
猜你喜欢
  • 2011-04-14
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-04-12
  • 2023-03-18
  • 2011-07-04
  • 2022-06-15
  • 2012-06-20
相关资源
最近更新 更多