【发布时间】:2017-02-27 13:31:14
【问题描述】:
首先非常感谢您的帮助和考虑,
我想从这个页面中提取一些东西http://ieeexplore.ieee.org/document/6875970/keywords 一旦你成为网站的一员,我就有兴趣在网络上抓取相关的信息
-
IEEE 关键字
-
INSPEC:受控索引
-
INSPEC:非受控索引
install.packages("rvest") 图书馆(rvest) 关键字
关键字 %>% 一个% html_text(a)
但它不起作用!
你能帮帮我吗?
非常感谢!
【问题讨论】:
-
你能不能再具体一点“但这不起作用!”
-
是的,当然!我想要的是从网站中提取所有关键字,例如地理空间分析,决策制定,......但是当我执行我的几行代码时,我所做的是“标记化错误(css):意外字符'/'在位置 5" 找到。因此,我担心我的代码不符合我的期望。因为我是 R 初学者,看了一些 R 教程(Lego_movies,但它是用 HTLM 编写的)。如果我没记错的话,我的网页是用 JavaScript 编写的。感谢您的帮助:)
-
我考虑过为您重新格式化此文件,但您至少在
%>% a <-上遇到了一些不应该发生的奇怪事情。除此之外,您希望抓取的网站具有使用条款...“访客/会员用户不得执行以下操作:[...] 通过电子邮件或任何其他文件传输以电子方式传输协议,IEEE Xplore 的任何部分。您可能需要考虑是否允许您在获得此信息后使用它。
标签: r web web-scraping