【问题标题】:R - Read data from HTML tableR - 从 HTML 表中读取数据
【发布时间】:2015-01-18 23:19:29
【问题描述】:

我正在尝试执行“实用数据科学食谱”一书中的示例 代码如下:

year <- 2013

#Acquire offense data
  url <- paste("http://sports.yahoo.com/nfl/stats/byteam?  group=Offense&cat=Total&conference=NFL&year=season_",
         year,"&sort=530&old_category=Total&old_group=Offense")

offense <- readHTMLTable(url, encoding = "UTF-8", colClasses="character")[[7]]

并出现错误:

Error in UseMethod("xmlNamespaceDefinitions") : 
 no applicable method for 'xmlNamespaceDefinitions' applied to an object of class "NULL"

请帮忙

【问题讨论】:

  • 有趣,我没有收到任何错误(使用 Windows 7,{XML] 3.98-1.1 和 {RCurl} 1.95-4.3)。也许你需要更新一些包?
  • 我知道它是什么!可能是代理定义,因为我是在企业环境下工作的,那么如何配置readHTMLTable的代理设置呢?
  • 看看rvest 包,它有一些很好的解析工具,可以正常工作。

标签: r web-scraping


【解决方案1】:

解决问题需要配置http代理。 在 Windows 桌面编辑 R-Studio 快捷方式,在 R-Studio 名称后添加 代理定义

 http_proxy=http://user_id:passwod@your_proxy:your_port/

来源:Proxy settings for R

【讨论】:

  • 对于像这样的一些 URL,我必须使用 readHTMLtable(readLines(url),...) 否则即使配置了代理也会出现该错误。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-05-28
  • 1970-01-01
  • 1970-01-01
  • 2014-10-06
  • 2018-04-27
  • 2017-01-06
相关资源
最近更新 更多