【问题标题】:Read xml data with rvest使用 rvest 读取 xml 数据
【发布时间】:2020-09-17 03:13:17
【问题描述】:

我正在尝试从以下链接读取 xml 数据:

https://www.sec.gov/Archives/edgar/data/1026081/000092189520001626/infotable.xml

我正在使用 rvest 包并这样做

library(rvest)
url <- "https://www.sec.gov/Archives/edgar/data/1026081/000092189520001626/infotable.xml"

test <- url %>% 
  read_xml() %>% 
  xml_nodes("nameOfIssuer") %>% 
  xml_text()

但这不起作用。 “测试”为空。我也试过xpath。我也尝试过其他变体,例如

test <- url %>% 
  read_xml() %>% 
  xml_nodes("infoTable") %>% 
  xml_text()

我觉得我错过了一些超级基本的东西。我将如何从这里抓取特定的节点信息。

提前致谢!

【问题讨论】:

    标签: r xml web-scraping rvest


    【解决方案1】:

    是的,您错过了您尝试抓取的节点位于特定 xml 命名空间内的事实。去掉命名空间,你就可以开始了。

    url %>% read_xml() %>% xml_ns_strip() %>% xml_nodes("nameOfIssuer") %>% xml_text()
    #>  [1] "BANCORP 34 INC"               "BANC OF CALIFORNIA INC"      
    #>  [3] "BANKWELL FINL GROUP INC"      "CBM BANCORP INC"             
    #>  [5] "CARTER BK & TR MARTINSVILLE"  "CITIZENS FINL GROUP"         
    #>  [7] "CIVISTA BANCSHARES INC"       "COLUMBIA FINL INC"           
    #>  [9] "CONNECTONE BANCORP INC NEW"   "FSB BANCORP INC"             
    #> [11] "FIRST UTD CORP"               "HV BANCORP INC"              
    #> [13] "HARBORONE BANCORP INC NEW"    "INVESTORS BANCORP INC NEW"   
    #> [15] "MSB FINL CORP NEW"            "MALVERN BANCORP INC"         
    #> [17] "MID SOUTHERN BANCORP INC"     "NORTHEAST BK LEWISTON ME"    
    #> [19] "PB BANCORP INC"               "PEAPACK-GLADSTONE FINL CORP" 
    #> [21] "PIONEER BANCORP INC"          "PROVIDENT BANCORP INC"       
    #> [23] "PRUDENTIAL BANCORP INC NEW"   "RICHMOND MUT BANCORPORATIN I"
    #> [25] "SELECT BANCORP INC NEW"       "STERLING BANCORP DEL"        
    #> [27] "WATERSTONE FINL INC MD"       "WINTRUST FINL CORP" 
    

    【讨论】:

      猜你喜欢
      • 2020-09-12
      • 1970-01-01
      • 2018-04-03
      • 2019-02-13
      • 1970-01-01
      • 2011-05-18
      • 1970-01-01
      • 1970-01-01
      • 2018-05-29
      相关资源
      最近更新 更多