【问题标题】:Use rvest to read xml data contained in a .txt file使用 rvest 读取 .txt 文件中包含的 xml 数据
【发布时间】:2020-09-12 18:53:38
【问题描述】:

我正在尝试从以下链接读取 xml 数据:

https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt

当我使用 rvest 包中的 read_xml 时

link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt"
html_test <- read_xml(link)

我收到一个错误:

“read_xml.raw 中的错误(raw, encoding = encoding, base_url = base_url, as_html = as_html, : 开始和结束标签不匹配:ACCEPTANCE-DATETIME 第 3 行和 SEC-HEADER [76]"

有没有办法读取这个文本文件并提取某些 xml 标签?

提前致谢!

【问题讨论】:

    标签: r xml rvest


    【解决方案1】:

    您可能正在处理损坏的 xml 文件,如 here 所述。使用read_html 阅读有效。然后,您可以将其放入列表并使用它,但可能不可行,具体取决于您需要提取的内容。

    library(xml2)
    link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt"
    html_test <- read_html(link)
    
    html_list <- as_list(html_test)
    
    

    【讨论】:

      猜你喜欢
      • 2020-09-17
      • 2019-02-19
      • 1970-01-01
      • 1970-01-01
      • 2018-08-21
      • 1970-01-01
      • 2011-10-30
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多